Word dokumentumunk tartalmának kinyerése WORD nélkül

2016. április 09. - Office Guru

A napokban merült fel egy olyan kérdés a WORD szövegszerkesztőjével kapcsolatban, hogy van-e esetleg arra mód, hogy egy újabb esetleg régebbi verziójú beágyazott fájlt megnyissunk a megfelelő verziójú szövegszerkesztőnk nélkül, rengeteg beágyazott, beszúrt fájlt kinyerjünk egy mozdulattal vagy egyáltalán, egy WORD dokumentumunk tartalma kinyerhető-e anélkül, hogy lenne ilyen típusú szövegszerkesztőnk.

A válasz igen, ehhez mindössze annyit kell csak tudnunk, hogy az Office XML alapú formátumai, köztük a docx is, valójában tömörített állományok, amely anyagokhoz szimplán hozzáférhetünk, ha átnevezzük zipre az adott fájlunk kiterjesztését.

Szóval a példában adott egy WORD dokumentum, ami tartalmaz egy kis szöveget, egy beszúrt képet és egy beágyazott dokumentumot:

x02.jpg

x01.jpgFogjuk ezt a fájlt és nevezzük át a kiterjesztését .zip-re. Ha ezt megpróbáljuk megtenni, kapunk egy figyelmeztetést, hogy esetleg használhatatlanná válik így a fájlunk, de ezen lépjünk túl egyszerűen:

x03_1.jpgEzután csomagoljuk ki ezt a tömörített állományt és már látjuk is, hogy miből áll a .docx fájlunk valójában:

x04.jpgHa itt a könyvtárstruktúrában belépünk a word almappába, akkor a következő kép tárul elénk:

x05.jpgA legfontosabbak közül az első, amiket a mostani kérdéskör megválaszolásához ismernünk kell, az embeddings mappa, ugyanis itt találjuk meg a WORD fájlunkba beágyazott dokumentumokat:

x06.jpgA media mappában találjuk a beszúrt képeket, videókat, zenéket stb.:

08.jpgMagáról a fájlban lévő szövegünkről pedig a document.xml fájl fog segíteni nekünk kideríteni dolgokat:

x07.jpgHa ezt megnyitjuk mondjuk Notepadben, akkor eléggé kaotikus formában, de meg tudjuk nézni, hogy mit írtunk anno a dokumentumba:

x08.jpgA jobb olvasási élmény érdekében természetesen használhatunk XML editorokat is, amelyek segítenek jóval átláthatóbbá tenni ezt az xml fájlt. A többi könyvtár alapvetően nem létfontosságú számunkra, úgyhogy csak röviden érinteném őket:

a _rels könyvtárban található .rels fájl elérési útvonalakat (kapcsolatokat, innen a neve) tartalmaz a metadata (adatok az adatainkról) információkhoz, köztük például a document.xml fájlhoz, ami maga a dokumentumunk tartalma.

A docProps könyvtárban tehát metadata információ, tulajdonságokra vonatkozó adat található, az alapesetben itt lévő két fájl közül az app.xml magáról a WORD applikációról tárol adatokat (verziószám stb.), a core.xml pedig a dokumentumról, úgy mint a szerző nevét, a létrehozás dátumát stb.

A word könyvtár tartalmazza tehát a dokumentum tartalmát, ahogy arról már volt szó, a [Content_Types].xml pedig abban segít, hogy meghatározhassuk dokumentumunk minden egyedi jellemzőjét, azaz itt kerül listázására az összes olyan fontos jellemző, amely szükséges az applikációnak ahhoz, hogy megfelelően be tudja tölteni a dokumentumunkat.

A bejegyzés trackback címe:

https://officeguru.blog.hu/api/trackback/id/tr278581018

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

toportyánféreg 2016.04.09. 20:31:54

tegyük hozzá, hogy a mezei Total Commander felhasználónak elég a Ctrl+PgDn kombinációt használni és egyből "belép" a fájlba

Office Guru 2016.04.09. 21:22:39

@toportyánféreg: Köszi, őszintén erről fogalmam sem volt eddig:)

Gyulus 2016.04.11. 14:44:05

Sőt, fel is lehet tölteni a Google Drive-ba, vagy a OneDrive-ba, vagy a Dropbox-ba, és máris olvashatjuk. Már ha nem akarunk ennyit kínlódni. :)