A napokban merült fel egy olyan kérdés a WORD szövegszerkesztőjével kapcsolatban, hogy van-e esetleg arra mód, hogy egy újabb esetleg régebbi verziójú beágyazott fájlt megnyissunk a megfelelő verziójú szövegszerkesztőnk nélkül, rengeteg beágyazott, beszúrt fájlt kinyerjünk egy mozdulattal vagy egyáltalán, egy WORD dokumentumunk tartalma kinyerhető-e anélkül, hogy lenne ilyen típusú szövegszerkesztőnk.
A válasz igen, ehhez mindössze annyit kell csak tudnunk, hogy az Office XML alapú formátumai, köztük a docx is, valójában tömörített állományok, amely anyagokhoz szimplán hozzáférhetünk, ha átnevezzük zipre az adott fájlunk kiterjesztését.
Szóval a példában adott egy WORD dokumentum, ami tartalmaz egy kis szöveget, egy beszúrt képet és egy beágyazott dokumentumot:
Fogjuk ezt a fájlt és nevezzük át a kiterjesztését .zip-re. Ha ezt megpróbáljuk megtenni, kapunk egy figyelmeztetést, hogy esetleg használhatatlanná válik így a fájlunk, de ezen lépjünk túl egyszerűen:
Ezután csomagoljuk ki ezt a tömörített állományt és már látjuk is, hogy miből áll a .docx fájlunk valójában:
Ha itt a könyvtárstruktúrában belépünk a word almappába, akkor a következő kép tárul elénk:
A legfontosabbak közül az első, amiket a mostani kérdéskör megválaszolásához ismernünk kell, az embeddings mappa, ugyanis itt találjuk meg a WORD fájlunkba beágyazott dokumentumokat:
A media mappában találjuk a beszúrt képeket, videókat, zenéket stb.:
Magáról a fájlban lévő szövegünkről pedig a document.xml fájl fog segíteni nekünk kideríteni dolgokat:
Ha ezt megnyitjuk mondjuk Notepadben, akkor eléggé kaotikus formában, de meg tudjuk nézni, hogy mit írtunk anno a dokumentumba:
A jobb olvasási élmény érdekében természetesen használhatunk XML editorokat is, amelyek segítenek jóval átláthatóbbá tenni ezt az xml fájlt. A többi könyvtár alapvetően nem létfontosságú számunkra, úgyhogy csak röviden érinteném őket:
a _rels könyvtárban található .rels fájl elérési útvonalakat (kapcsolatokat, innen a neve) tartalmaz a metadata (adatok az adatainkról) információkhoz, köztük például a document.xml fájlhoz, ami maga a dokumentumunk tartalma.
A docProps könyvtárban tehát metadata információ, tulajdonságokra vonatkozó adat található, az alapesetben itt lévő két fájl közül az app.xml magáról a WORD applikációról tárol adatokat (verziószám stb.), a core.xml pedig a dokumentumról, úgy mint a szerző nevét, a létrehozás dátumát stb.
A word könyvtár tartalmazza tehát a dokumentum tartalmát, ahogy arról már volt szó, a [Content_Types].xml pedig abban segít, hogy meghatározhassuk dokumentumunk minden egyedi jellemzőjét, azaz itt kerül listázására az összes olyan fontos jellemző, amely szükséges az applikációnak ahhoz, hogy megfelelően be tudja tölteni a dokumentumunkat.