II.3.4. A digitális szöveg

Mediális technikáink tehát meghatározzák mind magát az észlelést (egy szöveg szövegként történő azonosítását), mind pedig a vele végzett (tudományos) gyakorlatainkat, azaz a számítógéphasználat korántsem eszközprobléma, valójában gyökeresen átalakítja, mit értünk a szöveg alatt. Az információs társadalom a modernitás uralkodó médiumának, a könyv kulturális pozícióinak megroppantásával jelentős kihívást idézett a humán tudományok felé. A hagyomány szelekciójának a mediális váltással együtt járó problémájából[1] önmagában persze még nem feltétlenül következik a szövegekhez fűződő viszonyunk felülvizsgálata – amint erre Illichnek a skolasztikus írásbeliségről adott leírása figyelmeztet.

Az a mód ugyanakkor, ahogyan a számítógépen a szöveget rögzítjük, befolyásolja használatát. Egy általunk, kulturális tapasztalataink révén szövegként azonosított jelsort a számítógépen rögzíthetünk pixelekből vagy vektorokból álló képként. Lehet oldalelrendezésként felfogni, ami a legközelebb áll a nyomtatás logikájához, amennyiben egy adott oldaltükörben gondolkodva a szöveget különböző szempontok szerint elrendezett szövegdobozokba helyezzük: ilyenek a pdf-fájlok. De lehet a szöveget puszta karakterfolyamként is rögzíteni: betűkből, írásjelekből és sortörésekből álló egyszerű text-fájlokként, vagy ezek formázási utasításokkal (pl. félkövér szedéssel) kiegészített változataként is.

DeRose és szerzőtársai 1990-ben publikált tanulmánya, a What is Text, Really?[2] amellett érvel, hogy ezekkel a megoldásokkal a számítógép valódi lehetőségeit nem tudjuk kihasználni. Az általuk javasolt OHCO-modell az elmúlt negyedszázad során meghatározóvá lett. Az OHCO-modell szerint a szövegek tartalmi objektumok rendezett hierarchiájaként (ordered hierarchy of content objects) léteznek. Egyszerűbben, egy példa segítségével: egy könyv tipikusan részekből áll, a részek fejezetekből, a fejezetek szakaszokból stb. Szerkezete hierarchikus, mert a szakaszok beágyazódnak a fejezetekbe, a fejezetek a részekbe, és azért rendezett, mert a második rész csak akkor kezdődhet, ha az elsőnek vége és így tovább. Ahhoz, hogy a számítógépes feldolgozás számára is azonosítható módon jelöljük a szöveg elemeit, jelölőnyelvet kell alkalmazni. A leíró jelölőnyelvek az adott karaktersorhoz rendelik hozzá az általunk meghatározott címkét.

Vannak olyan jelölőnyelvek, amelyek előre rögzített elemkészlettel dolgoznak, ilyen a weboldalakon használt html, a Hypertext Markup Language. Egy véges elemkészlet azonban nem alkalmas szövegek kritikai célú leírására, illetve semmilyen egyedi szövegkódolási probléma kezelésére, ezért fejlesztették ki az xml-t (eXtensible Markup Language). Az xml nyelv nem valamilyen elemkészletet ír le, hanem azokat a szabályokat rögzíti, amelyek az érvényes és jól formázott jelölőnyelv megalkotásához szükségesek.[3]

A jövő század regénye idézett részletének első két bekezdésének szerkezeti jelölése a következőképpen néz ki a digitális bölcsészettudományokban kvázi sztenderdként elfogadott TEI-XML kódolásban:

Ez az Astrapé aztán egy hírlap.
Négyszer jelen meg napjában. Benne van minden nevezetes eseménye a bel– és külföldnek, a legújabb táviratok és a fővárosi sensationshírek, a gyűlések nevezetesebb beszédei, és mindez – egy nyolcadrét<note place="bottom" type="gloss" resp="#LG"><term xml:lang="hu">nyolcadrét</term> – a kiinduló ívből háromszori hajtással kialakított oldalméret</note> lapon.

Magyarázatok

, – bekezdés elem eleje, vége
<note>, </note> – jegyzet elem eleje, vége
<term>, </term> – terminus, szakkifejezés elem eleje, vége
@place, @type, @resp – valamely (a példában a jegyzet) elem hely, típus, felelőse/létrehozója típusú tulajdonsága

[1]Horváth Iván: A hálózati kultúra fenomenológiája. Egy általános textológia vázlata. Budapest. 2001.

[2]Steven J. DeRose, David Durand, Elli Mylonas, Allen Renear: What is Text, Really? Journal of Computing in Higher Education. 1.2 (1990) 3–26.

[3]Bíró Szabolcs: Szövegfeldolgozás XML-alapokon. Budapest: Neumann. 2005.

Feladat

A fenti példa alapján fogalmazza meg, milyen szabály szerint kell a tulajdonságok értékeit (bottom, gloss, #LG) a tulajdonsághoz rendelni!
Mészáros Ignác levelezőkönyvének korábban idézett részlete alapján egy levélnek milyen részei vannak?

A TEI-XML segítségével nemcsak a látható szerkezeti struktúrákat jelölhetjük (fejezet, címsor, bekezdés), hanem a szöveghez fűződő elemzéseket és értelmezéseket is. A TEI-irányelv az elmúlt negyedszázadban egyre inkább a metaszövegtípusok és a szövegaspektusok részletezése felé fordult, tehát az értelmezés és a funkcionális szempontok érvényesítését javasolja.[1] További fontos tulajdonsága az így rögzített szövegnek, hogy a szöveggel kapcsolatos információk tárolása és a megjelenítés nincs összefüggésben. Azaz a jelölt szöveg további sorsa közömbös a jelölés szempontjából: maradhat xml-fájl, amit egy böngészőben bárki megnézhet és láthatja a leíró elemeket; el lehet tárolni egy adatbázisban, lehet belőle weboldalt generálni vagy akár nyomdakész anyagot is előállítani.

[1]Fotis Jannidis: TEI in a crystal ball. Literary and Linguistinc Computing. (24.3) 2009. 253–265.

« Előző | Következő »