"... een lawine losse woorden waarin die waarheid uitgedrukt wordt die ik nog niet ken, en waaruit de computer, nu met een omgekeerd programma, het boek tevoorschijn haalt, mijn boek"1.
Uit wat we zojuist hebben gezegd over klovskij en de automatismen van de waarneming blijkt duidelijk dat voor wat de lexicale markering betreft (maar alleen hiervoor) de geautomatiseerde analyse van een tekst een grote steun kan zijn voor de vertaler. Gewoonlijk zal een vertaler een gemarkeerd woord met een ander gemarkeerd woord willen vertalen en een anoniem, ongemarkeerd woord, met een overeenkomstig standaardwoord.
Onder de woorden die in een tekst het vaakst voorkomen treffen we de zogenaamde "lege woorden" aan. Hiermee bedoelen we voegwoorden, voorzetsels, lidwoorden, voornaamwoorden, allemaal verbindingswoorden die geen rol spelen bij de poëtische expressie of uiting van begrippen, maar uitsluitend voor de syntactische samenhang zorgen. Daar zij altijd tot de meest frequente woorden horen, is dit feit op zich niet van betekenis.
Traditioneel kijken onderzoekers niet naar dit soort lege woorden. Recentelijk hebben sommige wetenschappers echter gewezen op de mogelijkheid dat die woorden, juist omdat ze zo weinig semantische lading hebben en gemakkelijk te vervangen zijn (men denke, voor het Nederlands, aan "je" en "jou(w)", "nee" en "neen", enz.), stukjes tekst ("strings") zouden kunnen vormen, identieke segmenten die door de auteur onbewust en bij herhaling zijn gebruikt en wijzen op een mogelijke herkomst. Men zou ze kunnen vergelijken met een soort vingerafdruk, met een vorm van genetisch materiaal van de stijl van een schrijver.
Deze hypothese is bijzonder interessant voor de reconstructie van het auteurschap van oude documenten, waarbij een beslissing moet worden genomen over de toeschrijving van een tekst aan de ene dan wel aan de andere auteur. Ook bij de vertaalwetenschappelijke analyse is dit een interessante mogelijkheid. Men zou zulke vingerafdrukken kunnen registreren in het origineel en daarna nagaan of ze ook in de doeltekst zijn terug te vinden. Wanneer ze daar ontbreken, kan men proberen vast te stellen of dat gevolgen heeft voor de interpretatie, de receptie en de intertekstuele invloeden.
Anderzijds kan ook de aanwezigheid van veel voorkomende woorden die niet behoren tot de categorie van de lege woorden, wijzen op tekstuele coherentie. Voorbeelden hiervan kunnen namen van personages zijn, of het gebruik in plaats daarvan - zowel in de bron- als in de doeltekst - van persoonlijke voornaamwoorden, of de aanwezigheid van aanwijzende (deiktische) woorden en hun behandeling in de vertaling. In dit laatste geval valt in de vertalingen een sterkere neiging tot expliciteit op te merken. De vertaler neemt vaak de rol op zich van culturele bemiddelaar, ook al hoort dit niet in de eerste plaats bij zijn functie als vertaler of bij zijn "opdracht", en neigt er daardoor toe - veelal onbewust - om de lezing van de doeltekst te vereenvoudigen, bijvoorbeeld door de deiktische woorden die refereren aan een aanliggende situatie (dit, deze, nu, de, een, enz.) te vervangen door andere die juist verwijzen naar een chronotopisch verder liggende of onbepaalde omgeving (die, daar, dan, een, de ander, enz.). In wezen is voor het geven van een precieze betekenis aan lage of hoge frequenties altijd een menselijke verbale synthese nodig die de numerieke gegevens in een context plaatst.
Er zijn ook woorden waarvan de hoge frequentie statistisch beschouwd niet belangrijk is, maar die wijzen op de aanwezigheid van motieven en thema´s binnen een tekst. Ze vormen isotopische netwerken die van groot belang zijn voor de cohesie, ook al vallen ze niet onder de weinig voorkomende woorden. Daarom is het belangrijk hun aanwezigheid ook in de doeltekst te controleren.
Er bestaan om deze redenen geen precieze en universele regels voor de interpretatie van de ruwe gegevens die door de computer worden gegenereerd. Ook een onderzoeker die beschikt over zeer verfijnde meetapparatuur dient over een hoge mate van persoonlijke wetenschappelijke creativiteit te beschikken om te vermijden dat hij door veronderstelde objectieve waarheden op een dwaalspoor wordt gebracht.
Een van de meest gebruikte programma´s voor tekstanalyse heet TACT en staat op het internet gratis ter beschikking voor alle onderzoekers en mensen die er geen commercieel gebruik van maken. Dit eenvoudige programma is in staat tekstbestanden in het formaat .txt off-line te bewerken. Het programma TACT is een van de bekendste in de wereld van de internationale universiteiten. Ermee werken is niet eenvoudig; als men er met profijt mee wil omgaan, dient men te beschikken over een zekere ervaring op het gebied van de informatica zoals die was voor de tijd van de gebruiksvriendelijke programma´s. Het werkt in DOS, en in zekere zin omzeilt het Windows.
Een van de gegevens die men met TACT en soortgelijke programma´s kan verkrijgen is de verhouding tussen type en token, dat wil zeggen tussen typen en voorkomende gevallen. Als we alle woorden van een tekst in alfabetische volgorde plaatsen, merken we dat sommige woorden herhaald worden, terwijl andere slechts eenmaal voorkomen. Als we ons verbeelden dat we op één regel de woorden opschrijven die herhaald worden, dan komt het aantal regels overeen met de typen (de verschillende woorden), terwijl het totale aantal woorden van een corpus bestaat uit de voorkomende woorden of tokens:
De kruik
De kruik gaat zolang te water tot hij barst.
In deze microtekst hebben we 9 typen en 11 voorkomende woorden, daar het woord "kruik" en het woord "de" beide worden herhaald:
barst
de de
gaat
hij
kruik kruik
te
tot
water
zolang
Een gegeven dat men hieraan kan ontlenen is de verhouding tussen typen en voorkomende gevallen. Hoe hoger deze verhouding, des te complexer en rijker is de tekst in lexicaal opzicht. En naarmate de woorden vaker voorkomen en deze verhouding lager wordt, neemt ook de lexicale complexiteit af.
Nog een gegeven dat we kunnen genereren is de plaatsing van de woorden in de co-tekst, als we kiezen hoe ruim die co-tekst moet zijn.
Alle aldus verkregen gegevens moeten in elk geval gezien worden in relatie tot de afmetingen van de tekst waarnaar wordt verwezen, omdat hoe korter een tekst is, hoe minder de desbetreffende statistieken natuurlijk van belang zullen zijn.
Raadpleging van corpora in plaats van woordenboeken is geen snelle en gemakkelijke activiteit. Het kan zelfs tijd vergen. Maar het resultaat is bevredigender dan bij woordenboeken doordat men een preciezer, concreter idee krijgt van de betekenis van een woord of zin.
Voor het Engels is het grootste corpus dat het publiek ter beschikking staat het British National Corpus, met het volgende adres:
In beide gevallen verwijst het gevonden woord naar de tekst waaraan het ontleend is en gaat het vergezeld van gegevens over de auteur en de publicatie. Dit stelt degene die de corpora raadpleegt in staat om er de nodige conclusies uit te trekken omtrent de graad van betrouwbaarheid van het gevonden woord en het soort register waarin het gebruikt wordt. Voor wie zich nader wil verdiepen in het onderwerp van deze twee lessen verwijs ik naar de bibliografie.
Hiermee is het tweede deel van de cursus afgesloten. In het derde deel zal de productie van de doeltekst centraal staan.
Bibliografische verwijzingen:
CALVINO I. Se una notte d'inverno un viaggiatore, Torino, Einaudi, 1979 (Nederlandse uitgave: Als op een winternacht een reiziger, vert. door H. Vlot, Amsterdam, Bert Bakker 1982).
LANA M. Testi stile frequenze [Tekst, stijl, frequentie], in <Lingua letteratura computer>, uitgegeven door Mario Ricciardi, Torino, Bollati Boringhieri, 1996, ISBN 88 339 0990 5.
LANA M. L'uso del computer nell'analisi dei testi. Scienze umane e nuove tecnologie, [Het gebruik van de computer bij de analyse van teksten. Menswetenschappen en nieuwe technologie] Milano, Franco Angeli, 1994, ISBN 88 204 8870 1.
LANCASHIRE I, Using TACT with Electronic Texts. A Guide to Text-Analysis Computing Tools, New York, The Modern Language Association of America, 1996, ISBN 0 873 52569 8.
ORLANDI T. Informatica umanistica [Informatica in de humaniora], Roma, La Nuova Italia Scientifica, 1990, ISBN 88 430 0887 0.
SHANNON C. E., WEAVER W. The Mathematical Theory of Communication, Urbana (Illinois), University of Illinois Press, 1949.
klovskIJ, V. B. O teorii prozy, Moskva, Federacija, 1929. Theory of prose, translated by Benjamin Sher with and introduction by Gerald R. Bruns. 1st American edition, Elmwood Park (Illinois), Dalkey Archive Press, 1990, ISBN 0 916 58354 6.
1 Calvino 1979, p. 189 (Calvino 1982, p. 152).