Logos Multilingual Portal

39. Analyse van de brontekst en de computer - deel een

HomeTerugVooruit


"Misschien zou ik in plaats van een boek beter woordenlijsten kunnen schrijven, in alfabetische volgorde, een lawine losse woorden waarin die waarheid uitgedrukt wordt die ik nog niet ken, en waaruit de computer, nu met een omgekeerd programma, het boek tevoorschijn haalt, mijn boek"1.

 

Tientallen jaren lang is het gebruik van de computer in de filologische wetenschappen en in het bijzonder in de tekstanalyse als een soort taboe beschouwd2. Dit lag vooral aan het feit dat de vorming van een filoloog - waaronder we hier ook een vertaler, criticus, docent of onderzoeker verstaan - in de loop der geschiedenis niet heeft geleid tot verdieping van de principes van de tekstgerichte informatica en de opleiding van de informaticaspecialist er trouwens al evenmin op is gericht om de elektronische rekenmachines toe te passen op typisch humanistische activiteiten als de filologie en de tekstwetenschap (de ecdotica)3.

Desondanks heb ik gemeend dit aan de analyse van de brontekst gewijde tweede deel van de cursus af te mogen sluiten met een tweetal lessen die gewijd zijn aan de mogelijkheden die de informatica biedt aan de vertaler die met het oog op zijn vertaling de brontekst wil of moet analyseren. Na de verblinding die in de jaren Zeventig en Tachtig was ontstaan door een overmaat aan enthousiasme voor de plotselinge technische ontwikkelingen, waardoor men ging geloven in de mogelijkheden om de electronica overal voor te gebruiken, de menswetenschappen en zelfs de vertalingen incluis, zijn we beland in een fase waarin we voorzichtiger op zoek zijn naar wat kan en wat niet.

Er bestaat zeker de nodige aandacht voor het belang bij de decodering van een tekst van de relaties met de context (de computer, die geen semantische vaardigheden heeft, kan alleen worden gebruikt om te tellen hoe vaak woorden voorkomen, hij is echter niet in staat om de context te definiëren of af te bakenen). Bij de decodering van de mogelijke betekenissen van een woord, kunnen nuttige betekenissen worden geactiveerd en onbruikbare worden onderdrukt, en kunnen verwijzingen naar de co-tekst worden gegenereerd.

Samen met de nieuwe technische mogelijkheden heeft dit een nieuw elan gegeven aan het gebruik van corpora binnen de humanistische wetenschappen. Onder "corpus" verstaan we een geheel van teksten die bepaalde eigenschappen gemeen hebben: de auteur of de taal of de tijd of het literaire genre of iets anders. Het fundamentele principe dat ten grondslag ligt aan de studie van een corpus is de waarneming van de taal, een descriptief principe dus. Daaraan proberen we normen te ontlenen, die we niet moeten zien als voorschriften maar als regelmatigheden. Om de taal in zijn functioneren te kunnen observeren is het nuttig gebruik te maken van corpora, want ze vormen constante parameters die je kunt vergelijken met bijzondere taaluitingen, die je kunt raadplegen en waarop je onderzoek kunt verrichten.

Een van de meest directe resultaten van bestudering van een corpus is de compilatie van concordanties, dat wil zeggen lijsten van woorden (of reeksen van woorden) die in een bepaalde vorm binnen een corpus voorkomen, voorzien van de noodzakelijke gegevens om ze op te zoeken (de vindplaatsen binnen de tekst). Tot enkele tientallen jaren geleden werden concordanties met de hand gemaakt, door het zeer tijdrovende en vermoeiende aanmaken van een kaartenbak, lemma voor lemma. Nu kan een concordantie geheel automatisch met behulp van elke personal computer worden gegenereerd, door middel van bewerking en voorbereiding van de uitgave van de elektronische tekst. Dit geeft geleid tot een renaissance4 van een discipline die bekend staat als corpus linguistics, dat wil zeggen, linguïstiek van de corpora.

Op het gebied van vertalingen gaat het gebruik van gecomputeriseerde corpora (al dan niet on-line te raadplegen) terug tot het laatste decennium van de twintigste eeuw. In zekere mate gaat het consulteren van corpora het gebruik van woordenboeken vervangen. Het maakt een meer directe en concrete interpretatie van het semantisch spectrum van elk woord in zijn context mogelijk.

Waar een woordenboek een interpretatie van de betekenissen van een woord geeft, de interpretatie van de auteur, en in sommige gevallen de interpretatieve mogelijkheden van de vertaler langs wegen leidt die niet samenvallen met diegene die in de gegeven context nuttig zijn, is raadpleging van een corpus veel empirischer en stuurbaarder, want ze laat de vertaler (of in het algemeen degene die de tekst decodeert) de mogelijkheid om mogelijke betekenissen aan te voelen of af te leiden uit de omgeving waarin ze ontstaan: de taaluiting zelf.

Bij de analyse van de tekst in het algemeen kan de computer een uiterst waardevol instrument zijn, mits men de beperkingen ervan beseft. We zullen daarom nu eerst stilstaan bij de beperkingen van de elektronische analyse van de tekst.

De computer is in staat om het aantal keren dat een woord of een sequentie van letters binnen een tekst voorkomt te tellen. Eventueel kan de computer berekenen hoe voorspelbaar het is dat die woorden of sequenties voorkomen. Dit kan hij door hun frequentie binnen een microtekst te vergelijken met de frequentie binnen een macrotekst welke die microtekst bevat (bijvoorbeeld het corpus). Hij is dus zeer nuttig voor de lexicale analyse van een tekst, en dus ook voor de lexicale samenhang ervan en voor intratekstuele en intertekstuele verwijzingen.

Bovendien is de computer in staat de statistische kans te berekenen dat een woord samen met een ander voorkomt (dat wil zeggen, zich in de nabijheid ervan bevindt), uiteraard refererend naar een precies bepaalde tekst, met andere woorden, in relatieve, niet in absolute termen.

Uit wat we zojuist hebben gezegd blijkt duidelijk dat wie een analyse uitvoert reeds in de beginfasen van het werk een heel actieve rol heeft. Gezien de enorme hoeveelheid gegevens die een tekst kan genereren met behulp van de informatica is het onmisbaar dat de algemene opzet van het onderzoek van meet af aan duidelijk is. Zo dient men, alvorens een tekst aan gecomputeriseerde analyse te onderwerpen, te beschikken over kennis van het werk in zijn algemeenheid en tevens van de auteur, maar vooral van het werk dat men wil analyseren. Ook dient men hypothesen te hebben geformuleerd die met de computer kunnen worden bevestigd of ontkracht.

Men moet er bij dat alles ook rekening mee houden dat de resultaten van een eerste ondervraging het onderzoek vaak langs aanvankelijk onvermoede paden leiden, terwijl andere benaderingen in de loop van het onderzoek terzijde worden geschoven bij gebrek aan aanwijzingen.

De computer is dan ook niet in staat om een onderzoek vorm te geven, of te beslissen welke vragen zinvol zijn en welke niet; maar hij is al evenmin in staat om de gegevens te interpreteren. Als een vertaler eenmaal in het bezit is van een lijst van woorden die in een tekst voorkomen en van combinaties van die woorden met andere gevallen waarin die woorden voorkomen en hun onderlinge verbindingen, dan moet hij in staat zijn vast te stellen welke gegevens echt betekenisvol zijn. De methodologische criteria zijn in deze zin niet absoluut, maar verschillen al naar gelang de precieze omstandigheden van de afzonderlijke analyses.

Zijn woorden die vaker voorkomen belangrijker of juist de minder frequente? De klassieke filologie kent het begrip hapax, gedefinieerd als een "vorm die slechts eenmaal in een tekst of in het onderzochte corpus voorkomt"5. De term is ontstaan doordat een zeldzame vorm gewoonlijk als bijzonder kostbaar wordt gezien, en natuurlijk is een hapax des te kostbaarder naarmate het corpus dat hem bevat groter is. Van een hapax is uitsluitend sprake als hij zich in aanwezigheid bevindt van veel andere woorden met een hoge frequentie.

Shannon en Weaver spreken over omgekeerde evenredigheid tussen voorspelbaarheid en informativiteit. In eenvoudige termen vertaald en toegepast op wat een vertaler interesseert die een tekst analyseert om die te kunnen vertalen, kan men zeggen dat hoe meer in een tekst voorspelbaar is dat een woord zich in een bepaalde positie bevindt, des te minder die aanwezigheid telt. Dat is een andere manier om aan te kijken tegen het vraagstuk van de markering van een uiting, waarover we al meerdere malen hebben gesproken in deze cursus. Deze wijze van redeneren lijkt sterk op die van Šklovskij over de vervreemding, de verbreking van het automatisme van de waarneming.

De Russische formalist Viktor Šklovskij besefte in de jaren ´20 al hoe belangrijk bij het waarnemen van een tekst de inbreuk op de routine was, het onderzoek van een object vanuit een geheel nieuw gezichtspunt6. Een niet gemarkeerde tekst, zoals we dat tegenwoordig zouden noemen, ofte wel een niet vervreemdende tekst, wordt ontvangen alsof de vorm ervan van secundair belang is, en de lezer krijgt de neiging om zich automatisch aan te passen aan de informatieve, denotatieve inhoud ervan, zonder te letten op expressieve aspecten. Een gemarkeerde tekst, dat wil zeggen een vervreemdende tekst, produceert daarentegen struikelblokken voor de "normale", automatische waarneming, en laat de aandacht van de lezer aldus belanden bij de vorm, die op die manier, juist omdat ze in het oog springt en de waarneming van de tekst verandert, tot integraal deel van de inhoud wordt.

 

Bibliografische verwijzingen:

CALVINO I. Se una notte d'inverno un viaggiatore, Torino, Einaudi, 1979 (Nederlandse uitgave: Als op een winternacht een reiziger, vert. door H. Vlot, Amsterdam, Bert Bakker 1982).

LANA M. Testi stile frequenze [Tekst, stijl, frequentie], in <Lingua letteratura computer>, uitgegeven door Mario Ricciardi, Torino, Bollati Boringhieri, 1996, ISBN 88 339 0990 5.

LANA M. L'uso del computer nell'analisi dei testi. Scienze umane e nuove tecnologie, [Het gebruik van de computer bij de analyse van teksten. Menswetenschappen en nieuwe technologie] Milano, Franco Angeli, 1994, ISBN 88 204 8870 1.

LANCASHIRE I, Using TACT with Electronic Texts. A Guide to Text-Analysis Computing Tools, New York, The Modern Language Association of America, 1996, ISBN 0 873 52569 8.

ORLANDI T. Informatica umanistica [Informatica in de humaniora], Roma, La Nuova Italia Scientifica, 1990, ISBN 88 430 0887 0.

SHANNON C. E., WEAVER W. The Mathematical Theory of Communication, Urbana (Illinois), University of Illinois Press, 1949.

ŠklovskIJ, V. B. O teorii prozy, Moskva, Federacija, 1929. Theory of prose, translated by Benjamin Sher with and introduction by Gerald R. Bruns. 1st American edition, Elmwood Park (Illinois), Dalkey Archive Press, 1990, ISBN 0 916 58354 6.


1 Calvino 1979, p. 189 (Calvino 1982, p. 152).
2 Met uitzondering van de samenstelling van concordanties, waarvoor al in de jaren ´70 van de computer gebruik is gemaakt, onder anderen door Mario Alinei aan de Universiteit Utrecht.
3 Het geheel van studie en ingrepen die nodig zijn voor het maken van een kristische teksteditie; filologie van de tekst. Uit het Grieks ekdosis, uitgave.
4 De corpus linguistics waren al ontstaan en hadden een bloeiend bestaan geleid vóór de opkomst van de leer van Chomsky. Door de verbreiding van de generatieve grammatica van Chomsky, die uitgaat van een lijnrecht er tegenovergestelde benadering - die de dieptestructuur als vertrekpunt neemt om daarvandaan naar de taaluiting op te klimmen, terwijl de corpus linguistics uitgaan van de taaluiting om te komen tot de contextuele en vluchtige betekenis - kreeg de linguïstiek van de corpora een zware klap te verduren. De verbreiding van personal computers met een capaciteit waarvan men nooit had kunnen dromen en tegelijkertijd de kritiek op de leer van Chomsky hebben aan de corpus linguistics een nieuwe impuls gegeven.
5 Lana 1996.
6 Šklovskij 1929.



 



HomeTerugVooruit