Logos Multilingual Portal

25 - Vertaalgeheugens

HomeTerugVooruit


"Und doch ist ein ‘solches Zurückziehen der Wache von den Toren des Verstandes’, wie Schiller es nennt, ein derartiges sich in den Zustand der kritiklosen Selbstbeobachtung Versetzen keineswegs schwer".1

En toch is zo’n ‘terugtrekken van de wacht van de poorten van het verstand’, zoals Schiller het noemt, een dergelijk zich verplaatsen in de toestand van kritiekloze zelfobservatie, in het geheel niet moeilijk.

Een van de technologische ontwikkelingen die de meeste invloed hebben gehad op de activiteit van vertalers in de laatste twintig jaar is het gebruik van vertaalgeheugens. Ook al moeten we hier meteen bij zeggen dat slechts een deel van de vertalers hier gebruik van maakt. Laat ik beginnen met de definitie van "vertaalgeheugen".

Vertaalgeheugens zijn daar ontstaan waar men besefte dat de automatische woord voor woord-vertaling tot mislukken gedoemd was. De overweging was als volgt: als het mogelijk was geweest gegevensbestanden (databases) aan te leggen die perfecte overeenkomsten tussen woorden in de brontaal en woorden in de doeltaal zouden bevatten, dan zou dit erg handig zijn, doordat deze combinaties van woorden en vertalingen slechts eenmalig in de database zouden hoeven worden ingevoerd, en daarna oneindig vaak bij de diverse vertalingen gebruikt zouden kunnen worden.

Daar dit niet werkt, of tenminste niet op een bevredigende wijze, zou men op een minder opvallende maar preciezer resultaat kunnen mikken: niet afzonderlijke woorden memoriseren, maar combinaties van woorden, kleine zinnen. In dit geval zou het invoeren van woorden in de database een veel grotere inspanning met zich meebrengen. Men zou dan namelijk, in plaats van bijvoorbeeld het woord ‘huis’, alle zinnen moeten invoeren die dat woord kunnen bevatten. Het resultaat wordt dan echter veel interessanter.

Gezien het feit dat het probleem van de automatische vertaling vooral te maken heeft met syntaxis (de syntagmatische vaardigheid is een computer moeilijk aan te leren, waardoor de woorden op een foutieve manier met elkaar worden gecombineerd) en met de keuze van de juiste vertaling bij N mogelijke vertalingen (ook de paradigmatische vaardigheid is een computer moeilijk aan te leren), wordt dat probleem omzeild door de computer tekstfragmenten aan te reiken die al syntactisch coherent zijn en zo (tenminste in sommige gevallen) fragmenten van de discours van de brontekst kunnen vervangen.

Uitgaande van dit theoretisch gegeven hebben technici een computerprogramma uitgedacht dat twee belangrijke functies in zich verenigt: de segmentering en het echte vertaalgeheugen. Alvorens een definitie van ‘vertaalgeheugen’ te geven, wil ik dat eerst doen voor ‘segmentering’.

Gezien het feit dat vertaalgeheugens, zoals gezegd, werken met tekstfragmenten, die in vakjargon "segmenten" worden genoemd, is het noodzakelijk dat iemand beslist hoe die segmenten kunnen worden afgebakend, in andere woorden: hoe een tekst moet worden gesegmenteerd. Het is evident dat criteria als het aantal schrifttekens, regels of woorden weinig zin zouden hebben. Het aantal letters zou met zich meebrengen dat woorden halverwege in tweeën worden gesneden, het aantal woorden dat een zin op een willekeurig punt wordt onderbroken, en het aantal regels zou een niet minder willekeurig criterium zijn.

Bijgevolg vindt segmentering gewoonlijk plaats op basis van leestekens, om fragmenten te verkrijgen die een zekere autonomie hebben en een bepaalde betekenis, die redelijkerwijs in andere teksten in dezelfde vorm of in soortgelijke gedaante terug zouden kunnen komen. De keuze van langere of kortere segmenten brengt voor- en nadelen met zich mee. Kiest men te korte segmenten, dan neemt de kans toe dat men dezelfde string in andere, toekomstige vertalingen zal tegenkomen. Het aantal woorden waaruit een string bestaat is namelijk omgekeerd evenredig met de verspreiding ervan. Ik geef een voorbeeld:

Als ik in Google zoek naar de string:

"Instructions for use" dan krijg ik 197.000 resultaten

Als ik in Google zoek naar de string:

"Instructions for use of", dan zijn de resultaten nog maar 20.500 in getal, en

als ik het lidwoord toevoeg:

"Instructions for use of the" worden de resultaten beperkt tot 7.800.

Wordt de string nog specifieker, bijvoorbeeld:

"Instructions for use of the software", dan krijg ik nog maar 55 resultaten.

Deze constatering maakt de keuze van korte segmenten aantrekkelijk. Anderzijds zou men door deze gedachtengang consequent door te voeren, weer terugkeren bij het uitgangspunt dat de afzonderlijke woorden de maximale lengte van de segmenten vormen, en we weten dat dit te veel moeilijkheden met zich meebrengt om handig te kunnen zijn. Daarom heeft de keuze van lange segmenten het voordeel dat ze meer waarschijnlijk maakt dat de eenmaal voorgestelde vertaling ook later bruikbaar is.

Gewoonlijk zijn leestekens een goed punt om een zin te onderbreken en deze te segmenteren: al naar gelang de situatie, het soort tekst en zijn persoonlijke voorkeur, kan men beslissen of de komma al dan niet daarbij moet worden gerekend.

De software die het vertaalgeheugen beheert begint eerst met segmentering van de brontekst. En hier gaat het echte vertaalgeheugen een rol spelen.

Na de brontekst te hebben gesegmenteerd krijgt de gebruiker boven elkaar twee horizontale tekstvakken te zien. In het bovenste is het eerste segment van de brontekst te lezen, terwijl het onderste vak leeg is. Het is leeg omdat we er vanuit gaan dat hier de eerste zin zal komen die de vertaler met dit (daarom nog lege) vertaalgeheugen gaat vertalen.

De vertaler schrijft in het onderste vak zijn eigen vertaling en geeft daarna de instructie verder te gaan. Hij krijgt dan de volgende zin (of liever: het volgende segment) van de brontekst te zien, met het onderste vak weer leeg. Het programma heeft echter in de tussentijd automatisch een file in tekstformaat (dat wil zeggen, met de extensie .txt) aangemaakt dat enige gegevens bevat (waar we in de volgende lessen nader bij zullen stilstaan) en die de vertaler betreffen, de combinatie van talen, eventueel de klant en dergelijke, en heeft in dit bestand het segment van de brontekst en dat van de doeltekst opgeslagen.

Op deze wijze zal het programma zodra de vertaler weer wordt geconfronteerd met hetzelfde segment van de doeltekst, automatisch in het onderste tekstvak (als suggestie, die de vertaler kan wijzigen) het fragment van de doeltekst weergeven zoals dat eerder was vertaald en eventueel bij een vorige gelegenheid was gewijzigd.

Gezien het feit dat, zoals ik al zei, de waarschijnlijkheid dat exact hetzelfde fragment van de brontekst terugkomt gering is, bieden de programma’s die vertaalgeheugens aanmaken de mogelijkheid om het percentage van overeenkomst in te stellen op grond waarvan een fragment wordt beschouwd als vergelijkbaar met een ander. In de volgende lessen zullen we deze principes concreet aan het werk zien in een voorbeeld aan de hand van het programma Wordfast.

Voorlopig wil ik alleen wijzen op de voor- en nadelen van een hoger of lager percentage van overeenkomst. Als we als percentage 100% instellen (en dus bewerkstelligen dat het programma alleen voorvertaalde segmenten aanreikt als die voor 100% overeenkomen met het segment van de brontekst in kwestie), dan heeft men het voordeel dat men er zeker van kan zijn dat een "correcte" vertaling wordt voorgesteld, en het nadeel dat de kans om identieke segmenten gepresenteerd te krijgen, uiterst gering is.

Als men echter als percentage laten we zeggen 50% instelt, dan zal het geheugen vaker in staat zijn om "suggesties" te doen, maar zullen die in de meeste gevallen onaanvaardbaar zijn.

Men merke op dat vertaalgeheugens het lastige probleem oplossen dat de vertaalwetenschap altijd kwelt: hoe stelt men vast dat een vertaling "correct" is?

Voor mij is een "correcte vertaling" een vertaling die ik heb gemaakt en gecorrigeerd en die mijn klant heeft geaccepteerd. Heel pragmatisch, natuurlijk. In dit geval kan de vertaalwetenschap ons niets wijzer maken, daar ze een beschrijvende en geen normatieve wetenschap is. Maar wie dat wel doet, is de klant, die besluit ons nog een opdracht te verlenen of ons uit zijn lijst van leveranciers te schrappen.

 

Bibliografische verwijzingen

FREUD SIGMUND, Die Traumdeutung (1902),

Frankfurt am Main, Fischer Taschenbuch Verlag, 1991 (Zwölfte, unveränderte Auflage 2005) ISBN 3-596-10436-X

FREUD SIGMUND The Interpretation Of Dreams translated by A. A. Brill London G. Allen & company 1913.

CHAMPOLLION YVES Wordfast, beschikbaar op het world wide web op het adres www.wordfast.org, geraadpleegd op 23 mei 2004.


1 Freud 1991: 117. HomeTerugVooruit