Logos Multilingual Portal

12 – Andere corpora en zelf aangemaakte concordanties

HomeTerugVooruit


"Es liegt mir nun daran zu zeigen, daß die Traumarbeit überhaupt durch das Zusammenwirken der drei erwähnten Momente – und eines vierten noch zu erwähnenden – erschöpft ist, daß sie sonst nichts leistet als eine Übersetzung der Traumgedanken (...)"1

Het gaat er mij nu om aan te tonen dat het droomwerk door de samenwerking van de drie genoemde momenten – en een nog nader te noemen vierde – volledig tot stand komt, en dat zij niets anders doet dan de droomgedachten vertalen.

 

Misschien is de meest complete site voor Engelstalige teksten The Online Books Page die John Mark Ockerbloom heeft ingericht op het adres

http://onlinebooks.library.upenn.edu/lists.html. De site bevat ruim twintigduizend werken, die op auteur, titel of onderwerp kunnen worden gezocht. De site heeft niet de structuur van een corpus, waardoor men de werken op zijn eigen computer kan downloaden, maar geen on line zoekopdrachten op deze teksten kan laten uitvoeren of toegang krijgen tot concordanties of die langs telematische weg aanmaken.

De teksten staan niet feitelijk op de server van de universiteit (de site maakt deel uit van het portaal van de University of Pennsylvania), maar men bereikt ze via een systeem van links op andere sites. Bibliothecaris Ockerbloom houdt de diverse links alle up-to-date, waardoor Online Books een van de meest door lezers op zoek naar teksten in elektronisch formaat geraadpleegde sites is.

Het gebeurt nogal vaak dat men kostbare materialen aantreft op sites die er niet op zijn toegerust de gebruikers te laten werken met de gevonden teksten. In dat geval is het goed om even stil te staan bij de mogelijkheid om zelf concordanties aan te maken. Op het eerste gezicht lijkt dit een moeilijke taak, maar als men er even mee bezig is, zal men zien dat het absoluut niet te vergelijken is met de enorme inspanningen die tot enkele jaren geleden hiertoe vereist waren. Vandaag de dag kan men zich binnen enkele uren via het internet voorzien van teksten en programma’s om met die teksten te werken. Laten we eens zien hoe dat in zijn werk gaat.

De eerste vraag waarop we een antwoord moeten geven is: "welk type corpus heb ik nodig?". Gewoonlijk wordt een corpus gebruikt om de gebruiksfrequentie van bepaalde woorden of uitdrukkingen of strings in een tekst te controleren. De gebruiksfrequentie van een woord kan kenmerkend zijn voor een auteur of een tekst, of typerend zijn voor een hele literaire stroming of historische periode. Bijgevolg wordt het gebruik ervan (of ook het niet voorkomen ervan) een gegeven van betekenis en kan soms een intertekstuele verwijzing vormen.

Om soortgelijke controles uit te voeren hebben we gewoonlijk twee corpora nodig: een corpus dat de tekst bevat waaraan men werkt (of de macrotekst van de werken van de auteur die men vertaalt), en een controlecorpus. Dat laatste bestaat doorgaans uit teksten van dezelfde periode en dezelfde taal en cultuur, en dient ter vergelijking.

Als we spreken over teksten uit een verder verleden, waarop dus geen auteursrecht meer rust, is het niet moeilijk ze te vinden: gewoonlijk staan ze op het internet. Wanneer het niet lukt ze in elektronisch formaat te vinden, kan men ze zelf aanmaken.

Men moet hiertoe beschikken over een scanner en een programma voor optische herkenning. Met de scanner worden de pagina’s van de te gebruiken teksten gescand en met het programma voor optische herkenning wordt het gescande beeld omgezet in tekst. Gewoonlijk genereren deze programma’s een tekst in .txt format, een formaat dat door elke tekstverwerker kan worden gelezen.

Om het corpus te creëren is het afdoende de werken waarvan men wil dat ze er deel van uitmaken in hetzelfde corpus bijeen te brengen en dat op te slaan in .txt format. Sommige programma’s voor het aanmaken van een concordantie vragen om een bijzonder .txt format, genaamd ".txt met regelonderbreking", een format dat met elke tekstverwerker kan worden aangemaakt.

Heeft men het materiaal eenmaal bijeengebracht en de corpora aangelegd, dan moet nog een programma worden gevonden voor het maken van de concordanties. Als men verbinding maakt met de pagina

http://www.corpus-linguistics.de/software/software_concord.html, die de naam Gateway to corpus linguistics on the internet draagt, dan verkrijgt men een overzicht van de beschikbare software. Er bestaan zowel gratis programma’s als programma’s waarvoor betaald moet worden.

Een van de gratis programma’s staat op de site

http://miniappolis.com/KWiCFinder/KWiCFinderDownload.html en heet KWiC Finder. Maar er bestaan ook andere: Concordance, door R.J.C. Watt (Windows 95/98/ME/2000/XP), LEXA - Corpus Processing Software door Raymond Hickey (Windows 95/98/ME/2000/XP), Mike Scott's WordSmith 4.0 beta (Windows 98/NT/2000/XP), Microconcord van Athelstan (voor DOS), Microconcord door Mike Scott, Monoconc PRO van Athelstan (voor Windows 95 of hoger), Multiconcord van het Lingua-Socrates project, QWICK van de Corpus Research Group, University of Birmingham, UK, TATOE: Text Analysis Tool with Object Encoding (voor Windows 95/98/NT), Text Analysis Computing Tools (TACT), alleen voor Windows 3.11 en Windows 95/98), UltraFind 2.5.3 voor Macintosh van Ultradesign.com, WinATA door Peter Roe (voor Windows 95 of volgende), WinConcord van Zdenek Martinek (voor Windows 95 en XP), Xlex/www tools van Arbeitsbereich Linguistik.

Ieder kan dus het programma kiezen dat het beste bij zijn eisen aansluit, zowel wat eigenschappen en functionaliteit betreft als qua kosten (voor sommige moet worden betaald).

Als men de software eenmaal heeft geïnstalleerd, is raadpleging van het corpus doodsimpel. Natuurlijk zijn ook complexe zoekacties mogelijk, waarvoor veel ervaring en bekendheid met enkele beginselen van de statistiek zijn vereist. Maar voor een gebruik als door mij beschreven (vergelijking van gebruiksfrequentie en dergelijke) is geen bijzondere kennis vereist.

In de volgende les zullen we het hebben over het raadplegen van telematische woordenboeken.

 

Bibliografische verwijzingen

FREUD SIGMUND, Die Traumdeutung (1902),

Frankfurt am Main, Fischer Taschenbuch Verlag, 1991 (Zwölfte, unveränderte Auflage 2005) ISBN 3-596-10436-X

FREUD SIGMUND The Interpretation Of Dreams translated by A. A. Brill London G. Allen & company 1913.

Gateway to corpus linguistics on the internet, is beschikbaar op het world wide web op het adres

http://www.corpus-linguistics.de /software/software_concord.html, geraadpleegd op 17 april 2004.

KWiC Finder, is beschikbaar op het world wide web op het adres

http://miniappolis.com/KWiCFinder/KWiCFinderDownload.html, geraadpleegd op 17 april 2004.

OCKERBLOOM JOHN MARK The Online Books Page, beschikbaar op het world wide web op het adres

http://onlinebooks.library.upenn.edu/lists.html, geraadpleegd op 17 april 2004.


1 Freud 1991: 440. HomeTerugVooruit