Logos Multilingual Portal

20 - De zoekmachine (deel twee)

HomeTerugVooruit


"(..) daß die andere Anordnung des Vorstellungsmaterials im Traume diesen sozusagen unübersetztbar fürs Wachbewußtsein macht".1

(..) dat de andere ordening van het materiaal in de droom deze om zo te zeggen voor het wakkere bewustzijn onvertaalbaar maakt.

 

In de vorige les heb ik gekeken naar enige toepassingen van de Google-zoekmachine. In het bijzonder heb ik laten zien welke mogelijkheden door de taalhulpmiddelen van Google worden aangereikt.

Bij de beschouwingen in de vorige les speelde de gebruiksfrequentie van bepaalde woorden of combinaties van woorden een rol. Dit betekent feitelijk dat men het internet ziet als een corpus. We mogen hierbij echter niet uit het oog verliezen dat het internet een corpus is dat spontaan tot stand komt en van minuut tot minuut groeit, dankzij de interactie van al diegenen die deelnemen aan en gebruik maken van het web. Bijgevolg heeft het niet de eigenschappen van een corpus zoals we dat hebben leren kennen bij de linguïstische zoekopdracht. Het is dus niet uitgebalanceerd zoals het British National Corpus, er worden niet op kunstmatige wijze woorden uit de spreektaal, de schrijftaal, hoge registers of lage registers enz. aan toegevoegd. Het resultaat dat men bereikt is geheel geïmproviseerd.

Dat neemt niet weg dat het een zeer nuttig instrument kan zijn. De hogere wetenschappelijke registers zijn doorgaans vrij goed vertegenwoordigd. We mogen niet vergeten dat de internationale gemeenschap van wetenschappers tot de eerste groepen behoort die de communicatieve mogelijkheden van het internet hebben ingezien en die hebben gebruikt om op papieren publicaties te anticiperen en deze soms te vervangen, waardoor de ontwikkeling van het wetenschappelijk debat sterk is toegenomen.

Anderzijds zijn ook de lage en middenregisters vertegenwoordigd. Internet is een "plek" waarop men zonder filter kan publiceren. Enerzijds verleent dit aan het medium een sterk democratisch karakter, want zo’n filter kan in sommige gevallen een vorm van censuur betekenen. Anderzijds betekent het ook dat iedereen die kan lezen en schrijven en hiertoe de concrete mogelijkheid bezit – los van het niveau van ontwikkeling en het soort opleiding – zijn eigen werk kan publiceren zonder dat er een redacteur tussen hem en zijn lezers staat.

Hierin onderscheidt het internet zich van elk ander medium. Als een krant bijvoorbeeld brieven van lezers publiceert, kan de redactie ingrijpen en de vorm of de inhoud ervan corrigeren of de brief inkorten, zodat men niet echt kan zeggen dat wat wordt gepubliceerd precies datgene is wat de lezer heeft ingezonden. Bovendien heeft een krantenlezer vaak een bovengemiddeld opleidingsniveau. Wanneer iemand naar een krant schrijft in de hoop zijn brief gepubliceerd te zien, probeert hij bovendien zo goed mogelijk te schrijven.

Anderzijds is het waar dat op het internet dat wat men "zegt" daadwerkelijk ter beschikking van iedereen komt te staan, maar het is net zo waar dat het althans in schijn minder zichtbaar is temidden van miljarden andere items. Een feit is dat wie voor het internet schrijft zich vaak veel vrijer voelt om zich te uiten, ook door middel van uitdrukkingen uit jargon of Bargoens, ook met typisch mondeling taalgebruik, want de keuze van het geschreven woord is vaak een noodzaak eerder dan een keuze.

Daardoor vindt men op het internet, zowel doordat correctieve filters ontbreken als doordat er geen context is die van de schrijver vraagt dat hij zich aanpast aan een formele stijl, zeer heterogene uitdrukkingen die het medium op linguïstisch vlak maken tot een hoogst interessant fenomeen.

Het is heel belangrijk altijd te controleren, vooral wanneer de resultaten van een zoekopdracht gering in aantal zijn, op welke site een informatie wordt aangetroffen, zodat al naargelang het geval een betrouwbaarheidsgraad kan worden toegewezen. Als ik, om een voorbeeld te geven, op zoek ben naar de wetenschappelijke naam van een plant, is het evident dat een universitaire site of die van een botanische tuin voor mij veel meer gewicht in de schaal zullen leggen dan een niet-professionele site waarop gewone mensen tuinierervaringen en -adviezen uitwisselen. Ben ik op zoek naar de officiële benaming van een instelling, dan kan ik meer vertrouwen hechten aan de site van een andere instelling, en des te meer als deze zich in hetzelfde land bevindt als de gezochte.

Het feit dat men op het internet sporen aantreft van de spontane vorming van dit corpus, brengt ook met zich mee dat de onderzoeker zijn voordeel kan doen met enige andere eigenschappen ervan. Laten we bijvoorbeeld doen alsof we onzeker zijn over het gebruik van een bepaald voorzetsel in het Italiaans, bijvoorbeeld het woord "vicino" (als voorzetsel: nabij, bij, in de buurt van, als bijvoeglijk naamwoord: nabij, dichtbij, als zelfstandig naamwoord: buurman). Ik probeer het woord in te voeren in de zoekmachine.

Het eerste wat me opvalt als ik naar de resultaten kijk, is dat ik word gedwongen de zoekopdracht te beperken tot de Italiaanstalige sites, omdat de eerste sites die ik vind Amerikaans zijn en Engelstalig, en mij dus niet interesseren bij deze zoekopdracht. Ik klik dus de optie "language tools" aan en kies Italiaanstalige sites en herhaal mijn opdracht.

Het volgende probleem dat ik tegenkom is dat ik veel gevallen aantref waarin dit woord de waarde heeft van een bijvoeglijk naamwoord of bijwoord, die mij hier niet interesseren. Hoe kan ik deze gevallen uitsluiten uit mijn zoekopdracht?

Mijn twijfel komt voort uit het feit dat ik zowel het woord "vicino" gevolgd door het voorzetsel "a" als direct door het zelfstandig naamwoord tegenkom. Om een voorbeeld te geven: zowel "vicino Perugia" als "vicino a Perugia" (bij / in de buurt van Perugia), en ik wil begrijpen welk van beide combinaties de meest gebruikelijke is. Ik probeer dan in de zoekmachine een complete string in te voeren met de naam van een stad, en wel tussen aanhalingstekens, wat in de syntaxis van Google betekent "de woorden in precies deze volgorde". Als ik me niet mocht herinneren dat ik aanhalingstekens kan gebruiken, dan klik ik op "Advanced search" en schrijf mijn string in het vak "Find results with the exact phrase". Dit zijn de resultaten:

"vicino a Perugia" levert 307 resultaten op

"vicino Perugia" levert er 277 op.

Uit dit resultaat zou men kunnen opmaken dat de beide versies vrijwel even vaak voorkomen. Toch hoor je in de Noord-Italiaanse regio Lombardije bijna niemand "vicino" als voortzetsel gebruiken, in plaats van de combinatie "vicino a". Het vermoeden komt bij me op dat het wel eens om een streekgebonden gebruiksvorm zou kunnen gaan. Ik formuleer een hypothese ter controle van de (on)juistheid van dit vermoeden. Het is niet onwaarschijnlijk dat de uitdrukking "vicino a [stad X]" gebruikt wordt door iemand uit de omgeving van stad X. Om de veronderstelling te onderzoeken voer ik in de zoekmachine vier verschillende strings in:

vicino a Milano

vicino Milano

vicino a Roma

vicino Roma

Dit zijn de resultaten:

"vicino a Milano" 3110 resultaten

"vicino Milano" 1580 resultaten

"vicino a Roma" 1750 resultaten

"vicino Roma" 3230 resultaten

Uit deze resultaten komen verschillende zaken naar voren. Om te beginnen overheerst in de omgeving van Milaan in de regio Lombardije het gebruik van "vicino a". Het tweede is dat in de omgeving van Rome de situatie omgekeerd is: daar wordt "vicino" vaker gebruikt als voorzetsel van plaats. Het eerste resultaat, dat met "Perugia", was een resultaat van schijnbare gelijkheid, toe te schrijven aan het feit dat de Umbrische hoofdstad Perugia in een gebied ligt dat zowel vanuit het noorden (Toscane en Noord-Italië) als vanuit Rome invloeden ondergaat.

Deze informatie is veel rijker dan informatie uit een woordenboek (waarin geen sprake is van een voorzetsel "vicino", alleen van de combinatie "vicino a"). Ik weet nu dat men in de buurt van Rome sterk neigt naar dit gebruik van vicino zonder "a" (controle op de afzonderlijke sites waarin de uitdrukking "vicino Roma" voorkomt bevestigt me dat het vooral sites zijn uit die omgeving). Niet altijd is het voor een vertaler genoeg te weten wat het woordenboek aangeeft: in sommige gevallen kan het voor hem van belang zijn te weten of een uitdrukking streekgebonden is en, zo mogelijk, in welke streek zij thuishoort.

Nog een Nederlandstalig voorbeeld.2 Ik wil weten wat de meest gebruikelijke functiebenaming is van een wethouder die zich met verkeerszaken bezighoudt, bijvoorbeeld omdat ik uit een vreemde taal aan het vertalen ben. Ik voer in Google de volgende termen tussen aanhalingstekens in:

Wethouder van verkeer

Wethouder van verkeerszaken

Wethouder van vervoer

Wethouder van vervoerszaken

Wethouder van mobiliteit

Wethouder van transport

Ik krijg een aantal resultaten (zie tabel hieronder). Aan de sites kan ik zien dat niet alle resultaten met Nederland te maken hebben. Zo wordt de term "Wethouder van transport" (3 resultaten) gebruikt in teksten die verwijzen naar Spanje (1 x) en Frankrijk (1 x). Het gaat hier dus duidelijk om (onhandige) vertalingen, vermoedelijk afkomstig uit vertaalde persberichten. Voor de zekerheid beperkt ik de resultaten tot "pagina’s afkomstig uit Nederland", waardoor ik buitenlandse en met name Belgische sites wegfilter.

 

benaming

aantal resultaten

resultaten "uit Nederland"

Wethouder van verkeer

9500

1010

Wethouder van verkeerszaken

77

70

Wethouder van vervoer

1020

972

Wethouder van vervoerszaken

1

0

Wethouder van mobiliteit

400

10

Wethouder van transport

3

3

 

Het is duidelijk dat de benamingen "wethouder van vervoer" en "wethouder van verkeer" in Nederland vrijwel even gebruikelijk zijn. Op sites van buiten Nederland is "wethouder van verkeer" verreweg de meest gebruikelijke benaming, maar komt ook "wethouder van mobiliteit" voor. Op dit punt herinner ik me dat een wethouder in de Nederlandstalige gewesten van België "schepen" wordt genoemd. Ik ga opnieuw zoeken en vind (tussen haakjes de sites uit Nederland, waarin overwegend sprake is van berichtgeving uit België):

Schepen van verkeer: 525

Schepen van verkeerszaken: 0

Schepen van vervoer: 2 (een meervoud van ‘schip’ niet meegerekend)

Schepen van vervoerszaken: 0

Schepen van mobiliteit: 13700 (214)

Het is duidelijk dat België de voorkeur geeft aan "schepen van mobiliteit", maar soms ook de benaming "schepen van verkeer" gebruikt. Dat de functie in geen van beide landen één bepaalde benaming draagt, is duidelijk. Het onderzoekje laat natuurlijk ook vragen onbeantwoord, zoals "waarom levert België zoveel meer resultaten dan Nederland?" Als verklaring valt te denken aan een groter aantal gemeenten in ons buurland, maar dat valt buiten het doel van de zoekopdracht.

In de volgende les zullen we verder gaan met het verkennen van de mogelijkheden van de zoekmachines.

 

Bibliografische verwijzingen

FREUD SIGMUND, Die Traumdeutung (1902),

Frankfurt am Main, Fischer Taschenbuch Verlag, 1991 (Zwölfte, unveränderte Auflage 2005) ISBN 3-596-10436-X

FREUD SIGMUND The Interpretation Of Dreams translated by A. A. Brill London G. Allen & company 1913.

GOOGLE, beschikbaar op het world wide web op het adres http://www.google.com/, geraadpleegd op 8 november 2006 (op 16 oktober 2007 voor de voorbeelden van wethouders.


1 Freud 1991: 61.
2 De hiervolgende passage is uiteraard van de hand van de vertaler. HomeTerugVooruit