20 - Il motore di ricerca - seconda parte
«la diversa disposizione del materiale nel sogno rende il sogno intraducibile, per così dire, alla coscienza vigile»1.
Nell’ultima unità ho preso in esame alcune funzionalità del motore di ricerca Google. In particolare, mi sono soffermato sulle possibilità offerte dagli strumenti linguistici di Google.
I ragionamenti che sono stati fatti nell’unità precedente prendono in considerazione la frequenza d’uso di determinate parole o combinazioni di parole. Ciò implica considerare internet alla stregua di un corpus. Però bisogna sempre tenere presente che internet è un corpus che si crea ogni minuto in modo spontaneo, grazie all’interazione di tutti quelli che vogliono partecipare. Di conseguenza non ha la caratteristica di un corpus come è inteso nella ricerca linguistica, ossia non è bilanciato come avviene in casi come il British National Corpus, non ci sono immissioni artificiali di parlata orale, parlata scritta, registri alti, bassi ecc. Il risultato che si ottiene è del tutto improvvisato.
Ciò non toglie che possa essere uno strumento utile. I registri scientifici alti di solito sono rappresentati abbastanza bene. Non dimentichiamo che la comunità internazionale degli scienziati è stata tra le prime a recepire le potenzialità comunicative di internet e a usarle per anticipare, e a volte sostituire, le pubblicazioni cartacee, accelerando grandemente lo sviluppo del dibattito scientifico.
D’altra parte anche i registri bassi e medi sono rappresentati. Internet ha la caratteristica di essere un "luogo" in cui è possibile pubblicare senza filtro. Da un lato, questo conferisce al medium un forte carattere democratico, in quanto tale filtro in certi casi può essere censorio. D’altro canto, ciò significa anche dare la possibilità a chiunque sia alfabetizzato e ne abbia la possibilità concreta – indipendentemente dal livello d’istruzione e dal tipo di formazione – di pubblicarsi senza che vi sia alcun redattore in mezzo.
Questo distingue internet da qualsiasi altro medium. Per esempio, se un giornale pubblica le lettere dei lettori, la redazione potenzialmente interviene per correggere la forma, se non il contenuto, perciò non si può dire che ciò che viene pubblicato sia esattamente ciò che era giunto dal lettore. Inoltre, il lettore di giornali ha un livello d’istruzione a volte superiore alla media. Quando una persona scrive a un giornale, nella speranza di vedere pubblicata la propria lettera, cerca inoltre di scrivere meglio che può.
Diversamente, in internet è vero che ciò che si "dice" è poi messo a disposizione di tutti, ma è anche vero che è meno visibile in apparenza, più nascosto tra miliardi di altre informazioni. Fatto sta che chi scrive spesso si sente molto libero di esprimersi come vuole, anche con espressioni del gergo, anche con espressioni tipiche dell’oralità, perché la scelta del canale scritto spesso è una necessità, più che una scelta.
Perciò, vuoi per la mancanza di un filtro correttivo, vuoi per la mancanza di un contesto che richiede di adeguarsi a uno stile formale, in internet si trovano espressioni molto eterogenee che conferiscono al medium un forte interesse sul piano linguistico.
È molto importante controllare sempre, soprattutto quando numericamente i risultati delle proprie indagini sono scarni, in quale sito un’informazione viene reperita, in modo da attribuire gradi di affidabilità diversi a seconda dei casi. Se sto cercando il nome scientifico di una pianta, per esempio, è evidente che un sito universitario, o di un giardino botanico, avranno per me molto più peso di un sito non professionale in cui comuni cittadini si scambiano esperienze e consigli di giardinaggio. Se cerco la denominazione ufficiale di un’istituzione, ovviamente potrò fidarmi molto di un sito di un’altra istituzione, e in misura maggiore se si tratta di un’istituzione dello stesso paese a cui appartiene quella su cui cerco informazioni.
Il fatto che in internet ci siano tracce dovute alla spontaneità con cui questo corpus si forma conferisce a internet anche caratteristiche che possono essere sfruttate a vantaggio di chi effettua le ricerche. Supponiamo per esempio che una persona sia in dubbio circa la reggenza di una preposizione, per esempio la parola italiana «vicino». Provo a inserire la parola nel motore di ricerca.
La prima cosa di cui mi accorgo osservando i risultati è che è necessario che io restringa la ricerca ai siti in italiano, perché i primi siti che trovo sono statunitensi e in lingua inglese, perciò non mi interessano per la presente indagine. Vado perciò nei «language tools» e scelgo siti di lingua italiana e ripeto la ricerca.
Il problema successivo è che incontro molte occorrenze di questa parola con valore di aggettivo o di avverbio, ma in questo caso non m’interessano. Come posso eliminare dalla mia ricerca tali occorrenze?
Il mio dubbio sorge dal fatto che ho incontrato, in espressioni di luogo, la parola «vicino» sia seguita da «a» sia seguita direttamente dal sostantivo successivo. Per intenderci, sia «vicino Perugia», sia «vicino a Perugia», e voglio capire quale delle due sia più diffusa. Provo allora a mettere nel motore di ricerca la stringa completa con un nome di città, tra virgolette, che nella sintassi di Google significa «parole in questo ordine preciso». Oppure, se non ricordo che si devono usare le virgolette, clicco su «Advanced search» e scrivo la mia stringa nel riquadro che indica «Find results with the exact phrase». Ecco i risultati:
«vicino a Perugia» mi dà 307 risultati
«vicino Perugia» me ne dà 277.
Da questo risultato si direbbe quasi che le due versioni fossero diffuse in modo quasi uguale. Eppure, girando per la Lombardia, non si sente quasi nessuno usare «vicino» come preposizione, anziché usare la locuzione preposizionale «vicino a». Mi viene allora il dubbio che ci siano delle peculiarità locali d’uso. Per controllarle escogito un’ipotesi. È più probabile che a usare l’espressione «vicino alla città X» sia una persona della zona circostante alla città X. Per controllare questa ipotesi provo a immettere nel motore di ricerca quattro diverse stringhe:
vicino a Milano
vicino Milano
vicino a Roma
vicino Roma
Ecco i risultati:
«vicino a Milano» 3110 risultati
«vicino Milano» 1580 risultati
«vicino a Roma» 1750 risultati
«vicino Roma» 3230 risultati
Da questi risultati appaiono evidenti alcuni elementi. Il primo è che nella zona di Milano, come sospettavo, prevale l’uso di «vicino a». Il secondo è che nella zona di Roma la situazione è capovolta: prevale l’uso di «vicino» usato come preposizione di luogo. Il primo risultato, quello con «Perugia», era un risultato di finta parità, dovuto al fatto che probabilmente la città di Perugia si trova in una zona che subisce in modo paritetico influenze dal nord e da Roma.
Questa informazione è molto più ricca di quella che posso reperire in un dizionario (il quale mi dice che la preposizione «vicino» non esiste, che esiste soltanto la locuzione preposizionale «vicino a»). Ora so che nella zona di Roma (un controllo sui singoli siti reperiti nella ricerca «vicino Roma» mi conferma che sono perlopiù siti di quella zona) si tende a usare in modo cospicuo questa espressione. Non necessariamente a un traduttore è sufficiente conoscere il parere del dizionario: in certi casi gli serve invece capire se un’espressione è tipica di una zona, e possibilmente di quale.
Nella prossima unità continueremo a esaminare il potenziale dei motori di ricerca.
Riferimenti Bibliografici
FREUD SIGMUND L’interpretazione dei sogni in Opere vol. 3 Torino Boringhieri a cura di C. L. Musatti 1966.
FREUD SIGMUND The Interpretation Of Dreams translated by A. A. Brill London G. Allen & company 1913.
GOOGLE, disponibile nel world wide web all’indirizzo http://www.google.com/, consultato il 7 aprile 2004.
1 Freud 1900: 46.