12 - Altri corpora
"La mia prossima preoccupazione è mostrare che il lavoro onirico si esaurisce nella cooperazione dei tre fattori enumerati - e di un quarto che deve ancora essere menzionato - che non fa nulla più che tradurre i pensieri del sogno"1.
Forse il sito più completo per quanto riguarda i testi in lingua inglese è The Online Books Page curata da John Mark Ockerbloom all'indirizzo http://onlinebooks.library.upenn.edu/lists.html. Il sito contiene oltre ventimila opere, che possono essere cercate per autore, titolo, argomento. Il sito non è strutturato come un corpus, perciò è possibile scaricare opere nel proprio computer, ma non è possibile effettuare ricerche online su questi testi né accedere a concordanze o crearne per via telematica.
I testi non sono materialmente ospitati nel server dell'università (il sito fa parte del portale della University of Pennsylvania), ma vi si accede attraverso rimandi telematici ad altri siti. Il bibliotecario Ockerbloom mantiene aggiornati tutti i vari link, tanto da rendere Online Books uno dei siti più frequentati da chi sta cercando testi in formato elettronico.
Succede piuttosto di frequente di trovare risorse preziose in siti che non sono attrezzati per permettere agli utenti di lavorare sul materiale reperito. In questi casi, è opportuno prendere in considerazione la possibilità di crearsi le proprie concordanze da sé. A prima vista sembra un compito difficile, ma, a ben vedere, non è per nulla nemmeno paragonabile agli sforzi immani che erano necessari fino a qualche anno fa. Oggi, nel giro di poche ore, attraverso internet è possibile attrezzarsi di testi e di programmi per lavorare ai testi. Vediamo come.
La prima questione da mettere a punto è di quale tipo di corpus uno ha bisogno. Generalmente il corpus serve a controllare la frequenza d'uso di determinate parole o locuzioni o stringhe di testo. La frequenza d'uso di una parola può essere tipica di un autore o di un testo, oppure può essere tipica di un'intera corrente letteraria, o di un periodo storico. Di conseguenza, il suo uso (o il suo mancato uso) diviene significativo e può a volte costituire un rimando intertestuale.
Per poter fare controlli di questo genere, di solito si ha bisogno di due corpora: un corpus contenente il testo a cui si sta lavorando (oppure il macrotesto delle opere dell'autore a cui si sta lavorando), e un corpus di controllo. Quest'ultimo in genere è costituito da testi dello stesso periodo e della stessa cultura e lingua, e serve come raffronto.
Se si parla di testi di epoche remote, e quindi non coperti da diritto d'autore, reperirli non è complesso: di solito li si trova in internet. Quando non si riesce a reperirli in formato elettronico, ce li si può fabbricare.
Occorre disporre di uno scanner e di un programma di riconoscimento ottico. Con lo scanner si scandiscono le pagine dei testi da acquisire, e con il programma di riconoscimento ottico si trasforma l'immagine acquisita in testo. Generalmente questi programmi producono un testo in formato .txt, ossia in formato testo, leggibile da qualsiasi word processor.
Per creare il corpus, è sufficiente collocare materialmente nello stesso file le opere che si desidera facciano parte del corpus stesso, e salvare il file in formato .txt. Alcuni programmi per la generazione di concordanze richiedono un formato .txt particolare, che si chiama ".txt con interruzione di riga", formato realizzabile con qualsiasi programma di elaborazione testi.
Ultimata la fase di acquisizione del materiale e di creazione dei corpora, occorre ancora procurarsi un programma per la creazione delle concordanze. Collegandosi con la pagina http://www.corpus-linguistics.de/software/software_concord.html, intitolata Gateway to corpus linguistics on the internet, si ha una panoramica del software a disposizione. Esistono sia programmi a pagamento sia programmi gratuiti.
Uno di quelli gratuiti si trova all'indirizzo http://miniappolis.com/KWiCFinder/KWiCFinderDownload.html e si chiama KWiC Finder. ma ve ne sono altri: Concordance di R.J.C. Watt (Windows 95/98/ME/2000/XP), LEXA - Corpus Processing Software di Raymond Hickey (Windows 95/98/ME/2000/XP), Mike Scott's WordSmith 4.0 beta (Windows 98/NT/2000/XP), Microconcord della Athelstan (per DOS), Microconcord di Mike Scott, Monoconc PRO della Athelstan (per Windows 95 o superiori), Multiconcord del progetto Lingua-Socrates, QWICK del Corpus Research Group, University of Birmingham, UK, TATOE: Text Analysis Tool with Object Encoding (per Windows 95/98/NT), Text Analysis Computing Tools (TACT), solo per Windows 3.11 e Windows 95/98), UltraFind 2.5.3 for Macintosh della Ultradesign.com, WinATA di Peter Roe (per Windows 95 o successiva), WinConcord di Zdenek Martinek (per Windows 95 e XP), Xlex/www tools della Arbeitsbereich Linguistik.
Quindi ciascuno può scegliere il programma che più gli si confà, sia per le caratteristiche e funzionalità, sia per l'eventuale costo (alcuni sono a pagamento).
Una volta che si è installato il software, le interrogazioni sul corpus sono semplicissime. Naturalmente sono possibili anche interrogazioni complesse per le quali occorre avere molta esperienza e dimestichezza con alcuni princìpi di statistica. Ma per un uso come quello che ho descritto (raffronti tra frequenze d'uso, ecc.) non sono richieste conoscenze particolari.
Nella prossima unità cominceremo a esaminare i dizionari telematici.
Riferimenti Bibliografici
FREUD SIGMUND L'interpretazione dei sogni in Opere vol. 3 Torino Boringhieri a cura di C. L. Musatti 1966.
FREUD SIGMUND The Interpretation Of Dreams translated by A. A. Brill London G. Allen & company 1913.
Gateway to corpus linguistics on the inter-net, disponibile nel world wide web all'indirizzo http://www.corpus-linguis-tics.de/software/software_concord.html, consultata il 7 aprile 2004.
KWiC Finder, disponibile nel world wide web all'indirizzo http://miniappolis.com/KWiCFinder/KWiCFinderDownload.html, consultata il 7 aprile 2004.
OCKERBLOOM JOHN MARK The Online Books Page, disponibile nel world wide web all'indirizzo http://onlinebooks.library.upenn.edu/lists.html, consultata il 7 aprile 2004.
1 Freud 1900: 385.