LOGOS - Multilingual Translation Portal

40. Analisi del prototesto e computer

«... una frana di parole isolate in cui si esprima
quella verità che ancora non conosco, e dalle quali
l'elaboratore, capovolgendo il proprio programma,
ricavi il libro, il mio libro»1

Da quanto appena detto a proposito di Šklovskij e degli automatismi percettivi risulta evidente che, per quanto riguarda la marcatezza lessicale, e solo per questa, l'analisi informatica del testo può essere di grande aiuto al traduttore. Solitamente il traduttore vorrà tradurre una parola marcata con una parola marcata, e una parola collocata in modo anonimo con una analogamente standard.
Tra le parole che in un testo sono più frequenti, invece, si trovano le cosiddette «parole vuote». Si tratta perlopiù di congiunzioni, preposizioni, articoli, copule che non servono all'espressione poetica o concettuale, ma unicamente alla coesione sintattica. Essendo sempre le forme più frequenti, di per sé questo dato non è significativo.
Tradizionalmente, le parole vuote vengono ignorate dai ricercatori. Recentemente, però, alcuni studiosi hanno indicato la possibilità che queste, proprio per la loro pochezza semantica e facile sostituibilità (si pensi, per l'italiano, a «tra» e «fra», «fino» e «sino» ecc.), potrebbero costituire, specie in associazione tra loro, stringhe di testo, segmenti identici impiegati inconsciamente in modo ripetuto dall'autore segnalando una possibile somiglianza ancestrale, e quindi una sorta di impronta digitale, di patrimonio genetico dello stile di un autore.
Se tale ipotesi è particolarmente suggestiva nella ricostruzione della paternità di documenti antichi, dove si tratta di decidere sull'attribuzione di un testo a un autore anziché a un altro, anche nell'analisi traduttologica si rivela suggestiva, poiché si possono registrare tali impronte nell'originale per poi verificare se sono presenti anche nel metatesto e, qualora non lo siano, si può cercare di stabilire se ciò comporti conseguenze sul piano interpretativo, della ricezione e delle influenze intertestuali.
D'altra parte, anche la presenza di parole molto frequenti estranee al campo delle parole vuote può essere indice di coerenza testuale. Si pensi per esempio ai nomi dei personaggi o all'uso in loro vece - nel prototesto o nel metatesto - di pronomi, alla presenza di deittici e al loro trattamento in traduzione; in quest'ultimo caso si nota una tendenza generale dei testi tradotti a un maggiore grado di esplicitezza. Il traduttore spesso si fa carico di funzioni di mediazione culturale che non rientrano propriamente nella funzione traduttiva e, intendendo spesso in modo idiomorfico la "missione del traduttore", tende a facilitare - spesso inconsciamente - la lettura del metatesto magari sostituendo a deittici che fanno riferimento a una situazione contingente (questo, qui, ora, il, uno ecc.) altri che invece rimandano a un'ambientazione cronotopicamente distante o indefinita (quello, là, allora, un, l'altro ecc.).
In sostanza, per attribuire un significato preciso a frequenze basse o alte è sempre necessaria una sintesi verbale umana che contestualizzi i dati numerici.
Vi sono poi parole la cui alta frequenza non è statisticamente significativa, ma è indice della presenza di motivi e di temi all'interno di un testo: reti isotopiche che hanno una notevole importanza coesiva anche se non rientrano tra le occorrenze rare. È perciò importante controllarne la presenza anche nel metatesto.
Non esistono perciò regole universali precise per l'interpretazione dei dati crudi della macchina: anche il ricercatore che si attrezzi con potenti strumenti di misurazione precisa deve usare la propria creatività scientifica per evitare di lasciarsi fuorviare da presunte verità oggettive.
Uno dei programmi più usati per l'analisi del testo si chiama TACT ed è disponibile in internet in modo gratuito per tutti i ricercatori e le persone che non ne fanno un uso commerciale. Questo semplice programma è in grado di lavorare su file di testo in formato .txt con interruzione di linea. Il programma TACT è uno dei più diffusi nel mondo in campo universitario. Non è di facile uso, imparare a servirsene con profitto è un'operazione che richiede una certa dimestichezza con l'informatica com'era prima dell'avvento delle interfacce utente user friendly. Funziona in ambiente DOS, e in un certo senso ignora Windows.
Uno dei dati che si possono ottenere con TACT e con gli altri programmi simili è la proporzione tra type e token, ossia tra tipi e occorrenze. Se si ordinano tutte le parole di un testo in ordine alfabetico, ci si accorge che alcune parole si ripetono, mentre altre compaiono una sola volta. Immaginando di annotare sulla stessa riga le parole che si ripetono, il numero delle righe corrisponde ai tipi (le parole diverse) mentre il numero totale delle parole di un corpus è espresso dalle occorrenze o token:
La gatta
Tanto va la gatta al lardo che ci lascia la zampina
In questo microtesto abbiamo 10 tipi e 13 occorrenze, poiché la parola «gatta» si ripete una volta, e la parola «la» si ripete due volte:
al
che
ci
gatta gatta
la la la
lardo
lascia
tanto
va
zampina
Un dato che si ottiene in seguito a questo è la proporzione tipi/occorrenze. Quanto più tale rapporto è alto, tanto più il testo è lessicalmente complesso, ricco, e, al contrario, tanto più è basso quanto più le parole si ripetono e la complessità lessicale è bassa.
Un altro dato che si può ottenere è la collocazione delle parole nel co-testo, scegliendo quanto tale co-testo deve essere ampio.
Tutti i dati ottenuti vanno comunque rapportati alle dimensioni del testo di riferimento, perché, naturalmente, più un testo è piccolo, meno le statistiche relative sono significative.
La consultazione dei corpora al posto della consultazione dei dizionari non è un'operazione veloce e comoda, al contrario, può richiedere tempo. È il risultato a essere più soddisfacente, perché dà un'idea più precisa e concreta del significato di una parola o frase.
Per quanto riguarda la lingua inglese, il corpus maggiore a disposizione del pubblico è il British National Corpus, all'indirizzo:
http://firth.natcorp.ox.ac.uk/
Da qui si possono fare interrogazioni sapendo di poter contare su un insieme di testi che spaziano dai classici della letteratura in lingua inglese ai testi orali registrati alla radio.
Per quanto riguarda la lingua italiana (ma anche molte altre lingue vi sono rappresentate, compreso il latino), uno dei corpora più grandi a libera disposizione è la Wordtheque, all'indirizzo:
http://www.wordtheque.com
In entrambi i casi, la parola reperita rimanda al testo da cui è stata estrapolata, con dati relativi all'autore e alla pubblicazione. Questo permette a chi consulta di trarre le dovute conseguenze in merito al grado di affidabilità dell'occorrenza e al tipo di registro d'uso. Per un approfondimento del tema di questa unità doppia, rimando ai libri in bibliografia, dando appuntamento a chi segue il corso alla prima unità della terza parte, dedicata alla produzione del metatesto.

Riferimenti Bibliografici

CALVINO I. Se una notte d'inverno un viaggiatore, Torino, Einaudi, 1979.

LANA M. Testi stile frequenze, in Lingua letteratura computer, a cura di Mario Ricciardi, Torino, Bollati Boringhieri, 1996, ISBN 8833909905.

LANA M. L'uso del computer nell'analisi dei testi. Scienze umane e nuove tecnologie, Milano, Franco Angeli, 1994, ISBN 8820488701.

LANCASHIRE I, Using TACT with Electronic Texts. A Guide to Text-Analysis Computing Tools, New York, The Modern Language Association of America, 1996, ISBN 0873525698.

ORLANDI T. Informatica umanistica, Roma, La Nuova Italia Scientifica, 1990, ISBN 8843008870.

SHANNON C. E., WEAVER W. The Mathematical Theory of Communication, Urbana (Illinois), University of Illinois Press, 1949.

SHKLOVSKIJ, V. B. O teorii prozy, Moskva, Federacija, 1929. Teoria della prosa, traduzione di C. G. de Michelis e R. Oliva, Torino, Einaudi, 1976. Theory of prose, translated by Benjamin Sher with and introduction by Gerald R. Bruns. 1st American edition, Elmwood Park (Illinois), Dalkey Archive Press, 1990, ISBN 0916583546.

1 Calvino 1979, p. 189.