LOGOS - Multilingual Translation Portal

39. Analisi del prototesto e computer

«Forse anziché un libro potrei scrivere degli elenchi
di parole, in ordine alfabetico, una frana di parole
isolate in cui si esprima quella verità che ancora non
conosco, e dalle quali l'elaboratore, capovolgendo il
proprio programma, ricavi il libro, il mio libro»1

Per molti decenni l'applicazione del computer alle scienze filologiche, e all'analisi del testo in particolare, è stata considerata una sorta di tabù. Ciò è dovuto principalmente al fatto che la preparazione del filologo - si tratti di un traduttore, di un critico, di un docente o di un ricercatore - storicamente non ha comportato l'approfondimento dei princìpi dell'informatica applicata ai testi, né, d'altronde, la preparazione dell'informatico prevede l'applicazione della potenza del calcolo elettronico ad attività specifiche e marcatamente umanistiche come la filologia e l'ecdotica2.
Ciò nonostante, mi sembra interessante concludere questa seconda parte del corso di traduzione dedicata all'analisi del prototesto con un'unità doppia dedicata alle possibilità offerte dall'informatica al traduttore che desideri o debba analizzare il prototesto in vista della sua traduzione.
Dopo gli abbagli - causati da un eccesso di entusiasmo per la repentina evoluzione tecnica - che hanno fatto intravedere, negli anni Settanta e Ottanta, la possibilità di applicare l'elettronica a tutto, scienze umanistiche comprese, e addirittura alla traduzione, si è passati a una fase di esplorazione più cauta.
Da un lato si è puntato l'indice sull'importanza, nella decodificazione di un testo, dei rapporti con il contesto (il computer, che non ha competenza semantica, può essere utilizzato solo per contare occorrenze; non è in grado di definire e delimitare il contesto); e, nella decodificazione dei significati possibili di una parola, per l'attivazione delle valenze utili e la narcotizzazione di quelle non impiegabili, dei rimandi al suo co-testo.
Ciò, unitamente alle nuove possibilità tecniche, ha dato nuovo vigore all'uso dei corpora nel campo degli studi umanistici. Per «corpus» si intende un insieme di testi accomunati da qualche caratteristica: l'autore, o la lingua, o il periodo, o il genere letterario o altro. Il principio fondamentale che guida tale studio è l'osservazione del linguaggio, un principio descrittivo, per trarne norme intese non come prescrizioni, ma come regolarità. E, per poter osservare il linguaggio nel suo esistere, il ricorso a corpora è utile in quanto parametri costanti da paragonare con enunciati specifici, da interrogare e su cui effettuare ricerche.
Uno dei più immediati frutti dello studio di un corpus è la compilazione di concordanze, ossia elenchi di parole (o di serie di parole) che si ripetono identiche all'interno di un corpus, con i dati necessari per reperirle (le coordinate all'interno del testo). Le concordanze, che fino a non molti decenni fa venivano redatte a mano, con lunghissime e faticosissime schedature cartacee lemma per lemma, ora possono essere compilate in modo automatico da qualsiasi personal computer previa predisposizione e preedizione del testo elettronico. Da ciò è rinata3 una disciplina, nota come corpus linguistics, o linguistica dei corpora.
Nel campo della traduzione, l'uso dei corpora informatici e telematici risale all'ultimo decennio del Novecento. In una certa misura, nella pratica traduttiva la consultazione dei corpora sta soppiantando la consultazione dei dizionari, consentendo un'interpretazione più diretta e concreta dello spettro semantico di ogni vocabolo nel contesto.
Laddove un dizionario fornisce un'interpretazione dei significati di una parola, l'interpretazione dell'autore, e in certi casi instrada le possibilità interpretative del traduttore lungo canali non coincidenti con quelli utili nel contesto dato, la consultazione di un corpus è molto più empirica e duttile, poiché lascia al traduttore (o comunque al decodificatore) la possibilità di intuire, di inferire significati possibili dalla scena stessa in cui nascono: l'enunciazione.
Nell'analisi del testo in generale, il computer, se si prende atto dei limiti del suo campo d'azione, può essere uno strumento prezioso. Cominciamo passando in rassegna i limiti dell'analisi elettronica del testo.
Il computer è in grado di contare le occorrenze di una parola, o di una sequenza di caratteri, all'interno di un testo, ed eventualmente di calcolare la prevedibilità di tali occorrenze raffrontando la frequenza all'interno di un microtesto con la frequenza all'interno di un macrotesto che contenga il primo (per esempio il corpus). È pertanto molto utile per l'analisi lessicale di un testo, e quindi anche della sua coesione lessicale, dei rimandi intratestuali e intertestuali.
Il computer è inoltre in grado di calcolare la prevedibilità statistica che una parola cooccorra con (ossia càpiti vicino a) un'altra, sempre nell'àmbito di un preciso testo di riferimento, ossia in termini relativi e non assoluti.
Da quanto appena detto, risulta evidente che chi conduce l'analisi ha un ruolo molto attivo già nelle primissime fasi del lavoro. Data l'enorme messe di dati che un testo può generare servendosi dell'informatica, è indispensabile che l'impostazione generale delle indagini sia chiara fin dall'inizio. È necessario che, prima di sottoporre un testo all'analisi informatica, vi sia una conoscenza dell'opera generale e dell'autore nel suo insieme, e dell'opera considerata in particolare, e si facciano ipotesi che lo strumento elettronico può permettere di falsificare o corroborare.
Nel contempo, va considerato anche che i risultati ottenuti in prima battuta spesso indirizzano la ricerca lungo canali inizialmente insospettabili, mentre altre piste vengono abbandonate, nel corso della ricerca, per insufficienza di indizi.
Il computer quindi non è capace di impostare la ricerca, di decidere quali interrogazioni sono sensate e quali no; ma non è nemmeno in grado di interpretare i dati. Una volta in possesso di un elenco delle occorrenze e delle cooccorrenze del testo, e delle relative correlazioni di presenza, il traduttore deve essere in grado di stabilire quali dati sono davvero significativi. I criteri metodologici in questo senso non sono assoluti, ma variano a seconda delle circostanze precise delle singole analisi.
Sono più importanti le parole che occorrono più volte o quelle più rare? Nella filologia classica esiste il concetto di hapax, definito come «forma che ricorra una sola volta nel testo o corpus in esame»4. Il termine è nato perché di norma viene considerata particolarmente preziosa una forma rara e, naturalmente, un hapax è tanto più prezioso in quanto il corpus che lo contiene è esteso. Un hapax è tale solo in presenza di molte altre parole con frequenze molto alte.
Shannon e Weaver parlano di proporzione inversa prevedibilità/informatività. Tradotto in termini semplici, e applicato a ciò che interessa a un traduttore alle prese con l'analisi del testo finalizzata alla sua traduzione, si può dire che in un testo, tanto più è prevedibile che una parola si trovi in una certa posizione, tanto meno tale presenza è significativa. È un modo diverso per vedere la questione della marcatezza di un enunciato, che già più volte abbiamo preso in esame in questo corso. Il discorso è molto simile a quello di Šklovskij sullo straniamento, la rottura dell'automatismo percettivo.
Viktor Šklovskij, formalista russo, negli anni Venti si rese conto dell'importanza, nella percezione di un testo, dell'infrazione della routine, dell'esame di un oggetto secondo un punto di vista inedito5. Un testo non marcato, come lo chiameremmo noi oggi, ossia un testo non straniante, viene recepito come se la sua forma fosse secondaria, e il lettore è spinto a sintonizzarsi automaticamente sul contenuto informativo, denotativo, senza badare alle modalità espressive. Un testo marcato, al contrario, ossia un testo straniante, producendo inciampi alla percezione "normale", automatica, fa soffermare l'attenzione del lettore sulla forma, che in tal modo, proprio perché salta all'occhio e altera la percezione del testo, diventa parte integrante del contenuto.

Riferimenti Bibliografici

CALVINO I. Se una notte d'inverno un viaggiatore, Torino, Einaudi, 1979.

LANA M. Testi stile frequenze, in Lingua letteratura computer, a cura di Mario Ricciardi, Torino, Bollati Boringhieri, 1996, ISBN 8833909905.

LANA M. L'uso del computer nell'analisi dei testi. Scienze umane e nuove tecnologie, Milano, Franco Angeli, 1994, ISBN 8820488701.

LANCASHIRE I, Using TACT with Electronic Texts. A Guide to Text-Analysis Computing Tools, New York, The Modern Language Association of America, 1996, ISBN 0873525698.

ORLANDI T. Informatica umanistica, Roma, La Nuova Italia Scientifica, 1990, ISBN 8843008870.

SHANNON C. E., WEAVER W. The Mathematical Theory of Communication, Urbana (Illinois), University of Illinois Press, 1949.

SHKLOVSKIJ, V. B. O teorii prozy, Moskva, Federacija, 1929. Teoria della prosa, traduzione di C. G. de Michelis e R. Oliva, Torino, Einaudi, 1976. Theory of prose, translated by Benjamin Sher with and introduction by Gerald R. Bruns. 1st American edition, Elmwood Park (Illinois), Dalkey Archive Press, 1990, ISBN 0916583546.

1 Calvino 1979, p. 189.
2 Insieme di studi e di operazioni necessarie per l'edizione critica di un testo; filologia testuale. Dal greco ekdosis, edizione.
3 La corpus linguistics era nata e inizialmente fiorita prima dell'avvento delle teorie homskiane. Con la diffusione della grammatica generativa di Chomsky, che prevede un approccio diametralmente opposto - in quanto parte dalla struttura profonda per risalire all'enunciato, mentre la corpus linguistics parte dall'enunciato per risalire al significato contestuale ed effimero - la linguistica dei corpora ebbe una battuta d'arresto. La diffusione di personal computer di potenza prima imprevedibile connessa alle critiche rivolte alla teoria homskiana hanno ridato vigore alla linguistica dei corpora.
4 Lana 1996.
5 Šklovskij 1929.