Logos Multilingual Portal

40 - Análise do prototexto e computador

Índice VoltarAvançar


 

«... uma avalanche de palavras isoladas, que expressem
aquela verdade ainda não conhecida, da qual
o computador, revertendo o próprio
programa, constrói o livro, o meu livro
»1.

Do que já foi dito a propósito de Šklovskij e dos automatismos perceptivos fica evidente que, quanto à marcação léxica, e somente para esta, a análise informática do texto pode ser de grande ajuda para o tradutor. Normalmente, o tradutor tende a querer traduzir uma palavra marcada com uma palavra marcada, e uma palavra disposta de modo anônimo com uma analogamente padrão.

Entre as palavras que em um texto são mais freqüentes, ao contrário, encontram-se as denominadas «palavras vazias». Trata-se principalmente de conjunções, preposições, artigos, que não servem à expressão poética ou conceitual, mas unicamente à coesão sintática. Sendo sempre as formas mais freqüentes, de per si este dado não é significativo.

Tradicionalmente, as palavras vazias são ignoradas pelos pesquisadores. Recentemente, porém, alguns estudiosos levantam a possibilidade de que estas, propriamente por sua insuficiência semântica e fácil substituição (como, em português, «até», «inclusive», «também»), poderiam constituir, especialmente em associação entre si, linhas do texto, segmentos idênticos empregados inconscientemente de modo repetido pelo autor assinalando uma possível semelhança ancestral, e assim uma espécie de impressão digital, de patrimônio genético do estilo de um autor.

Se tal hipótese é particularmente sugestiva na reconstrução da paternidade dos documentos antigos, onde se trata de decidir sobre a atribuição de um texto a um autor e não a outro, também na análise tradutológica revela-se sugestiva, dado que podem ser registradas tais impressões no original para então verificar se estão presentes também no metatexto e, se não o são, pode-se procurar estabelecer se aquilo comporta conseqüências sobre o plano interpretativo, da recepção e das influências intertextuais.

Por outra parte, também a freqüente presença de palavras estranhas ao campo das palavras vazias pode ser índice de coerência textual. Imagine, por exemplo, os nomes dos personagens ou sua substituição - no prototexto ou no metatexto - por pronomes, ou na presença de dêiticos e no seu tratamento na tradução; neste último caso, nota-se uma tendência geral dos textos traduzidos para um maior grau de explicitude. O tradutor freqüentemente encarrega-se de funções de mediação cultural que não se ajustam propriamente à função tradutiva e, entendendo freqüentemente de modo idiomórfico a "missão do tradutor", tende a facilitar - freqüentemente inconscientemente - a leitura do metatexto, até mesmo substituindo os dêiticos que fazem referência a uma situação contingente (isto, aqui, agora, ou, um, etc..) por outros que, ao contrário, remetem a uma ambientação cronotopicamente distante ou indefinida (aquilo, lá, então, um, outro, etc..).

Em resumo, para atribuir um significado preciso às freqüências baixas ou altas é sempre necessária uma síntese verbal humana que contextualize os dados numéricos.

Existem, então, palavras cuja alta freqüência não é estatisticamente significativa, mas é índice da presença de motivos e de temas dentro de um texto: redes isotópicas que têm uma notável importância coesiva ainda que não se ajustem entre as raras ocorrências. É, então, importante notar a presença também no metatexto.

Não existem, portanto, regras universais precisas para a interpretação dos dados crus da máquina: também o pesquisador que está equipado com ferramentas poderosas de mensuração precisa usar a própria criatividade científica para evitar ser enganado pela presumida verdade subjetiva.

Um dos programas mais usados para a análise do texto chama -se TACT e está disponível na internet, gratuitamente, a todos os pesquisadores e pessoas que não farão um uso comercial dele. Este programa simples é capaz de trabalhar em arquivos de texto no formato .txt com quebra de linha. O programa TACT é um dos mais difundidos no mundo no campo universitário. Não é de fácil uso, aprender a servir-se dele com ganho é uma operação que requer uma certa familiaridade com a informática, como era antes do advento das interfaces user friendly ao consumidor. Funciona no ambiente DOS, e em um certo sentido ignora Windows.

Um dos dados que podem ser obtidos com TACT e com os outros programas similares é a proporção entre type e token, mais propriamente entre tipos de palavras e suas ocorrências. Ao se ordenar todas as palavras de um texto em ordem alfabética, percebe-se que algumas palavras se repetem, embora outras aparecem somente uma vez. Anotando-se as palavras de um texto em linhas diferentes, deixando apenas as repetidas numa mesma linha, o número das linhas corresponde aos tipos (as palavras), embora o número total das palavras de um corpus seja expresso por ocorrência ou token:
  
  Deus dá o frio conforme o cobertor

Neste microtexto temos 6 tipos e 7 ocorrência, dado que a palavra «o» se repete uma vez:
  Deus
  dá
  o, o
  frio
  conforme
  cobertor
  
Um dado que é obtido a seguir é a proporção tipos/ocorrência. Quanto mais tal relacionamento é alto, tanto mais o texto é lexicamente complexo, rico. Ao contrário, quanto mais é baixo mais as palavras se repetem e a complexidade léxica é baixa.

Um outro dado que pode ser obtido é a posição das palavras no cotexto, escolhendo quanto tal cotexto deve ser amplo.

Todos os dados obtidos são, porém, relacionados com as dimensões do texto de referência, porque, naturalmente, quanto menor o texto menos as estatísticas relativas são significativas.

A consulta dos corpora em vez da consulta dos dicionários não é uma operação veloz e cômoda, ao contrário, pode requerer tempo. É o resultado que será mais satisfatório, porque dá uma idéia mais precisa e concreta do significado de uma palavra ou frase.

No que concerne à língua inglesa, o maior corpus à disposição do público é o British National Corpus, no endereço:
  
http://firth.natcorp.ox.ac.uk/ Nele as consultas são feitas em um conjunto de textos que vão dos clássicos da literatura em língua inglesa aos textos orais registrados no rádio.

Em língua italiana (e muitas outras, inclusive o latim), um dos maiores corpora para consulta livre é a Wordtheque, no http://www.wordtheque.com.

Em ambos os casos, a palavra recuperada conecta-se ao texto da qual foi extrapolada, com dados relativos ao autor e à publicação. Isto permite a quem consulta tirar as devidas conclusões relativas ao grau de confiabilidade da ocorrência e ao tipo de registro de uso. Para o aprofundamento do tema desta unidade dupla, recomendo os livros na bibliografia, dando boas-vindas a quem segue o curso para a primeira unidade da terceira parte, dedicada à produção do metatexto.

 

Bibliografia

CALVINO I. Se una notte d'inverno un viaggiatore, Turim, Einaudi, 1979.

LANA M. Testi stile frequenze, em Lingua letteratura computer, a cargo de Mario Ricciardi, Turim, Bollati Boringhieri, 1996, ISBN 8833909905.

LANA M. L'uso del computer nell'analisi dei testi. Scienze umane e nuove tecnologie, Milão, Franco Angeli, 1994, ISBN 8820488701.

LANCASHIRE I, Using TACT with Electronic Texts. A Guide to Text-Analysis Computing Tools, Nova York, The Modern Language Association of America, 1996, ISBN 0873525698.

ORLANDI T. Informatica umanistica, Roma, La Nuova Italia Scientifica, 1990, ISBN 8843008870.

SHANNON C. E., WEAVER W. The Mathematical Theory of Communication, Urbana (Illinois), University of Illinois Press, 1949.

SHKLOVSKIJ, V. B. O teorii prozy, Moscou, Federacija, 1929. Teoria della prosa, tradução de C. G. de Michelis e R. Oliva, Turim, Einaudi, 1976. Theory of prose, tradução de Benjamin Sher, introdução de Gerald R. Bruns, primeira edição americana, Elmwood Park (Illinois), Dalkey Archive Press, 1990, ISBN 0916583546.


1 Calvino 1979, p. 189.


 



Índice VoltarAvançar