Logos Multilingual Portal

39 - Análise do prototexto e computador

Índice VoltarAvançar


 

«Talvez, em vez de um livro, eu poderia
escrever listas de palavras, em ordem alfabética,
uma avalanche de palavras isoladas, que expressem aquela
verdade ainda não conhecida, da qual o computador,
revertendo o próprio programa, constrói o livro, o meu livro»
1.

Por muitas décadas, o uso do computador nas ciências filológicas, e na análise do texto em particular, foi considerado uma espécie de tabu. Isto devido, principalmente, ao fato de que a preparação do filólogo - seja um tradutor, um crítico, um docente ou um pesquisador - historicamente não comportou o aprofundamento dos princípios da informática aplicada aos textos, nem a preparação do cientista da computação prevê a aplicação da potência do cálculo eletrônico e atividades específicas e marcadamente humanísticas como a filologia e a ecdótica2.

Mesmo assim, parece-me interessante concluir esta segunda parte do curso de tradução dedicada à análise do prototexto com uma unidade dupla sobre as possibilidades oferecidas pela informática ao tradutor que deseje ou deva analisar o prototexto em vista da sua tradução.

Depois das asneiras - causadas por um excesso de entusiasmo para a repentina evolução técnica - que permitiram vislumbrar, nos anos 70 e 80, a possibilidade de aplicar a eletrônica a tudo, às ciências humanas inclusive, e diretamente à tradução, passou-se a uma fase de exploração mais cautelosa.

Além de a decodificação de um texto exigir relacionamentos com o contexto (o computador, que não tem competência semântica, pode ser utilizado somente para contar ocorrências; não é capaz de definir e delimitar o contexto), a decodificação dos significados possíveis de uma palavra, para ativar as equivalências úteis e suprimir as não-aplicáveis, levam à busca de conexões no cotexto.

Isto, junto às novas possibilidades técnicas, tem dado novo vigor ao uso dos corpora no campo dos estudos humanísticos. Por «corpus» entende-se um conjunto de textos unidos por alguma característica: autor, língua, período, gênero literário ou outro. O princípio fundamental que guia tal estudo é a observação da linguagem, um princípio descritivo, para extrair normas pretendidas não como prescrições, mas como regularidade. E, para poder observar a linguagem em sua forma viva, o recurso às corpora é útil como parâmetros constantes para comparar com enunciados específicos, para consultar e efetuar pesquisas.

Um dos mais imediatos frutos do estudo de um corpus é a compilação de concordância, mais propriamente listas das palavras (ou de série das palavras) que se repetem idênticas dentro de um corpus, com os dados necessários para recuperá-las (as coordenadas dentro do texto). As concordâncias, que até poucas décadas atrás eram redigidas a mão, com longas e cansativas indexações em papel cartão, entrada por entrada, agora podem ser compiladas de modo automático de qualquer computador pessoal depois de uma preparação e pré-edição do texto eletrônico. Disto renasceu3 uma disciplina, conhecida como corpus linguistics, ou lingüística dos corpora.

No campo da tradução, o uso de corpora no computador e online nos leva à última década do século XX. Em certa medida, na prática tradutiva a consulta dos corpora está suplantando a consulta dos dicionários, permitindo uma interpretação mais direta e concreta do espectro semântico de cada vocábulo no contexto.

Enquanto um dicionário provê uma interpretação dos significados de uma palavra e, em certos casos, dirige as possibilidades interpretativas do tradutor ao longo de canais não coincidentes com aqueles úteis no contexto dado, a consulta de um corpus é muito mais empírica e flexível, dado que deixa ao tradutor (ou ao decodificador) a possibilidade de intuir, de inferir significados possíveis da própria cena em que nasce: a enunciação.

Na análise do texto em geral, o computador, se usado dentro dos limites do seu campo de ação, pode ser uma ferramenta preciosa. Começaremos revisando os limites da análise eletrônica do texto.

O computador é capaz de contar as ocorrências de uma palavra, ou de uma seqüência de caracteres, dentro de um texto, e eventualmente de calcular a previsibilidade de tais ocorrências comparando a freqüência dentro de um microtexto com a freqüência dentro de um macrotexto que contém o anterior (por exemplo, o corpus). É, então, muito útil para a análise léxica de um texto, assim como para sua coesão léxica, pelas conexões intratextuais e intertextuais.

O computador é, além disso, capaz de calcular a previsibilidade estatística de que uma palavra ocorra conjuntamente com (mais propriamente caia próximo a) uma outra, sempre no âmbito de um preciso texto de referência, mais propriamente em termos relativos e não absolutos.

Pelo que dissemos até agora fica evidente que quem conduz a análise tem um papel muito ativo já nas primeiras fases do trabalho. Dada a enorme massa de dados que um texto pode gerar servindo-se da informática, é indispensável que a abordagem geral das investigações seja clara do início ao fim. É necessário que, antes de submeter um texto à análise informática, haja um conhecimento da obra e do autor no seu todo, e da obra considerada em particular, e que se criem hipóteses de interpretação que a ferramenta eletrônica possa vir falsificar ou corroborar.

Entretanto, é preciso considerar também que os resultados obtidos em primeira mão freqüentemente dirigem a pesquisa ao longo de canais inicialmente insuspeitáveis, embora outras pistas sejam abandonadas, no curso da pesquisa, por insuficiência de pistas.

O computador não é, então, capaz de montar a pesquisa, de decidir quais questões são sensatas e quais não; e nem é capaz de interpretar os dados. Uma vez de posse de um elenco de ocorrências e de ocorrências conjuntas do texto, e das relativas correlações de presença, o tradutor deve ser capaz de estabelecer quais dados são realmente significativos. Os critérios metodológicos neste sentido não são absolutos, mas variam segundo as circunstâncias precisas das análises individuais.

São mais importantes as palavras que ocorrem mais vezes ou aquelas mais raras? Na filologia clássica existe o conceito de hapax, definido como «forma que recorre somente uma vez no texto ou corpus em exame»4. O termo foi criado porque normalmente é considerada particularmente preciosa uma forma rara e, naturalmente, um hapax é tanto mais precioso quando o corpus que o contêm é extenso. Um hapax existe somente na presença de muitas outras palavras com freqüências muito altas.

Shannon e Weaver falam da proporção inversa entre previsibilidade/informatividade. Em termos simples, e aplicado ao que interessa a um tradutor durante a análise do texto orientada para sua tradução, pode-se dizer que, em um texto, quanto mais for previsível o encontro de uma palavra numa certa posição, menos tal presença é significativa. É um modo diferente de observar a questão da marcação de um enunciado, que já examinamos neste curso. O discurso é muito similar ao de Šklovskij sobre "desfamiliarização" ou "estranhamento", a quebra do automatismo perceptivo.

Viktor Šklovskij, formalista russo, nos anos 20, deu-se conta da importância da quebra da rotina, do exame de um objeto segundo um ponto de vista inédito5, para a percepção de um texto. Um texto não marcado, como o chamaríamos hoje, mais propriamente um texto não desfamiliarizante, é percebido como se a sua forma fosse secundária, e o leitor é levado a sintonizar-se automaticamente com o conteúdo informativo, denotativo, sem pensar em modalidade expressiva. Um texto marcado, ao contrário, mais propriamente um texto desfamiliarizante, ao produzir obstáculos à percepção "normal", automática, permite deter a atenção do leitor sobre a forma, que, assim, por saltar aos olhos e alterar a percepção do texto, torna-se parte integrante do conteúdo.

 

Bibliografia

CALVINO I. Se una notte d'inverno un viaggiatore, Turim, Einaudi, 1979.

LANA M. Testi stile frequenze, em Lingua letteratura computer, a cargo de Mario Ricciardi, Turim, Bollati Boringhieri, 1996, ISBN 8833909905.

LANA M. L'uso del computer nell'analisi dei testi. Scienze umane e nuove tecnologie, Milão, Franco Angeli, 1994, ISBN 8820488701.

LANCASHIRE I, Using TACT with Electronic Texts. A Guide to Text-Analysis Computing Tools, Nova York, The Modern Language Association of America, 1996, ISBN 0873525698.

ORLANDI T. Informatica umanistica, Roma, La Nuova Italia Scientifica, 1990, ISBN 8843008870.

SHANNON C. E., WEAVER W. The Mathematical Theory of Communication, Urbana (Illinois), University of Illinois Press, 1949.

SHKLOVSKIJ, V. B. O teorii prozy, Moscou, Federacija, 1929. Teoria della prosa, tradução de C. G. de Michelis e R. Oliva, Turim, Einaudi, 1976. Theory of prose, tradução de Benjamin Sher, introdução de Gerald R. Bruns, primeira edição americana, Elmwood Park (Illinois), Dalkey Archive Press, 1990, ISBN 0916583546.


1 Calvino 1979, p. 189.
2 Conjunto dos estudos e operações necessários para a edição crítica de um texto; filologia textual. Do grego ekdosis, edição.
3 O corpus linguistics foi criado e inicialmente floresceu antes do advento das teorias homskianas. Com a difusão da gramática generativa de Chomsky, que prevê uma abordagem diametralmente oposta - como parte da estrutura profunda para retornar ao enunciado, enquanto o corpus linguistics parte do enunciado para retornar ao significado contextual e efêmero - a lingüística dos corpora faz disto uma piada. A difusão do computador pessoal de potência antes imprevisível aliada às críticas dirigidas à teoria homskiana têm dado novo vigor à lingüística dos corpora.
4 Lana 1996.
5 Šklovskij 1929.


 



Índice VoltarAvançar