Logos Multilingual Portal

40 - El análisis del prototexto y el ordenador

ÍndiceAnteriorSiguiente


"... un alud de palabras aisladas en las cuales se
exprese esa verdad que aún no conozco, y con las
cuales la computadora, invirtiendo su propio programa
obtenga un libro, mi libro" 1.

  Por lo que hemos dicho sobre Shklovsky y los automatismos perceptivos, es obvio que, en lo que se refiere a la marcadeza léxica, y sólo en tal caso, el análisis informático del texto puede ser muy útil para el traductor. Normalmente, el traductor se sentirá inclinado a traducir una palabra marcada por otra, y una palabra colocada de modo anónimo por otra igualmente corriente.
  Entre las palabras que son más frecuentes en un texto, por el contrario, se encuentran las que se denominan "palabras vacías". En su mayor parte se trata de conjunciones, preposiciones, artículos y cópulas que no son útiles para la expresión poética o conceptual, sino sólo para la coherencia sintáctica. Al ser siempre las formas más frecuentes, estos datos no son significativos.
  Tradicionalmente, los investigadores pasan por alto las palabras vacías, pero hace poco tiempo algunos estudiosos han señalado la posibilidad de que, precisamente por su pobreza semántica y la facilidad de su sustitución (pensemos, por ejemplo, en las palabras del español "dentro" y "en", "a" y «hasta», etc.), podrían formar, si se las toma en su conjunto, cadenas de texto o segmentos idénticos que el autor utiliza de manera inconsciente, que apuntarían a una posible semejanza ancestral y, por lo tanto, a una especie de huella dactilar, a un patrimonio genético del estilo de un autor.
  Si esta hipótesis es especialmente indicativa en la reconstrucción de la autoría de documentos antiguos, cuando se trata de atribuir el texto a un autor determinado y no a otro, también lo es en el análisis traductológico, puesto que se puede registrar dicha impronta del original y verificar si también está presente en el metatexto, y si no lo está, se puede establecer si esto tiene consecuencias en el plano interpretativo, en la recepción y la influencia intertextuales.
Por otra parte, la presencia de palabras muy frecuentes ajenas al grupo de las palabras vacías puede ser indicio de coherencia textual. Pensemos, por ejemplo, en los nombres de personajes y en el uso en su lugar -en el prototexto o el metatexto- de pronombres, en la presencia de deícticos y en su tratamiento en la traducción. En el último caso, se observa una tendencia general del texto traducido a un mayor grado de claridad. Con frecuencia el traductor asume funciones de mediación cultural que no corresponden exactamente a la función traductiva y, entendiendo la "misión del traductor" de modo idiomórfico, tiende a facilitar la lectura del metatexto, muchas veces inconscientemente, sustituyendo los deícticos que hacen referencia a una contingencia (esto, aquí, ahora, el, uno, etc.) por otros que refieren a una situación cronotópicamente distante o indefinida (aquello, allá, entonces, uno, el otro, etc.)
En esencia, para atribuir un significado preciso a frecuencias bajas o altas es siempre necesario añadir una síntesis verbal humana que contextualice los datos numéricos.
  También hay palabras cuya elevada frecuencia no es estadísticamente significativa, pero que indica la presencia de motivos y temas dentro de un texto: redes isotópicas con gran importancia cohesiva aunque no se encuentren entre las apariciones escasas. Por lo tanto, es importante comprobar su presencia también en el metatexto.
  No existen, pues, reglas universales precisas para la interpretación de los datos brutos que produce la máquina: hasta el investigador dotado de potentes instrumentos de medida tiene que recurrir a su creatividad científica para no dejarse engañar por supuestas verdades objetivas.
  Uno de los programas de análisis de texto más difundidos se llama TACT (Textual Analysis Computing Tools) y está disponible en Internet de modo gratuito para todos los estudiosos y las personas que no lo utilicen para fines comerciales. Este sencillo programa puede trabajar con archivos de texto en formato .txt con saltos de línea. El programa TACT es uno de los más utilizados en las universidades de todo el mundo. No es fácil de usar y para aprender a utilizarlo de manera provechosa es necesario tener cierto conocimiento de los ordenadores tal como eran antes de la aparición de las interfaces gráficas de usuario. Se ejecuta en el entorno DOS y, en cierto modo, prescinde de Windows.
  Uno de los datos que se pueden obtener con TACT y otros programas similares es la proporción type/token, es decir, entre los tipos de palabras y la frecuencia de su aparición. Si ordenamos todas las palabras de un texto en orden alfabético, observamos que algunas se repiten mientras que otras sólo aparecen una vez. Si anotamos cada palabra repetida en una misma línea, el número de líneas indicará los tipos (palabras distintas), mientras que el número total de las palabras de un corpus se expresará por las apariciones o tokens:
El cántaro
Tanto va el cántaro a la fuente que al final se rompe
Este microtexto contiene 12 tipos y 14 apariciones, porque la palabra "cántaro" y la palabra "él" se repiten una vez:
a
al
cántaro cántaro
el el
final
fuente
la
que
rompe
se
tanto
va
Un dato que se obtiene de inmediato es la proporción tipo/aparición. Cuanto mayor sea esta proporción, más léxicamente complejo será el texto, más rico, y por el contrario, al descender la proporción, son más las palabras que se repiten y es menor la complejidad léxica.
  Otro dato que se puede obtener es el de la colocación de la palabra en el cotexto, eligiendo la longitud que debe tener el ejemplo de cotexto.
  Todos los datos obtenidos deben considerarse siempre respecto al volumen del texto de referencia, puesto que, como es obvio, cuanto más breve sea el texto, menos significativas serán las estadísticas correspondientes.
  La consulta del corpora en lugar del diccionario no es una operación rápida ni cómoda; por el contrario, puede requerir bastante tiempo. Es el resultado lo que es más satisfactorio, porque ofrece una idea más precisa y concreta sobre el significado de una palabra o frase.
  Respecto a la lengua inglesa, el mayor corpus disponible para el público es el British National Corpus, en el URL:
  http://firth.natcorp.ox.ac.uk/
  Desde esta página se pueden realizar consultas, sabiendo que se cuenta con conjuntos de textos que van desde los clásicos de la literatura inglesa hasta textos orales grabados para la radio.
  En cuanto al español (aunque están representados muchos otros idiomas, incluido el latín), uno de los corpora más vastos es Wordtheque, en la dirección:
  http://www.wordtheque.com
  En ambos casos, la palabra recuperada refiere al texto de que se ha extraído, con datos del autor y de la publicación. Esto permite a la persona que realiza la consulta obtener sus propias conclusiones respecto al grado de fiabilidad de la aparición del término y el tipo de registro de uso. Para profundizar en el tema que tratan las dos últimas unidades, pueden consultarse los libros que se enumeran en la bibliografía. Quienes estén siguiendo este curso pueden acceder a la tercera parte, dedicada a la producción del metatexto.

  

BIBLIOGRAFÍA

CALVINO I. Si una noche de invierno un viajero, Traducido por Esther Benítez, Madrid, Ediciones Siruela, 1999, ISBN 84-784-453-X.

LANA M. Testi stile frequenze, in Lingua letteratura computer, editado por Mario Ricciardi, Torino, Bollati Boringhieri, 1996, ISBN 8833909905.

LANA M. L'uso del computer nell'analisi dei testi. Scienze umane e nuove tecnologie, Milano, Franco Angeli, 1994, ISBN 8820488701.

LANCASHIRE I, Using TACT with Electronic Texts. A Guide to Text-Analysis Computing Tools, New York, The Modern Language Association of America, 1996, ISBN 0873525698.

ORLANDI T. Informatica umanistica, Roma, La Nuova Italia Scientifica, 1990, ISBN 8843008870.

SHANNON C. E., WEAVER W. The Mathematical Theory of Communication, Urbana (Illinois), University of Illinois Press, 1949. Teoría Matemática de la Comunicación, Madrid, Ed. Forja, 1981.

SHKLOVSKY, V. B. O teorii prozy, Moskva, Federacija, 1929. Teoria della prosa, traducción de C. G. de Michelis y R. Oliva, Torino, Einaudi, 1976. Theory of prose, traducción de Benjamin Sher con introducción de Gerald R. Bruns. 1st American edition, Elmwood Park (Illinois), Dalkey Archive Press, 1990, ISBN 0916583546.


1 Calvino 1979, p. 199.





ÍndiceAnteriorSiguiente