Logos Multilingual Portal

12 - Otros corpus

IndexBackNext


«Fáltanos ahora demostrar que la acción conjunta de los tres factores hasta el momento examinados –y de otro más que aún nos queda por investigar– es lo que constituye la elaboración onírica, la cual no hace, fuera de esto, sino llevar a cabo una traducción de las ideas latentes»1.

Tal vez el sitio más completo respecto a textos en inglés sea The Online Books Page, de John Mark Ockerbloom, bibliotecario, que se encuentra en la dirección http://onlinebooks.library.upenn.edu/lists.html. Contiene más de 20.000 obras que se pueden localizar por autor, título o argumento. El sitio no está estructurado como un corpus, por lo que es posible descargar una obra al ordenador, pero no se pueden realizar consultas en línea ni acceder a concordancias ni crearlas.

Los textos no están físicamente alojados en el servidor de la universidad (el sitio es parte del portal de la University of Pennsylvania), sino que se accede a ellos mediante vínculos con otros sitios. El bibliotecario Ockerbloom mantiene los vínculos constantemente actualizados, y lo hace tan bien que Online Books es uno de los sitios más visitados por quienes buscan textos en formato electrónico.

Es frecuente encontrar sitios magníficos que no están equipados para permitir al usuario que trabaje con el material que contienen. En tales casos, lo mejor puede ser crear concordancias propias. Al principio puede parecer una tarea muy complicada, pero si se analiza un poco, no tiene comparación con los enormes esfuerzos que eran necesarios hace pocos años. Actualmente, con el uso de Internet es posible conseguir en pocas horas los textos y los programas que hagan falta para trabajar con ellos. Veamos cómo se hace.

Lo primero es determinar el tipo de corpus que se necesita. Generalmente, el corpus sirve para comprobar la frecuencia de uso de ciertas expresiones o cadenas de texto. La frecuencia de uso de una palabra puede ser típica de un autor o de un texto, de toda una corriente literaria o de un periodo histórico. Por lo tanto, su uso (o ausencia de él) adquiere importancia y en algunos casos puede constituir una referencia intertextual.

Para realizar dichas comprobaciones suele ser necesario contar con dos corpus, uno con el texto en que se trabaja (o el macrotexto de las obras completas del autor en el que se trabaja) y otro de control. Normalmente, el segundo estará compuesto de textos del mismo periodo, cultura y lengua que el original, y permitirá establecer comparaciones.

Si se trata de textos de épocas antiguas, y que por lo tanto carecen de derechos de autor, no es difícil obtenerlos: casi siempre estarán en Internet. Si no están disponibles en formato electrónico, dicho formato puede crearse.

Todo lo que se necesita es un escáner y un programa de reconocimiento óptico. El escáner "lee" las páginas, y el programa de reconocimiento óptico transforma la imagen en texto. En general, dichos programas generan el texto en formato .txt, es decir, reconocible por cualquier programa de tratamiento de texto.

Para crear el corpus, basta con situar todo el material en el mismo archivo y guardarlo con formato .txt. Algunos programas de los utilizados para generar concordancias requieren un formato .txt específico de "sólo texto con saltos de línea", una opción de formato que está disponible en todos los programas de tratamiento de texto.

Una vez que se han recopilado todos los textos necesarios y se ha creado el corpus, es preciso conseguir el programa para crear las concordancias. Mediante conexión con la página titulada Gateway to corpus linguistics on the internet en la dirección http://www.corpus-linguistics.de, software, concordancing, se accede a los programas disponibles. Algunos son gratuitos y otros requieren pago.

Uno de los programas gratuitos, llamado KWiC Finder, está disponible en http://miniappolis.com/KWiCFinder/KWiCFinderDownload.html, aunque también existen otros: R.J.C Watt’s Concordance (Windows 95/98/ME/2000/XP), LEXA - Corpus Processing Software de Raymond Hickey (Windows 95/98/ME/2000/XP), Mike Scott's WordSmith 4.0 beta (Windows 98/NT/2000/XP), Microconcord de Athelstan (para DOS), Microconcord de Mike Scott, Monoconc PRO, también de Athelstan (para Windows 95 o superior), Multiconcord de Progetto Lingua-Socrates, QWICK del Corpus Research Group, University of Birmingham, UK, TATOE: Text Analysis Tool with Object Encoding (para Windows 95/98/NT), Text Analysis Computing Tools (TACT), sólo para Windows 3.11 y Windows 95/98), UltraFind 2.5.3 para Macintosh de Ultradesign.com, WinATA de Peter Roe (para Windows 95 y superior), WinConcord de Zdenek Martinek (para Windows 95 y XP), o Xlex/www tools de Arbeitsbereich Linguistik.

Como se ve, hay programas para todas las necesidades, presupuestos y gustos.

Una vez instalado el programa, las consultas al corpus son muy fáciles de hacer. Naturalmente, es posible realizar consultas complicadas que requieren mucha experiencia y el conocimiento de algunos principios de estadística. Sin embargo, para el uso descrito aquí (comparaciones de frecuencia de uso, etc.) no se requieren conocimientos extraordinarios.

En la siguiente unidad iniciaremos el análisis de los diccionarios en línea.

 

BIBLIOGRAFÍA

FREUD SIGMUND, La interpretación de los sueños, traducción de Luis López-Ballesteros y de Torres, Alianza Editorial, ISBN 84-206-1036-4.

FREUD SIGMUND, The Interpretation Of Dreams, translated by A. A. Brill, London, G. Allen & company, 1913.

Gateway to corpus linguistics on the internet, disponible en la web en la dirección http://www.corpus-linguistics.de/software/software_concord.html, consulta realizada el 7 de abril de 2004.

KWiC Finder, disponible en la web en la dirección http://miniappolis.com/KWiCFinder/KWiCFinderDownload.html, consulta realizada el 7 de abril de 2004.

OCKERBLOOM JOHN MARK The Online Books Page, disponible en la web en la dirección http://onlinebooks.library.upenn.edu/lists.html, consulta realizada el 7 de abril de 2004


1 Freud 1900: 385.


 



IndexBackNext