Logos Multilingual Portal

12 – D’Autres Corpora

SommairePrécedentSuivant



«Mon prochain projet est de démontrer que le travail-rêve est achevé par l’association de trois facteurs énumérés – et un quatrième qui a encore à être mentionné – qui ne font pas plus que de traduire les pensées-rêve»1.


Le site le plus complet en ce qui a trait aux textes Anglais est peut être The Online Books Page, John Mark Ockerbloom, Curator, que l’on retrouve à l’adresse : http://onlinebooks.library.upenn.edu/lists.html. Le site contient plus de vingt mille ouvrages sur lesquels on peut faire des recherches, en tapant un nom d’auteur, un titre ou un sujet de discussion.

Le site n’est pas structuré tel un corpus, par conséquent il est possible de télécharger un ouvrage dans votre ordinateur, mais vous ne pouvez pas faire de la recherche en ligne sur les ouvrages, ni créer ni avoir accès à des concordances en utilisant ce site.

Les textes ne sont pas présents matériellement sur le serveur de l’université (le site fait partie du portail de l’Université de la Pennsylvanie), mais on peut y avoir accès par des liens à d’autres sites. Le bibliothécaire Ockerbloom maintient constamment à jour les divers liens, et accomplit ce travail si bien qu’Online Books est un des sites les plus visités par les chercheurs à la recherche de textes en format électronique.

On trouve fréquemment des sites précieux qui ne sont pas équipés pour permettre à l’usager de travailler sur le matériel contenu dans le répertoire. Dans ces cas, il est recommandé de prendre en considération la création des ses propres concordances. À première vue cela peut sembler constituer une tâche ardue, mais en y regardant de plus près on se rend compte que la tâche ne nécessite pas d’efforts aussi énormes qu’il y a tout juste quelques années. Au temps présent, en quelques heures, en utilisant l’internet, il est possible de se faire un regroupement des textes et des programmes que l’on souhaite avoir et de travailler avec eux. Voyons comment cela peut se faire :

La première question à régler est de déterminer le genre de corpus requis. Généralement un corpus est requis afin de vérifier la fréquence à laquelle on utilise des expressions données ou des chaînes de texte. La fréquence d’usage d’un mot peut être typique de l’auteur d’un texte, ou d’un genre littéraire en son entier, ou d’une période historique. En conséquence, son usage (ou son manque d’usage) devient significatif et peut parfois constituer une référence intertextuelle.

Pour faire ce type de vérification, vous devez normalement disposer de deux corpora : l’un contient le texte sur lequel vous travaillez (ou un macro texte des ouvrages complètes du même auteur) et un corpus de contrôle. Le deuxième est généralement composé de textes de la même période historique, dans le même langage, de la même culture que l’original et sert de base de comparaison.

En traitant des textes du passé, qui par conséquent ne sont pas protégés par des droits d’auteur, il n’est pas difficile de les obtenir : on les retrouve ordinairement sur l’internet. Lorsqu’ils ne sont pas disponibles en format électronique, ce format peut être créé.

Un scanner et un programme de reconnaissance optique sont requis. Le scanner "lit" les pages nécessaires, et le programme de reconnaissance optique transforme l’image en texte. Généralement ces programmes reproduisent le texte en format .txt lequel est dans un format que tout programme de traitement de texte peut reconnaître.

Pour créer le corpus, vous n’avez besoin que de mettre tout le matériel dans la même filière que les ouvrages que vous voulez incorporer dans le corpus et les enregistrer dans une filière .txt individuelle. Certains programmes utilisés pour générer des concordances requièrent un format .txt spécifique appelé "text only with line breaks", qui est une option de format disponible dans tous les programmes de traitement de texte.

Lorsque les textes souhaités ont été acquis et que les corpora ont été mis en place, il vous faut un programme pour créer les concordances. En vous connectant à la page titrée Gateway to corpus linguistics à l’adresse internet : http://www.corpus-linguistics.de/software/software_concord.html,

vous obtenez une perspective des logiciels disponibles. Vous pouvez avoir des logiciels gratuits de même qu’en en payant le prix.

L’un des programmes gratuits, KWiC Finder est disponible à l’adresse internet : http://miniappolis.com/KWiCFinder/KWiCFinderDownload.html mais il en existe d’autres aussi : R.J.C Watt’s Concordance (Windows 95/98/ME/2000/XP), LEXA - Corpus Processing Software by Raymond Hickey (Windows 95/98/ME/2000/XP), Mike Scott's WordSmith 4.0 beta (Windows 98/NT/2000/XP), Microconcord offered by Athelstan (per DOS), Microconcord by Mike Scott, Monoconc PRO also from Athelstan (for Windows 95 or higher), Multiconcord by Progetto Lingua-Socrates, QWICK from the Corpus Research Group, University of Birmingham, UK, TATOE: Text Analysis Tool with Object Encoding (for Windows 95/98/NT), Text Analysis Computing Tools (TACT), solo per Windows 3.11 e Windows 95/98), UltraFind 2.5.3 for Macintosh by Ultradesign.com, Peter Roe’s WinATA (for Windows 95 or later), WinConcord from Zdenek Martinek (for Windows 95 and XP), Xlex/www tools by Arbeitsbereich Linguistik.

Comme vous pouvez le constater il existe un programme pour tous les besoins, tous les budgets et tous les goûts.

Lorsque le logiciel est installé, les requêtes au corpus sont assez simples. Naturellement il est possible de faire des requêtes complexes qui requièrent de l’expérience et de l’habileté dans l’emploi des principes traitant des statistiques de base. Mais pour leur utilisation telle que décrite ici (les comparaisons de la fréquence de l’usage, etc.) des connaissances extraordinaires ne sont pas nécessaires.

Dans la prochaine section nous commencerons l’examen des dictionnaires en ligne.

 

Bibliographie

FREUD SIGMUND L’interpretazione dei sogni in Opere vol. 3 Torino Boringhieri edited by C. L. Musatti 1966.

FREUD SIGMUND The Interpretation Of Dreams translated by A. A. Brill London G. Allen & company 1913.

Gateway to corpus linguistics on the internet, available in the world wide web at the address http://www.corpus-linguistics.de/software/software_concord.html, consulted on 7 April 2004.

KWiC Finder, available in the world wide web at the address http://miniappolis.com/KWiCFinder/KWiCFinderDownload.html, consulted on 7 April 2004.

OCKERBLOOM JOHN MARK The Online Books Page, available in the world wide web at the address http://onlinebooks.library.upenn.edu/lists.html, consulted on 7 April 2004


1 Freud 1900: 385.


 



SommairePrécedentSuivant