Logos Multilingual Portal

39 – L’Analyse du Prototexte et l’Informatique

SommairePrécedentSuivant


"Peut-être qu’au lieu d’un livre je pourrais écrire des listes de mots,

En ordre alphabétique, une avalanche de mots isolés

Pour exprimer cette vérité que je ne connais pas encore…"1.

Au cours de plusieur décennies l’utilisation des ordinateurs en sciences philologiques, et en particulier en analyse de textes, a été considérée comme une sorte de tabou. C’est probablement dû à l’éducation du philologiste – qu’il soit traducteur, critique, professeur ou chercheur – laquelle n’a jamais, historiquement, inclus d’études de l’application de la science de l’informatique à l’analyse de textes. D’autre part, la formation des scientistes en informatique n’implique pas elle non plus l’utilisation du pouvoir de l’électronique à des activités spécifiquement ou nettement humaniste telles que la philologie et les ecdotiques2.

Néanmoins, nous croyons qu’il serait très intéressant de terminer cette première partie du cours de traduction, consacrée à l’analyse du prototexte, avec deux sections réservées aux moyens que les ordinateurs offrent au traducteur qui désire ou qui a besoin d’analyser le prototexte en fonction de sa traduction. Les bévues – résultant d’un excès d’enthousiasme envers l’évolution rapide de la technique au cours des années soixante-dix et quatre-vingt – nous ont quand même permis d’avoir un aperçu des possibilités d’application des ordinateurs pour travailler dans tous les domaines, incluant les sciences humaines et même la traduction. Une étape plus précautionneuse d’investigation a suivi ces deux décennies.

Dans le décodage d’un texte, le rapport est très important entre son contexte et les sens possibles donnés à un mot, qui permettent d’activer des équivalences utiles et de supprimer celles qui ne sauraient être applicables, tout en tenant compte des liens existant avec le co-texte (un ordinateur n’ayant aucune compétence sémantique, peut uniquement être utilisé pour compter les évènements; il est incapable de définir ni de décrire un contexte). Ce constat, associé aux nouveaux développements techniques, a insufflé un nouveau souffle à l’utilisation des corpora à des fins de recherche en science humaine.

Le mot "corpus" signifie pour nous une collection de textes partageant quelques-unes de leurs caractéristiques: l’auteur, le langage, le temps, le genre, ou tout autre caractéristique. La raison d’être fondamentale de cette étude est l’observation du langage – un principe descriptif – afin de colliger des normes qui ne sauraient être des prescriptions, mais plutôt servir de règle à mesurer la régularité. Et, afin d’être capable d’observer un langage dans sa forme vivante, il est utile de nous référer aux corpora comme étant des paramètres constants qui peuvent être comparés à des actions spécifiques de parole, à être questionnés, et à propos desquels des recherches peuvent être entreprises.

L’un des résultats les plus importants de l’étude des corpora est la compilation de concordances, i.e. des listes de mots (et des chaînes de mots) qui se répètent identiquement dans un corpus, et qui contiennent les données nécessaires pour les recouvrer (coordonnées dans le texte même). Les concordances, recueillies manuellement, jusqu’à il y a seulement quelques décades, grâce à un travail lent, laborieux et fatiguant en procédant à des entrèes indexées l’une après l’autre sur des cartes, peuvent maintenant être recueillies automatiquement par n’importe quel ordinateur personnel après une préparation et une pré-édition du texte électronique. Suite à l’adoption de cette procédure, une discipline connue sous le nom de corpus linguistics a refait surface3. Dans les études de traduction, l’utilisation des ordinateurs et des corpora en ligne a débuté au cours de la dernière décennie du 20e siécle. D’une certaine manière, dans la pratique de la traduction la référence aux corpora supplante les références à des dictionnaires, favorisant une interprétation plus directe et concrète du spectre sémantique de chaque mot dans son contexte.

Alors que le dictionnaire fournit une interprétation des significations d’un mot, l’interprétation de l’auteur, et les sentiers d’interprétations disponibles au traducteur pourraient ne pas coincider avec ceux qui peuvent être utiles dans un contexte donné. La consultation des corpora est beaucoup plus empirique et souple, parce qu’elle laisse au traducteur (ou de toute façon au décodeur) l’opportunité d’avoir des intuitions, de déduire des significations de la scène même dans laquelle ils ont leur origine: le discours.

Si nous connaissons les limites de sa portée, un ordinateur peut être un outil vraiment précieux d’analyse de texte en général. Commençons par une revue des limites de l’analyse de texte par électronique. Un ordinateur peut compter la fréquence à laquelle un mot, ou une chaîne de caractères se répètent dans un texte, et peut possiblement calculer la prédictabilité de telles répétitions en comparant leur fréquence d’utilisation dans un micro-texte avec leur fréquence d’utilisation dans un macro-texte contenant le mot référence (le corpus par exemple). En conséquence, l’ordinateur est très utile pour analyser le texte lexicalement, et ainsi la cohésion lexicale de ses références intertextuelles et intratextuelles.

L’ordinateur peut aussi calculer la prédictabilité statistique qu’un mot pourrait se répéter en même temps (i.e. apparaitre proche de) qu’un autre mot, toujours dans le cadre d’un même texte donné, i.e. en termes relatifs et non en termes absolus. Avec ce que nous venons tout juste de citer, il semble évident que la personne qui exécute l’analyse a un rôle très actif depuis les toutes premières étapes du travail. Vu la quantité énorme de données qu’une analyse de texte peut produire en utilisant les ordinateurs, il est indispensable que les lignes directrices de l’investigation soient très claires dès le tout début. Avant de soumettre un texte à une analyse par ordinateur, il est nécessaire de s’asssurer qu’une solide connaissance générale du texte, de son auteur et du texte en cause, existent, et de mettre en perspective l’hypothèse qu’il y a une posssibilité que l’outil électronique puisse falsifier ou valider ces données. Entretemps, vous devez aussi considérer que les premiers résultats obtenus orientent souvent la recherche vers des sentiers initiallement insoupsonnés alors que d’autres sentiers sont abandonnés, au cours de de cette même recherche, dû à l’insuffisance d’indice.

Un ordinateur ne peut par conséquent, initialiser une recherche, décider quelles questions sont sensées et lesquelles ne le sont pas; et il ne peut pas non plus interpréter des données. Lorsqu’il est en possession d’une liste des évènements et des co-évènements, et de leurs coordonnées correspondantes, le traducteur doit être capable de déterminer quelles données sont vraiment significatives. Les critères méthodologiques ne sont pas absolues en ce sens, ils varient selon les circonstances précises des analyses individuelles. Est-ce que ces mots qui se répètent le plus souvent sont les plus importants ou bien si ce sont les plus rares qui le sont? Dans la philologie classique on retrouve la notion de hapax legomenon, qui se définie comme "une forme qui apparait une seule fois dans un texte ou un corpus"4 donné. Le terme est apparu parce qu’ordinairement une forme rare est considérée particulièrement précieuse et, bien sûr, un hapax est encore plus précieux si le corpus que le contient est grand. Un hapax existe seulement si plusieurs autres mots utilisés fréquemment sont présents.

Shannon et Weaver parlent de proportion inverse entre la prédictabilité et l’information. Traduit en termes simples, et appliqué à ce qui intéresse le plus un traducteur traitant surtout d’analyse de textes orientée vers la traduction, nous pouvons dire que dans un texte, plus la chance est grande de trouver un mot dans une position donnée, moins cette présence est significative. C’est une autre façon de visualiser la question du marquage de parole que nous avons si souvent traitée dans ce cours. Le raisonnement est très similaire à celui de Shklovsky sur la "défamiliarisation" ou "faire dans l’étrange", la cassure de l’automatisme perceptuel.

Dans les années 1920, un Russe Formaliste, Viktor Shklovsky, a réalisé l’importance de briser la routine dans la perception du texte, de faire l’examen d’un objet avec un point de vue tout à fait original5. Un passage d’un texte non-marqué, comme nous l’appellerions de nos jours, i.e. un passage de texte qui ne nous défamiliarise pas, est perçu comme si sa forme était secondaire, et le lecteur est induit à se référer automatiquement aux contenus informatifs, aux contenus denotatifs, sans porter attention aux modes expressives. Au contraire, un texte marqué, i.e. un texte qui nous défamiliarise, qui apporte des obstacles à la perception "normale", à la perception automatique, attire l’attention du lecteur sur la forme, qui, de cette façon, seulement parce qu’elle est manifestement évidente et qu’elle modifie la perception du texte, devient une partie intègrale de ses contenus.

 

Bibliographical references

CALVINO I. If on a Winter's Night a Traveller, London, Einaudi, 1979.

LANA M. Testi stile frequenze, in Lingua letteratura computer, edited by Mario Ricciardi, Torino, Bollati Boringhieri, 1996, ISBN 8833909905.

LANA M. L'uso del computer nell'analisi dei testi. Scienze umane e nuove tecnologie, Milano, Franco Angeli, 1994, ISBN 8820488701.

LANCASHIRE I, Using TACT with Electronic Texts. A Guide to Text-Analysis Computing Tools, New York, The Modern Language Association of America, 1996, ISBN 0873525698.

ORLANDI T. Informatica umanistica, Roma, La Nuova Italia Scientifica, 1990, ISBN 8843008870.

SHANNON C. E., WEAVER W. The Mathematical Theory of Communication, Urbana (Illinois), University of Illinois Press, 1949.

SHKLOVSKY, V. B. O teorii prozy, Moskva, Federacija, 1929. Teoria della prosa, translation by C. G. de Michelis and R. Oliva, Torino, Einaudi, 1976. Theory of prose, translated by Benjamin Sher with and introduction by Gerald R. Bruns. 1st American edition, Elmwood Park (Illinois), Dalkey Archive Press, 1990, ISBN 0916583546.


1 Calvino 1979, p. 189.
2 Philologie textuelle. Du grecque ekdosis, édition.
3 Corpus linguistics

a vu le jour et a prospéré avant la venue des thèories de Chomsky. Alors que la grammaire générative s’étendait, impliquant une approche complètement opposée – commençant de la structure profonde et progressant jusqu’à la parole, alors que le corpus linguistique débute avec la parole et progresse vers la signification contextuelle et éphémère – le corpus linguistique s’est arrêté. La diffusion d’ordinateurs personnels avec un pouvoir inpensable auparavant joint aux critiques dirigées contre la théorie de Chomsky ont donné une nouvelle vie au corpus linguistique.

4 Lana 1996.
5 Šklovskij 1929.


 



SommairePrécedentSuivant