LOGOS - Multilingual Translation Portal

40 – L’Analyse du Prototexte et l’Informatique

«... "... une avalanche de mots isolés

pour exprimer cette vérité que je ne connais pas encore,

et avec laquelle l’ordinateur, inversant son programme,

pourrait bâtir le livre, mon livre"¹.

De ce que nous venons tout juste de citer au sujet de Shklovsky et des automatismes perceptifs, il est évident que, en ce qui a trait au marquage lexical, et exclusivement pour ça, l’analyse du texte faite par l’ordinateur peut être vraiment très utile au traducteur. Ordinairement les traducteurs ont tendance à traduire un mot marqué par un mot marqué, et un mot ordinairement colloqué par un mot anologuement standard.

Parmi les mots qui sont utilisés le plus fréquemment dans un texte, on retrouve des mots qu’on appelle "mots accessoires". Ce sont surtout des conjonctions, des prépositions, des articles, des copules inutiles dans des expressions poétiques ou conceptuelles, qui sont utilisées exclusivement pour assurer la cohérence syntaxique. Bien qu’elles sont les formes les plus fréquemment utilisées, ces mots d’eux mêmes ne sont pas significatifs.

Selon la tradition, les mots accessoires sont négligés par les chercheurs. Récemment, toutefois, certains érudits ont postulé que ces mots, de par leur valeur sémantique nulle et la facilité avec laquelle ils peuvent être remplacés (nous n’avons qu’à penser aux "tra" et "fra", "fino" et "sino" etc. en langage Italien), pourraient former des cordons de texte surtout s’ils étaient pris dans leur ensemble, des segments identiques utilisés inconsciemment par l’auteur, qui pourraient indiquer une similarité ancestrale possible, et, par conséquent, une sorte d’empreinte, de patrimoine génétique du style d’un auteur.

Si une telle hypothèse est spécialement indicative dans le reconstruction de la paternité d’anciens documents, quand l’argument de la discussion se résume à décider de l’attribution d’un texte à un auteur spécifique plutôt qu’à un autre, elle est tout aussi suggestive dans une analyse orientée vers la traduction, parce que quelqu’un peut reconnaitre de tels traits dans l’original et vérifier s’ils sont aussi présents dans le métatexte et, partout ou ils n’y seraient pas, ce même quelqu’un peut décider si cela implique des conséquences au plan interprétatif de la réception et des influences intertextuelles.

D’autre part, la présence de mots très fréquents, étrangers aux groupes des mots accessoires peut être un indice de cohésion textuelle. Pensons simplement par exemple aux noms des caractères ou à l’usage de mots qui les remplacent, – dans le prototexte ou dans le métatexte – de pronoms, de la présence de dèictiques et du traitement qui leur est fait dans la traduction; dans le dernier cas, on note une tendance générale vers un degré plus évident d’explicitation dans les textes traduits. Souvent le traducteur se charge de fonctions de médiation culturelle qui ne sont pas proprement appropriées avec la fonction de traduction et, souvent la compréhension idiosyncratique de la "mission du traducteur", tend à faciliter – souvent inconsciemment – la lecture du métatexte en substituant des déictiques faisant référence à une situation contingente (ceci, ici, maintenant, le/la, un etc.) ou autres qui au lieu de se référer à une situation chronotopiquement distante ou à une situation indéfinie (cela, là, alors, un, l’autre etc.). En bref, aux fins d’attribution d’une signification précise à des fréquences hautes ou bases il est toujours nécessaire d’ajouter une synthèse humaine verbale qui met en contexte les données numériques.

Il y a aussi des mots dont la présence très fréquente n’est pas significative statistiquement, mais indique la présence de motifs et de thèmes dans un texte: des réseaux isotopiques qui ont une signification cohésive très importante même s’ils ne se rangent pas parmi les évènements rares. En conséquence il est important de vérifier leur présence même dans le métatexte.

Ainsi il n’existe pas de règles universelles d’interprétation de données brutes issues de machines: même le chercheur équipé de puissants outils de mesures exactes doit se servir de sa créativité scientifique afin d’éviter d’être trompés par des vérités supposément objectives.

Un des programmes les plus répandus d’analyse de texte s’appelle TACT et il est disponible gratuitement sur le net, à tous les chercheurs et à toute autre personne qui ne l’utilise pas à des fins commerciales. Ce programme tout simple peut être utilisé avec des dossier de texte en format .txt avec bris de lignes. Le programme TACT est l’un des plus répandus dans les universités à travers le monde. Il n’est pas facile à utiliser. Pour apprendre à s’en servir d’une manière profitable requiert une certaine familiarité des ordinateurs tels qu’ils étaient utilisés avant l’arrivée des interfaces facilitant leur utilisation. Il fonctionne en environnement DOS, et en un sens ignore Windows.

Une des données disponible sur TACT et d’autres programmes similaires est le ratio type/unité, i.e. parmi les types de mots et leurs répétitions. Si tous les mots d’un texte sont placés en ordre alphabétique, on réalise que certains mots sont répétés, pendant que d’autres n’apparaissent qu’une fois. Imaginons l’enrégistrement des mots répétés sur la même ligne, le nombre de lignes indique les types (mots différents), alors que le nombre total de mots dans un corpus est exprimé en répétitions ou en unités:

Si un homme doit faire quelquechose de surhumain, il doit posséder des moyens surhumains. Dans ce microtexte nous trouvons 14 types et 17 unités, parce que les mots "surhumain", "plus" et "que" sont répétés deux fois chacun:

If a man is to do something more than human, he must have more than human powers.
In this microtext there are 14 types and 17 tokens, because the words "human", "more" and

"than" are repeated twice:

a	un
do	faire
have	avoir
he	il
human human	surhumain surhumain
If	si
is	est
man	homme
more more	plus plus
must	doit
powers	pouvoirs
something	quelquechose
than than	que que
to	(de – à)

Une donnée obtenue subséquemment est le ratio type/unité. Plus ce ratio est élevé, plus le texte est lexicalement complexe, riche, et, au contraire plus le ratio est bas, plus il y a de mots répétés et plus la complexité lexicale est basse.

Une autre donnée disponible est la co-location d’un mot dans le co-texte, en choisissant quelle longueur l’échantillon du co-texte doit avoir. Toutes les données obtenues doivent de toute façon se rapporter aux dimensions du texte de référence, parce que bien sûr, plus le texte est petit, moins les statistiques correspondantes ont de signification.

La consultation des corpora en lieu de dictionnaires n’est pas une opération rapide et confortable, au contraire, elle peut demander une période de temps assez longue. C’est le résultat qui est plus satisfaisant, parce qu’il donne une idée plus précise et plus concrète de la signifcation d’un mot ou d’une phrase.

En langue Anglaise, le plus important corpus disponible pour le public est le British National Corpus à l’adresse URL: http://firth.natcorp.ox.ac.uk/.

De cette adresse vous pouvez poser des questions en sachant que vous pouvez compter sur un ensemble de textes des classiques de langue Anglaise et même des textes parlés enrégistrés pour la radio. En ce qui a trait au langue Française, (beaucoup d’autres langages sont aussi représentés y inclus le Latin), l’un des corpora le plus étendu est la Wordthèque, à l’adresse URL: http://www.wordtheque.com

Dans les deux cas, le mot recouvré fait référence au texte duquel il avait été extrait, avec des données au sujet de l’auteur et de la publication. Ceci permet à la personne qui consulte le corpus de tirer ses conclusions en ce qui a trait au degré de fiabilité de l’évènement et à la sorte de régistre d’utilisation. Afin d’étudier plus complètement le sujet des deux dernières sections, veuillez vous référer aux livres présentée dans la liste des références. Ceux qui ont suivi ce cours seront les bienvenus à la troisième partie qui est consacrée à la production du métatexte.

Bibliographical references

CALVINO I. If on a Winter's Night a Traveller, London, Einaudi, 1979.

LANA M. Testi stile frequenze, in Lingua letteratura computer, edited by Mario Ricciardi, Torino, Bollati Boringhieri, 1996, ISBN 8833909905.

LANA M. L'uso del computer nell'analisi dei testi. Scienze umane e nuove tecnologie, Milano, Franco Angeli, 1994, ISBN 8820488701.

LANCASHIRE I, Using TACT with Electronic Texts. A Guide to Text-Analysis Computing Tools, New York, The Modern Language Association of America, 1996, ISBN 0873525698.

ORLANDI T. Informatica umanistica, Roma, La Nuova Italia Scientifica, 1990, ISBN 8843008870.

SHANNON C. E., WEAVER W. The Mathematical Theory of Communication, Urbana (Illinois), University of Illinois Press, 1949.

SHKLOVSKY, V. B. O teorii prozy, Moskva, Federacija, 1929. Teoria della prosa, translation by C. G. de Michelis and R. Oliva, Torino, Einaudi, 1976. Theory of prose, translated by Benjamin Sher with and introduction by Gerald R. Bruns. 1st American edition, Elmwood Park (Illinois), Dalkey Archive Press, 1990, ISBN 0916583546.

¹ Calvino 1979, p. 189.