LOGOS - Multilingual Translation Portal

20 – Moteurs de Recherche – Deuxième Partie

"la disposition différente du matériel du rêve rend, si l’on peut dire, le rêve intraduisible pour une conscience qui s’éveille"¹.

Dans les sections précédentes j’ai examiné quelques-unes des fonctions du moteur de recherche de Google. Par-dessus tout, j’ai surtout parlé des possibilités offertes par les outils linguistiques de Google.

Les arguments présentés dans la section précédente prennent en considération la fréquence d’usage de mots ou de combinaisons de mots donnés. Ceci implique que l’on doit considérer l’internet tel un corpus. Mais vous devez vous rappeler que l’internet est un corpus qui se crée spontanément à chacune des minutes, grâce à l’interaction de tous ceux qui veulent bien y participer. En conséquence, il n’a pas toutes les caractéristiques d’un corpus tel qu’on l’entend dans la recherche linguistique, i.e. il n’est pas équilibré comme il se produit dans les cas tels que le British National Corpus, il n’y a pas d’apport artificiel de discours oral, de langage écrit, de registres élevés, de registres bas etc. Il en résulte qu’il est complètement improvisé.

Cela ne signifie pas qu’il ne peut pas être un outil utile. Les registres scientifiques élevés sont ordinairement assez bien représentés. N’oublions pas que la communauté scientifique internationale a été parmi les premiers à prendre conscience du potentiel de communication de l’internet et à l’utiliser afin d’anticiper et quelquefois de le substituer aux éditions sur papier, ce qui a grandement accéléré le développement du débat académique.

Les registres moyens et bas sont bien représentés eux aussi. L’internet est un outil particulier en ce qu’il constitue une "place" où vous pouvez publier sans aucun filtre. Cette situation apporte une valeur démocratique potentiellement forte au médium, parce qu’un filtre peut quelquefois constituer une censure. D’autre part, cela signifie aussi que toute personne capable d’écrire et de lire et qui a un accès concret – indépendant du niveau et du type d’éducation – peut publier ses propres écrits sans la médiation d’un éditeur.

Ceci différencie l’internet de tout autre médium. Par exemple, si un journal publie les lettres des lecteurs, le comité d’éditorial peut potentiellement intervenir pour corriger leur forme, sinon leur contenu, et par conséquent vous ne pouvez pas dire que ce qui est publié est exactement ce qui avait été reçu du lecteur. De plus, le lecteur du journal a souvent un niveau d’éducation plus élevé que la moyenne. Quand quelqu’un écrit à un journal, en espérant de voir sa propre lettre être publiée, il essaie davantage d’écrire du mieux qu’il le peut.

Autrement, il est vrai que ce que quelqu’un "dit" sur l’internet est par la suite disponible pour tous, mais il est aussi vrai que c’est apparemment moins visible, plus caché parmi des milliards d’autres informations disponibles. Le fait est que quiconque désire s’exprimer se sent beaucoup plus libre d’exprimer cette pensée telle qu’il la veut, même en utilisant des expressions d’argot, ou des expressions qui sont typiques du discours oral, parce que le choix du canal écrit est souvent fait suite à un besoin, plutôt qu’à un choix libre.

C’est pour ces raisons, aussi bien par l’absence d’un filtre d’édition (pas nécessairement censurant), que par la libération contextuelle d’un registre formel, que l’on retrouve sur l’internet des expressions hétérogènes qui créent un très fort intérêt pour ce médium d’un point de vue linguistique.

Il est très important de se rappeler de vérifier sur quel site on trouve l’information, particulièrement quand les résultats d’une recherche sont numériquement peu nombreux, afin d’attribuer des valeurs de fiabilité à différents sites. Si je cherche le nom scientifique d’une plante, par exemple, il est clair qu’un site universitaire, ou le site d’un jardin botanique, ont plus de valeur pour moi qu’un site non-professionnel dans lequel les citoyens normaux partagent leurs expériences et leurs avis quant au jardinage. Si je cherche le nom officiel d’une institution, je considère évidemment avec beaucoup d’intérêt le site d’une autre institution, et d’autant plus s’il s’agit d’une institution du même pays que l’institution à propos de laquelle je recherche de l’information.

La présence de jalons sur l’internet dû à la façon spontanée dont ce corpus se forme donne aussi à l’internet des caractéristiques qui peuvent être utilisées à l’avantage de ceux qui y font des recherches. Supposons par exemple que quelqu’un a un doute au sujet de la gérance d’une préposition, par exemple le mot Italien "vicino". J’essaie d’insérer le mot dans le moteur de recherche.

La première chose que je note lorsque j’examine les résultats est que je dois limiter ma recherche à des sites Italiens, parce que les premiers sites que je trouve sont Anglais Américain, ils ne sont donc d’aucun intérêt pour la recherche que j’ai entreprise. Par conséquent je clique sur "language tools" et je choisis Italian-speaking sites et recommence la recherche.

Mon second problème est que je trouve plusieurs cas où ce mot est un adjectif ou un adverbe, mais dans ce cas-ci ils ne m’intéressent pas du tout. Comment puis-je éliminer de tels cas de ma recherche?

Mon doute provient du fait que j’ai trouvé, dans des expressions d’endroits, le mot "vicino" suivi d’un "a" et du nom suivant. Par exemple, il y a "vicino Perugia", and "vicino a Perugia", et je veux savoir lequel des deux est celui qui est le plus largement employé. J’essaie alors d’écrire la chaîne complète dans le moteur de recherche avec un nom de ville, entre guillemets, qui en syntaxe Google signifie "words in this exact order". Ou bien si je ne me rappelle pas que je dois utiliser les guillemets, je clique "Advanced search" et j’écris la chaîne dans la boîte qui énonce "Find results with the exact phrase". Voici :

«vicino a Perugia» gives 307 results

«vicino Perugia» gives 277.

En me fiant à ce résultat je pourrais apparemment conclure que les deux versions sont utilisées indifféremment. Mais encore, lorsque vous visitez la Lombardie, vous n’entendez presque jamais le mot "vicino" utilisé comme une préposition, au lieu d’utiliser la phrase prépositionnelle "vicino a". Le doute provient alors des particularités de l’usage local. Afin de vérifier ma pensée, j’invente une hypothèse. Il est plus probable que l’expression "near the town X" est utilisée par des personnes qui vivent près de la ville X. Afin de tester une telle hypothèse j’écris quatre chaînes différentes dans la boîte de recherche :

vicino a Milano

vicino Milano

vicino a Roma

vicino Roma

Here it is:

«vicino a Milano» 3110 results

«vicino Milano» 1580 results

«vicino a Roma» 1750 results

«vicino Roma» 3230 results

Ces résultats démontrent l’évidence de certains éléments. Le premier est que dans la région de Milan, comme je le soupçonnais, la phrase "vicino a" prévaut. Le deuxième est que dans la région de Rome la situation est contraire : l’usage de "vicino" à titre de préposition d’endroit prévaut. Le premier résultat, celui avec "Perugia", constituait un faux résultat de parité, dû au fait que probablement la région de Perugia est située dans une région qui est également sous une influence équivalente du Nord et de Rome.

Une telle information est beaucoup plus riche que celle que je peux trouver dans un dictionnaire (qui me dit que la préposition "vicino" n’existe pas, qu’il n’y a que la phrase prépositionnelle "vicino a"). Je sais maintenant que dans la région de Rome (une revue des sites auxquels la recherche a été référée dans la recherche "vicino Roma" confirme qu’ils sont surtout dans la région de Rome) ils tendent à utiliser cette expression pour attirer l’attention. La réponse du dictionnaire n’est pas nécessairement suffisante pour un traducteur : quelquefois il a besoin de savoir si une expression est typique de certaines régions, et si possible, de quelles régions.

Dans la prochaine section nous continuerons l’examen du potentiel des engins de recherche.

Bibliographie

FREUD SIGMUND, L’interpretazione dei sogni, in Opere, vol. 3, Torino, Boringhieri, a cura di C. L. Musatti, 1966.

FREUD SIGMUND, The Interpretation Of Dreams, translated by A. A. Brill, London, G. Allen & company, 1913.

GOOGLE, available in the world wide web at the address http://www.google.com/, consulted 7 April 2004.

¹ Freud 1900: 46.