Overblog Suivre ce blog
Editer l'article Administration Créer mon blog
1 juillet 1988 5 01 /07 /juillet /1988 00:00

Eliane et Alain COUSQUER

C.L.A.0, Vol. XVII N°1 Juin 1988, pp. l29—145.

 

RESUME

Utilisation d’outils informatiques standards sous UNIX pour l’étude d'un corpus de termes mathématiques. Mise en évidence du rôle de la sémantique dans la formation des termes mathématiques en chinois

 

INTRODUCTION

Le travail de constitution du corpus de termes mathématiques s'est effectué en deux étapes : traduction du vocabulaire figurant dans un dictionnaire de mathématiques générales, indexation de ce vocabulaire par sous domaine de mathématiques ; puis ce vocabulaire est complété, sous-domaine par sous-domaine, par le vocabulaire figurant dans des livres spécialisés.

Lors du travail de vérification du premier corpus, nous avons constaté une très grande régularité dans la formation de ce vocabulaire mathématique chinois. I1 nous est apparu que l'informatique serait un outil puissant pour l'étude du vocabulaire scientifique chinois, sous réserve de mise au point de programmes adaptés à cette étude.

 

l. REMARQUES SUR LE VOCABULAIRE MATHEMATIQUE EN CHINOIS

 

1,1, Vérification des traductions

 

Les traductions des termes mathématiques ont été faites par des mathématiciens chinois francophones à l’aide de la définition française qui figurait dans le dictionnaire. Mais tout travail de ce type nécessite une vérification terme par terme. Au cours de ce travail de vérification, nous

avons constaté qu'il était possible de trouver des erreurs flagrantes sur le sens du terme traduit à l'aide du sens des caractères chinois. Mais ceci ne garantit pas que la traduction est effectivement le terme le plus employé et non une création du traducteur, et n'exclut pas d‘autres types d'erreurs.

Nous avons donc eu recours à une vérification triangulaire français, anglais, chinois. Toute traduction qui ne coïncide pas avec celle obtenue par passage français-anglais-chinois fait l'objet d'une nouvelle discussion.

 

1.2. Formation des lexies en chinois

 

Dans le corpus d'un tel dictionnaire, la majorité des lexies est du type lexies nominales. On constate dans le vocabulaire scientifique l'abondance des lexies complexes, formées de plusieurs mots, Dans leur cas, une règle générale en chinois place le déterminant avant le déterminé. Le concept

important de ces lexies se trouve donc toujours sur la droite de l'expression.

En général, on peut dire qu'un caractère chinois est un graphisme associé a un sens ; un caractère, aussi riche en sens dérivés et connotations diverses soit-il, n'a souvent qu'une signification fondamentale, Les mots composés de plusieurs caractères obéissent en chinois à un certain nombre

limité de modes de formation et le sens des caractères composant un mot reste clair. On constate l'abondance de mots racines qui jouent le rôle de génériques dans le vocabulaire mathématique ; ces génériques sont placés à la droite du mot. Un mot chinois est souvent un condensé de sa définition.

 

INFORMATIQUE ET ETUDE DU VOCABULAIRE SCIENTIFIQUE CHINOIS

 

1l y a, en chinois plusieurs modes de formation des mots traduisant des expressions étrangères. Un premier mode est phonétique : le mot est transcrit avec des caractères dont la prononciation est voisine de celle des syllabes dans la langue d'origine. C’est en particulier la façon de transcrire les noms propres. Toutefois le mot ainsi formé ne s'incorpore pas facilement au vocabulaire chinois. Beaucoup de traductions phonétiques, sauf si elles ont été consacrées par l'usage, sont remplacées par des mots forgés selon 1‘usage propre du chinois, par analyse sémantique. Un mot étranger est

analyse sémantiquement et traduit par des caractères exprimant le sens dégagé. C'est ce mode de formation qui domine largement.

 

1.3. Origine anglaise de termes chinois

 

Nous avons constaté que le vocabulaire mathématique récent était massivement construit a partir de l'anglais. I1 y a souvent en français parenté entre le vocabulaire anglais et français, Toutefois en cas de divergence, la construction du vocabulaire scientifique chinois suit la construction anglaise.

Par exemple, le concept d'ensemble des parties se dit power set en anglais et mi ji c'est -à-dire puissance ensemble en chinois. Nous pensons donc que, si la constitution du corpus français doit se faire à l'aide des textes français originaux, la traduction ang1aise est indispensable si on veut actuellement utiliser les lexiques récents disponibles qui sont des lexiques anglais-chinois.

 

II. EXPERIENCES EFFECTUEES A L’AIDE DE L'ORDINATEUR

 

2.1. Étude des courbes

 

Le vocabulaire mathématique chinois présente une telle régularité que nous avons essayé de la tester. Chaque mot ou expression complexe est indexé par un ou plusieurs domaines d'utilisation correspondant à la classification de l'AMS (American mathematical society), qui sert de

standard international. Au cours de ce travail d'indexation, nous avons mis un marqueur

sémantique a tous les noms de courbes afin de pouvoir les lister avec leur traduction. Sur 100 termes désignant des courbes, nous avons constaté après vérification, que tous sauf deux étaient terminés par le caractère xian qui veut dire "ligne". Les deux exceptions sont le "cercle", yuan, et "1‘ellipse", tuoyan, terminés par le caractère yuan qui veut dire "cercle". Ces exceptions

s'expliquent par des taisons historiques. La contre épreuve a consisté a lister 1'ensemble des expressions françaises dont la traduction chinoise se termine par le caractère xian. Nous avons obtenu une liste de 285 termes comprenant également les droites que nous n'avions pas indexées et qui appartiennent à la même famille. Les expressions autres que des lignes dans cette liste révèlent des erreurs de traduction. Nous avons fait la même expérience avec les expressions terminées par yuan : 1e résultat est analogue. Les caractères xian et yuan jouent là le rôle de générique. Il est à remarquer que si le vocabulaire mathématique présente en français également des régularités, le vocabulaire désignant des courbes n'a aucune régularité du type de celle trouvée en chinois.

I1 est donc sans doute possible d‘uti1iser la très grande régularité du vocabulaire mathématique chinois pour affecter un marqueur sémantique aux expressions figurant dans le dictionnaire. Une expression chinoise se présente comme une liste de concepts, ordonnée suivant 1'ordre déterminant

déterminé. L'ordre des termes intéressant du point de vue sémantique correspond à un ordre inverse de celui de 1'écriture. Ceci doit être accessible à des traitements informatiques.

 

2,2, Étude des derniers caractères à droite

 

L'expérience suivante a consisté sur un corpus de 5648 expressions mathématiques en français, à extraire le dernier caractère à droite de la traduction chinoise et à sortir une liste de ces caractères ordonnée par fréquence d'apparition décroissante. Nous avons obtenu une liste de 386 caractères dont 152 apparaissent une seule fois et 52 apparaissent 2 fois. Donc en fait nous avons une liste de 182 caractères significatifs car dans le corpus figurent en particulier des noms propres et leurs transcriptions phonétiques qui expliquent beaucoup de ces caractères peu fréquents.

Nous obtenons les résultats suivants :

Corpus :5648 expressions

10 caractères apparaissent plus de 100 fois dans 2304 expressions

20 caractères apparaissent de 50 A 100 fois dans 1217 expressions

30 caractères apparaissent de 20 A 50 fois dans 964 expressions

32 caractères apparaissent de 10 A 20 fois dans 416 expressions

95 caractères apparaissent de 3 A 10 fois dans 491 expressions

Ces 182 caractères apparaissent dans 5392 expressions au total. Les 92 premiers caractères totalisent 4901 expressions.

 

Pour les caractères les plus fréquents, nous trouvons :

810 de (terminaison de 1'adjectif)

595 shu (Nombre, fonction, algèbre, série)

291 li (Théorème, axiome, principe,1emme)

285 xian (ligne, courbe,droite)

192 shi (formule, égalité, inéga1ité,identité, forme, polynôme, déterminant)

164 dian (point, origine, sommet, p61e, foyer, extrémité, noeud)

150 mian (surface)

140 xing (figure, triangle, polygone, variété)

117 liang (vecteur, mesure, distance, variable)

100 cheng (équation)

98 jian (espace, intervalle)

97 fen (partie, intégrale)

92 fa (méthode, algorithme, addition, multiplication.,) ,

91 xing (propriété)

88 ti (corps)

82 qun (groupe)

80 jiao (angle)

71 she (application)

71 ji (mesure, longueur,hauteur, vitesse, accélération)

66 tu (graphe, figure)

61 xi (système, relation, repère)

58 ti (problème, énoncé, proposition)

 

On voit apparaître dans cette liste, même incomplète, les concepts fondamentaux du vocabulaire mathématique. Ces termes français sont ceux dont la traduction chinoise comprend deux, quelquefois 3 ou 4 caractères et se termine par le caractère considéré. On constate dans un grand nombre de cas une parenté de sens entre les termes entre parenthèses, qui s'exp1ique par le mode de formation des termes en chinois.

 

Prenons 1'exemple du caractère li : li signifie "raison"

ding-li " théorème" est composé avec le caractère ding (fixer, déterminer)

gong-li "axiome" est composé avec le caractère gong (officiel, public)

yuan·li "principe" est composé avec le caractère yuan (original, primitif)

yin-li "lemme" est composé avec yin (conduire, introduire, entraîner)

tui-li "raisonnement", "déduction", "inférence", "déduire", "raisonnement"... est composé avec le caractère tui (pousser, renvoyer)

 

Par contre les mots problème, énoncé, proposition, sont composés avec le caractère ti qui signifie "problème".

 

2.3. Tri des termes suivant leur sens

 

Nous avons utilise les propriétés précédemment décrites des caractères chinois pour effectuer un tri grossier des termes suivant le sens.

 

 

Nous allons d'abord préciser la présentation interne à l'ordinateur d'un article du dictionnaire : un terme français avec sa traduction est mémorisé par une ligne divisée en champs de longueur variable sépares par un séparateur de champ. Nous avons les champs suivants :

le mot français

une information grammaticale, la catégorie syntaxique

l'usage

une référence

un ou plusieurs sous domaines

la prononciation de la traduction chinoise

le codage de la traduction

A chaque caractère chinois est associé un code de deux caractères ASCII imprimables (lettres ou signes typographiques). Ce code renvoie à un dessin du caractère mémorisé comme une matrice de points. Une ligne en chinois est donc une suite de caractères imprimables que l'ordinateur doit lire deux par deux. I1 est donc possible d'utiliser sur ce code les algorithmes de tri alphabétique classique (sort en UNIX).

 

L'expérience suivante a consisté pour chacune des listes précédemment obtenues, à inverser lettre à lettre la ligne, faire un tri alphabétique, faire une nouvelle inversion. Donc en fait à faire un tri alphabétique sur le codage du chinois écrit de droite à gauche. Dans un tel tri, les expressions terminées par les deux mêmes caractères se regroupent; parmi celles-ci celles terminées par

les trois mêmes caractères se regroupent. Le passage d'un groupement à l'autre est arbitraire, car il correspond à un ordre sur l'inverse du codage des caractères.

 

Nous obtenons des familles de lexies groupées par le sens. Des expressions mal placées dans ces groupements révèlent des contresens de traduction. Ainsi une surface se trouve placée au milieu des courbes et révèle une erreur dans la traduction.

 

2.4. Analyse de la liste des courbes

Nous voyons que les courbes se regroupent par famille : par exemple les cycloïdes, les spirales, etc...Si nous analysons les termes terminées par xian nous avons deux grandes familles : les droites, zhi-xian et les courbes, qu-xian. En composition tous les termes terminés par zhi-xian sont des droites (ou demi—droites), mais dans la formation de certains termes le caractère zhi est omis par exemple pour les droites remarquables d'un triangle, pour les perpendiculaires, les parallèles. Ceci est dû à un mode de formation de termes par contraction : Par exemple :

chui-zhi "étre perpendiculaire"

zhi-xian "droite"

(chui·zhi-zhi-xian "droites perpendiculaires") est réduit à chui-xian "droites perpendiculaires"

Un mot de deux caractères est formé ainsi par contraction d'une expression plus complète de quatre caractères. Ceci explique pourquoi toutes les droites ne se trouvent pas groupées dans la liste des lignes, le caractère zhi "droit" est omis dans certains cas.

Pour les courbes, toutes les expressions terminées par qu-xian sont des courbes. Mais toutes les courbes ne sont pas terminées par qu-xian. le caractère qui figure explicitement pour les courbes désignées par une caractérisation algébrique telles que conique, cubique traduites par er·ci-qu-xian, san-ci-qu-xian etc... c'est a dire par deux-degré-courbe, trois-degré-courbe... I1 figure également dans les noms du type "courbe de (nom de mathématicien)". Dans les autres noms de courbes, la notion de courbure étant claire par le contexte, le caractère qu est omis.

 

2.5. Remarques sur ces tris

L'ordre de droite à gauche des caractères se révèle donc pertinent, mais nous devons tenir compte de la formation de dissyllabes chinois par contraction d‘expressions plus longues. Un ordre sémantique supposerait de rétablir une sorte de métalangue en complétant les caractères manquants. Cependant des tris tels que nous les avons effectués se révèlent déjà des outils de vérification intéressants. La simple lecture de listes de termes révèle des erreurs de traduction. Certains de ces contresens sont souvent dûs à une généralisation par les collègues chinois de règles partielles en français. Ainsi

par exemple, certaines courbes se terminent par le suffixe oïde. Mais ce suffixe apparaît aussi dans des surfaces. Nous avons trouvé ainsi des courbes traduites comme des surfaces. Beaucoup de noms de propriétés sont terminés par le suffixe té ; mais le mot affinité désigne non une propriété

mais une transformation géométrique ; sa présence parmi les propriétés révèle une erreur de traduction.

Un autre intérêt de ces tris est de montrer le grand rôle de la sémantique dans la formation du vocabulaire mathématique chinois. En français, il est impossible de sortir par un algorithme simple la liste de toutes les courbes contenues dans le dictionnaire, ou la liste de routes les propriétés. En

chinois, cela est possible. Il nous apparaît donc que les dictionnaires multilingues avec le chinois peuvent être un outil important d'étude de la sémantique des langues si les propriétés que nous avons relevées ne sont pas limitées au seul vocabulaire mathématique.

 

2.6. Vérification sur un dictionnaire général

Afin de tester ces propriétés sur un dictionnaire général nous avons rentré un petit lexique de 3000 termes d'usage courant que nous avons ordonné suivant l'algorithme précédent. Pour la plupart, les derniers caractères à droite sont trop nombreux, et on ne trouve qu'un mot terminé par un caractère donné. Cependant, nous avons vu apparaître quelques séries groupées par le sens telles que la série des mots terminés par le caractère xue "étude" qui comporte d‘une part, une série de disciplines (physique, chimie,.) d'autre part des mots désignant des établissements scolaires (université, lycée, école primaire) ; toutefois dans ce cas, le caractére xue est utilisé comme abréviation de xue-xiao mot de deux caractères qui signifie "établissement scolaire".

 

III. PROPRIET ES DE LA LANGUE CHINOISE

 

3.1. Langue scientifique chinoise

 

Par rapport au nombre important de caractères figurant dans le code GB (6750), seule une faible part, quelques centaines est utilisée dans le lexique mathématique. Le même phénomène a été relevé par des sinologues dans 1'étude du vocabulaire scientifique.

Dans la préface du texte de V. Alleton consacré au vocabulaire de la chimie, Rygaloff fait la remarque suivante : "Si pour une première expérience, notre choix s'est porté sur la chimie, c‘est parce que le vocabulaire de cette science passe à bon droit pour un modèle de cohérence et

d'univocité. Le résultat nous a paru encourageant dans la mesure où le jeu de moins de deux cent formes élémentaires que nous avons obtenu suffit effectivement à rendre compte d'une nomenclature qui parait comprendre aujourd'hui plus de deux cent mille unités".

 

Dans sa thèse sur le vocabulaire de la botanique, G. Métailié établit un index de 152 caractères figurant à droite des expressions. I1 fait la remarque suivante : "Il parait justifié de considérer le lexique botanique chinois comme un ensemble structure dont l'économie est assurée par l'utilisation fréquente de termes spécifiques, en particulier 19 morphèmes pouvant figurer en position de déterminants et de déterminés qui forment le noyau sémantique du système".

 

Etiemble mentionne également dans ses écrits la clarté et le caractère systématique du vocabulaire de 1'industrie nucléaire.

 

Les propriétés que nous avons mises en évidence dans le domaine mathématique de façon expérimentale ne sont donc pas propres à ce domaine. En particulier, chaque domaine doit probablement faire intervenir un jeu relativement restreint de caractères, certains jouant le rôle de racines pour de nombreuses lexies. L‘informatique doit apporter beaucoup pour ce type d'étude en linguistique chinoise.

 

3.2. Dictionnaire inverse ou 1'ordre sémantique

 

Nous venons de recevoir un dictionnaire chinois·anglais général édité à Pékin en 1985 classé suivant 1'ordre de droite à gauche. On constate que les propriétés dont nous avons parlé à propos du vocabulaire mathématique sont vraies en général. Dans ce dictionnaire, les mots sont groupés par famille souvent apparentées par le sens. Ce phénomène est massif. Cependant, bien sûr, il serait facile de trouver de nombreuses exceptions. Ce dictionnaire comporte 60.000 entrées groupées suivant la nature de leur dernier caractère avec 7.000 caractères utilises à droite. Sur ces 7.000 caractères, 902 servent à former plus de 10 mots ; certains entrant dans la composition de plusieurs

centaines de mots. Par exemple si nous considérons des caractères déjà évoqués :

xue "étude" figure dans 297 mots

xian "ligne" figure dans 240 mots

shu "nombre" figure dans 150 mots

mian "surface" figure dans 150 mots

li "raison" figure dans 120 mots

dian "point" figure dans 180 mots

ti "probléme" figure dans 36 mots

 

3.3. Limites de la règle déterminant déterminé

 

Les classements que nous avons constatés s'expliquent-ils par la seule application de la règle déterminant déterminé ? Nous ne le pensons pas. En effet, si cette règle explique la formation des lexies nominales complexes, elle ne s'app1ique pas toujours au niveau de la formation des mors

eux-mêmes à l'aide des caractères.

Classiquement, les analyses chinoises expliquent la formation des mots chinois en distinguant d'une part les mots indécomposables formés sur une base phonétique, d'autre part les mots formés sur une base sémantique. A ce niveau, mis à part l'utilisation de suffixes et de préfixes, plusieurs cas

apparaissent :

union de deux unités sémantiques de même importance (soit de sens voisin, soit de sens opposé)

un déterminant suivi d'un déterminé

un verbe suivi d'un complément d'objet

un verbe suivi du résultat

un sujet suivi d'un prédicat

 

Considérons les mots qui en chinois désignent les énoncés mathématiques. 11s se partagent en deux familles : les mots ayant le caractère li pour racine, et ceux ayant le caractère ti pour racine. Les modes de formation de ces mots sont divers :

théorème ding-li construction verbe objet

axiome gang-li déterminant déterminé

principe yuan-li déterminant déterminé ·

lemme yin li verbe objet

raisonnement tui Ii verbe objet

prémisse qian ti déterminant déterminé

problème wen-ti verbe objet

énoncé ming-ti verbe objet

proposition ming-ti verbe objet

 

Le regroupement de ces mots suivant les deux racines li et ti ne peut s'expliquer par la règle déterminant déterminé. Ceci n'est pas propre au vocabulaire mathématique. I1 suffit d'ouvrir au

hasard le dictionnaire inverse dont nous avons parlé précédemment, Dans une même liste de termes apparentés par le sens on peut trouver tous les modes de formation des mots.

 

3.4. Remarques sur la langue chinoise

 

L‘étude de la. langue chinoise des textes scientifiques et techniques ne méconnaît pas l'importance des problèmes posés par la langue dans la littérature. Dans celle-ci abondent des expressions imagées, allusions à des textes classiques. Si grammaticalement, elles sont construites selon les

principes précédents, elles sont incompréhensibles sans la connaissance de la tradition culturelle chinoise. Cependant nous espérons que le type d'étude que nous avons faite à l'aide de l'informatique apporte un éclairage sur le fonctionnement de la langue chinoise en particulier sur l'importance de la sémantique dans la formation même des mots, sans être trop réducteur.

Or l'importance de la sémantique pour les travaux de traitement automatique des langues, est soulignée par des travaux récents comme ceux de A. Bonnet, de L. Danlos ou par des développements récents en intelligence artificielle. Il nous semble que la langue chinoise est la seule langue où la sémantique ait une telle importance par rapport à la syntaxe. (L'étude de la grammaire y est réservée aux linguistes et aux étrangers).

De ce point de vue, l'étude de cette langue comme un modèle naturel de langue sémantique nous parait intéressante. Mais pour des études en linguistique, comme le souligne M. Gross, il est nécessaire de travailler sur des données importantes, relativement exhaustives. Nous pensons qu'un

développement de bases terminologiques français-chinois-anglais serait un grand apport pour ces travaux. La rentrée systématique du vocabulaire et des locutions employées dans un domaine donné permet de travailler sur des données suffisamment vastes et change les méthodes employées. il est alors possible d'adopter une attitude expérimentale en linguistique et de tester les hypothèses faites.

 

3.5, Conclusion

 

L'informatique peut apporter beaucoup à la langue chinoise. D'abord bien sûr la solution des problèmes d'édition de textes soit en chinois, soit bilingues. Ceci nécessite la mise au point d'outi1s d'édition, de formatage de textes.

De plus, il est nécessaire de compléter le code GB afin de conserver une information sur la prononciation des caractères et d'é1aborer des algorithmes de tris plus pertinents pour le chinois, en particulier, un algorithme de tri des mots suivant l'ordre inverse de 1‘ordre d'écriture est un outil nécessaire en linguistique chinoise. L'adaptation de bases de données au chinois est également indispensable pour un tel travail.

Alors, il sera possible d'utiliser pleinement 1‘outil informatique, non seulement en bureautique, mais également pour des études fondamentales en linguistique.

 

Références bibliographiques

 

Partager cet article

Repost 0
Published by Eliane Cousquer - dans langue et mathématiques
commenter cet article

commentaires