Plus Populaires Articles Les Ventes Meilleures Ventes Articles Plus Populaires Les Meilleures

Un nouveau lecteur de caractères chinois

Date de publication: 01/09/1986 |
A-
A+
Le Professeur Hsu Wen-hsing donnant des instructions à son équipe de recherche.
A-
A+

Un micro-ordinateur qui peut lire, traiter et mémoriser des caractères chinois, est-ce possible? Cela ressemble à une publicité fantaisiste de science­ fiction. Pourtant, cela n'existe-t-il pas déjà, et dans deux ou trois ans, on trouvera sur le marché l'ordinateur de la «cinquième génération» pour le chinois.

A l'heure actuelle, la naissance de cette génération est encore à l'étude au laboratoire du département d'ingénierie électronique de l'Université nationale de Tsing-houa, à Sintchou, la «ville des sciences» .

Quelques paires de souliers, disposées pêle-mêle dans le couloir, indiquent que quelque chose se passe derrière la porte verrouillée. On peut y remarquer chaque jour les mêmes chaussures. Seu­ lement quelques rares personnes de l'extérieur ont pu chausser la paire de pantoufles à l'empeigne brodée de petits chats et pénétrer dans la pièce qui n'est autre qu'un atelier d'inventeurs.

Les inventeurs, le professeur Hsu Wen-hsing (pron. Chyu Ouenn-chying, dix étudiants préparant une thèse et six autres, travaillent là depuis trois ans. Tous leurs efforts ont été transcrits dans une dizaine de rapports, l'un d'eux quoique destiné au public est encore trop emprunt d'une terminologie technique pour être véritablement compris par les profanes ou même les néophytes.

Les caractères chinois sont « décomposés» avant le traitement.

Les Meilleures Articles Plus Ventes Populaires Mais de quoi s'agit-il donc? Cela de­ vient évident après un coup d'œil attentif sur les équipements installés dans la pièce. Il s'agit de «nourrir» un ordinateur avec des caractères chinois manuscrits. Pour cela, ils sont écrits et exposés devant une caméra; ou mieux pour remplacer l'usage routinier d'un clavier, ils sont directement introduits dans l'ordinateur au moyen d'une caméra et les dispositifs annexes. L'ordinateur doit à son tour apprendre à les «lire» et à les «comprendre».

« Après des années de recherches, j'ai enfin réalisé que l'on parviendrait à une impasse si l'on cherchait à augmenter les performances de l'introduction au clavier», explique M. Hsu Wen-hsing. Aprè deux ans de recherches au Japon, il est revenu avec des «lecteurs optiques de caractères» àTaïwan, le seul endroit au monde où un réel progrès est tenté dans ce domaine.

Les quatre premières générations d'ordinateurs en chinois, tous dépendant de l'entrée au clavier ont depuis longtemps prouvé que la langue chinoise pouvait être traitée par l'informatique, ce qu'on croyait impossible il y a quelques années encore. Aujourd'hui, les ordinateurs d'avant-garde de langue chinoise parviennent à une certaine saturation, mais ils sont comparables à ceux qui traitent des programmes en anglais ou toute autre langue.

L'une des étapes nécessite « l'acquisition» des caractères par une caméra électronique.

Le leader mondial dans le domaine de l'ordinateur de langue chinoise est depuis longtemps International Business Machines (IBM). Qui d'autre le serait? Son modèle 5550 fut conçu pour mémoriser directement dans son système les mille idéogrammes les plus communément utilisés. Mais récemment, Multitech, une filiale à Taïwan de Sertek International, a annoncé une nouvelle stupéfiante, la «quatrième génération» d'ordinateur de langue chinoise. Se servant de microplaquettes LMS (lecture-mémoire seulement), ce modèle DCS-570 particulier peut traiter trente mille caractères à la seconde. Une telle vitesse permet de visualiser un mode de texte, une étape importante de l'informatisation non seulement du chinois mais de toute autre langue idéographique non européenne.

Mais quelle est donc cette impasse de l'entrée au clavier identifiée par le professeur Hsu Wen-hsing? La principale limitation est bien sûr la grande multitude et la complexité des idéogrammes chinois, car chacun d'eux constitue un mot. Par rapport aux 26 lettres de l'alphabet latin, leurs homologues chinoises s'élèvent à quelque 50 000 caractères (qui, bien entendu, ne sont pas tous d'usage courant, mais peuvent se présenter.)

Pour pouvoir lire un journal, la connaissance de deux mille caractères est suffisante.(1) Au niveau du baccalauréat, l'étudiant doit en connaître environ 5 000. La codification et le traitement complet d'un nombre suffisant de caractères ou d'éléments de caractère sur un clavier de taille raisonnable devient fastidieuse, un fait qui doit pouvoir dépassé les très communes machines à écrire le chinois en usage bien avant que l'ordinateur ne se répande.

Un étudiant en doctorat, Chen Fang-hsuan, travaille sur un système de visualisation oscillant.

En tout cas, le professeur Hsu Wen-hsing a finalement tiré la conclusion que le «manuscrit» continuait de prévaloir chez les Chinois, non à cause des limitations du clavier d'ordinateur, mais sur­ tout parce que l'écriture chinoise est une part intrinsèque de la culture chinoise, combinant l'esthétique des formes avec la complexité des expressions de la sémantique qui sont profondément enracinées dans l'histoire ancienne de la Chine.

C'est pourquoi, dit-il, la reconnaissance d'idéogrammes manuscrits par un ordinateur est un véritable défi pour les concepteurs d'ordinateur en chinois.

Les difficultés sont évidentes, à commencer par les caractères mal dessinés, ce qui aboutit à la nécessaire simplication des caractères vraiment trop complexes. D'autre part, il se trouve le problème du style personnel d'écriture de chaque individu, quelque chose que tout Chinois admire et pour laquelle il s'applique. Cela pourrait ressembler à une plaisanterie, mais on finira par voir le développement de l'ordinateur programmé pour chaque opérateur afin de pouvoir en reconnaître l'écriture propre, un peu comme un robot-secrétaire.

Mais aujourd'hui, dans son labora­ toire complètement fermé, la tâche est encore d'apprendre à l'ordinateur à lire correctement. Ou pour être plus exact, de trouver le meilleur moyen de lui apprendre à reconnaître les caractères et d'améliorer ses possibilités de reconnais­ sance en en augmentant la rapidité.

Ainsi, l'«ordinateur-étudiant» pourra reconnaître un caractère simple en vingt secondes, avec un taux d'exactitude de 94,3%. Mais cela, dit M. Hsu Wen-hsing, est loin de ce que l'on peut en attendre. Selon les résultats de l'expérience déjà acquise, au moins cinquante caractères devraient être reconnaissables en une seconde, affirme-t-il. Cela dépasse notablement les plus grandes performances de l'entrée au clavier qui stagne autour de 40 caractères à la minute.

Il est évident que les adaptations de l'ordinateur aux caractères manuscrits sont des tâches plus hardues que pour les formes imprimées normalisées. Et avec le temps, l'ordinateur pourra s'organiser pour faire face à l'écriture manuscrite. Les adaptations de l'ordinateur pour imprimer les caractères chinois feront encore plus de progrès.

M. Cheng Fang-hsuan (pron. Tcheng Fang-chyuann), un étudiant préparant un doctorat, fixe la caméra devant un tableau sur lequel sont placés quelques caractères manuscrits. Aussitôt, sur les moniteurs, ces mêmes caractères s'y reproduisent en oscillant. Bien sûr, l'ordinateur a dû les lire pour les reproduire ainsi, mais leur forme semble un peu disparâtre, peut-être un peu trop stylisée.

Le professeur Hsu Wen-hsing explique alors que le traitement de l'image, l'analyse des traits et des radicaux, ainsi que la reconnaissance de ces radicaux, se résument tous à une suite d'exercices de division et d'assemblage: en reprenant chaque caractère selon les règles de l'écriture chinoise, ou plus exactement le procédé inverse, du dernier trait jusqu'au premier.

Soit par exemple, le caractère yen [言] Relativement simple, il se compose de huit traits. L'ordinateur doit en compter le nombre, en déterminer la longueur, la direction et leur position entre eux afin de pouvoir reconnaître le mot (ou idéogramme) même.

Des caractères plus complexes, composés de deux parties, sont traités en commençant par la clé (ou radical); l'ordinateur examine cette portion seule en situant sa position et sa grandeur. Puis­ qu'un grand nombre de caractères composés partagent la même clé, qui sert d'ailleurs de référence, il devient possible d'identifier rapidement un grand nombre d'idéogrammes. Au plus, par exemple, 2 000 éléments-modèles sont nécessaires pour reconnaître 13 000 caractères. (Pour les initiés, cela épargne aussi des exigences de mémorisation, puisque chaque élément-modèle n'a besoin que de 90 bytes, alors que l'en­ semble du programme comprend au pus 180 kilobytes.)

« Quelques-uns de nos équipements ont déjà quelques années et ont besoin d'être remplacés », note le professeur Hsu Wen-hsing en montrant un appareil au milieu d'une rangée d'autres. Tout cet ensemble apparaît vraiment en désordre pour un profane. En fait, il n'y a que quatre parties dans ce système. Premièrement, la caméra, ressemblant à toute caméra vidéo intérieure; deuxièmement, le processeur d'images; puis, deux ordinateurs; enfin, un moniteur.

Pour les personnes plus versées en technique, un appareil de liaison lEEE-488 transmet les données de l'image du processeur d'images à une disquette dans l'ordinateur PDP 11/23. Les données reconnues passent ensuite dans le RS -232C au moyen du code télégraphique chinois, puis à un ordinateur personnel qui possède les bases de données des caractères.

Populaires Plus Articles Ventes Meilleures Les Est-ce que le développement du lecteur optique de caractères sera un jour assez efficace pour rendre l'entrée au clavier complètement dépassée? En aucun cas, affirme le professeur Hsu Wen-hsing. Le clavier, hormis sa plus grande exactitude, est potentiellement plus rapide que l'écriture manuscrite. Une opératrice bien expérimentée peut par exemple frapper en moyenne cinquante mots par minute alors que même le plus rapide secrétaire ne peut guère écrire plus de quarante mots lisibles par minute.

La routine s'est fort bien adaptée du clavier et continuera d'être très utile. Mais pour la plupart des Chinois, le pinceau et le papier resteront les principaux éléments de la communication écrite, mais ils trouveront aussi des systèmes informatisés à lecture optique à l'avenir.■

(1) Les journaux chinois ont en général une casse d'imprimerie de 7 200 caractères dirrérents répartis en trois groupes selon leur fréquence d'emploi.

  • Les plus lus
  • Les plus récents

Les plus lus

Les plus récents

Femme Femme Fr Montante Chaussures Montante R5XnZW7
Vestes À Femme Et Nike Siglée Gris Veste Mode Capuche Vêtements 511P8q
Articles Meilleures Populaires Plus Les Ventes 4wRFxqUOg Articles Meilleures Populaires Plus Les Ventes 4wRFxqUOg