Institut français
d’archéologie orientale - Le Caire

Automates Arabes: théorie



Grâce aux automates, une représentation remarquablement concise de la morphologie arabe est rendue possible, qui reflète par ailleurs la nature même de l'arabe et peut être étendue aux autres langues sémitiques. Par exemple, la célèbre étude de D. Cohen (70) peut être spécifiée par un automate non déterministe à 6 états.

Un langage quotient, ou squelette, peut même être défini qui comportera toutes les caractéristiques d'un langage semi-formel. Ce langage peut être obtenu en réduisant toutes les racines arabes à un seul et unique représentant. Notre hypothèse est que la grammaticalité des phrases arabes est peu influencée par la permutation de racines. Les grammairiens arabes avaient entrevu ce phénomène en choisissant une racine témoin فعل comme paradigme pour représenter tous les schèmes arabes et organiser leurs dictionnaires en donnant la priorité à la racine.

Nous définissons le système morphologique, en incluant ses irrégularités, comme une transduction d'un système de base. Cette transduction est en fait la formalisation de ce que les linguistes appellent le postulat de régularité.

Sur le plan méthodologique, cette approche diffère de celle de recherches contemporaines: purement algorithmique, elle utilise des ressources minimales, est indépendante des lexiques, donne un rôle prépondérant aux mot-outils et fonde l’analyse sur les structures de surface.

Étant donné qu’une grammaire n’est pas figée, mais peut être considérée comme un point de vue particulier sur le langage, les grammaires peuvent apparaître comme dériver d'un noyau de base, lui-même non figé. Ces points de vue, i.e. ces grammaires, peuvent être reliés entre eux. D'autre part on doit considérer leur adéquation à un but donné: la grammaire d’un contrôleur orthographique est différente de celle d'un logiciel d'enseignement assisté par ordinateur ou d’un logiciel d'extraction d’information (IR).

Le développement de cette approche de surface est fondé sur l'étude des tokens (mots-outils qui ne dérivent pas canoniquement d’une racine, à l'exception de quelques uns, et auxquels des opérateurs peuvent être associés). Cette étude qui est en cours devra résulter en la construction de gramaires morpho-syntaxiques, fragments de grammaires opérationnelles construites pour engendrer de nouvelles grammaires. Ces grammaires, fondées sur la syntaxe, peuvent aider à détecter des structures linguistiques telles les phrases conditionnelles, des relations de causalité, ou peuvent extraire des citations et autres relations discursives. Liées avec des recherche de collocations et avec l'appui d'un analyseur morphologique, elles peuvent être la source de bien des applications.

Nous disposons d'un logiciel, Sarfiyya, qui nous permet de développer de manière interactive ces grammaires, de mesurer leurs performances et de les rassembler en une bibliothèque. Une application web, Kawâkib, dérivée de Sarfiyya, met simultanément à portée des membres de l'équipe les grammaires de son choix et permet de travailler en réseau sur un corpus étendu.

En conclusion, nous rappelons le double intérêt de cette recherche:

- Du point de vue théorique, elle cherche à mettre en avant la spécificité de la langue arabe qui permet de travailler sans lexique (en cas limite) grâce au haut niveau de grammaticalité de ce langage. Ce travail intéresse donc le linguiste qui recherche un bon équilibre entre lexique et grammaire, comme le spécialiste des sciences cognitives (dualité entre données et programmes).

- Du point de vue pratique, ce travail cherche à établir un méthode cohérente pour la création d'opérateurs de recherche.




Thanks to automata, a remarkable conciseness of Arabic morphological data representations is made possible, and conversely it reflects the very nature of Arabic and can be extended to other semitic languages. For instance, the famous study published by D. Cohen (70) can be specified by a 6-states non deterministic automata, as shown in BEO 1994.

A quotient - or skeleton - language can even be defined and holds all the characteristics of a semi-formal language. This language can be obtained by reducing all the Arabic roots to one unique representative. Our hypothesis is that the grammaticalness of Arabic sentences is little influenced by root permutation. Arab grammarians had foreseen this phenomenon by choosing a unique paradigmatic root فعل to represent all Arabic patterns and to organize their dictionary giving the primacy to the root.

We define the general morphological system, including its irregularities, as a transduction of the basic system. This transduction is in fact the formalization of what linguists call the regularity postulate.

On the methodological level, this approach is different from other contemporary approches: purely algorithmic, it uses minimal resources, is independent from lexicons, gives to the tool words a prominent place and bases parsing on surface structures...

Given that a grammar is not definitely set, but can be considered as a particular viewpoint on the language, grammars can appear as branching off by transformation of a kernel, itself not set. These viewpoints, i.e grammars, can be tied one another. On the other hand one must consider their adequacy to a given aim: the grammar that rules an orthographic controller is different from the one that rules a teaching software or an information retrieval system.

The development of this surface approach is based on a detailed study of the tokens (fixed tool words that cannot be derived canonically from a root, except for a few, and to which some operators can be associated). This study which remains to be implemented should result in the construction of morpho-syntactic grammars, chunks of operational grammars built to generate new grammars. Such grammars based on syntax can help detect linguistic structures such as conditional sentences, causal relationships, or can extract quotations, and so on. Linked with collocation searches and with the help of a morphological parser, they can be the source for many applications.

We now have at our disposal a software tool called Sarfiyya that allows us to interactively develop those grammars, to measure their performance and to gather them in a documented library. A web-based application, Kawâkib, derived from Sarfiyya, allows the team to work on a large corpus of texts and to test together some chosen grammars.

In conclusion, we can say that there is a double interest to this work:

- On the theoretical level, It aims at putting forward the specificity of Arabic language which allows to work without a lexicon (as a limit case) due to the high level of grammaticalization in this language. This work is thus of interest to the linguist who looks for the good balance between lexicon and grammar as well as to the specialist in cognitive sciences (duality between data and programs).

- On the practical level, this work aims at establishing a coherent methodology for the creation of multipurpose searching operators.