Institut français
d’archéologie orientale - Le Caire

TALA - Traitement par automates de la langue arabe

Responsables: Claude Audebert (arabisante, univ. Provence, CNRS-UMR 6568 IREMAM); Christian Gaubert (arabisant, informaticien, IFAO); André Jaccarini (mathématicien, CNRS-USR 3125 MMSH).

Collaborations: Samir Zardan (informaticien, MMSH-USR 3125); Amr H. Ibrahim (linguiste, STIH – EA 4509 Paris - Sorbonne, chercheur associé IFAO); Joseph Dichy (arabisant, univ. Lyon 2, CNRS- UMR 5189 ICAR).

Institutions partenaires:

Ce programme est le prolongement de travaux commencés en 1986, voir le site Automates Arabes. L’objectif est de construire une représentation de la grammaire de l’arabe sous la forme d’une structure d’opérateurs fondamentaux susceptibles de se combiner entre eux. Le modèle doit être bien formalisé, en sorte que l’interrogation de la structure ainsi que la synthèse de nouveaux opérateurs à partir de ceux qui existent déjà dans la base puissent être réalisées facilement. Il s’agit d’une représentation algorithmique de la langue arabe. Ces opérateurs sont en effet des algorithmes élémentaires (appelés "automates abstraits") que nous cherchons à définir et à hiérarchiser dans le cadre d’une structure logique rigoureuse. Ce programme théorique trouve un champ naturel d’applications dans l’informatique textuelle ainsi que dans le domaine de la recherche d’information et de son filtrage (IR, Information Retrieval).

La linguistique théorique, la cognition et la didactique ainsi que les études sémitiques sont concernées en premier chef par ce projet. Nous préconisons de «tendre» vers le modèle – lequel n’est jamais figé – par approximations successives, grâce à la méthode expérimentale de rétroaction continue (feedback); cette méthode ne peut être mise en œuvre que grâce à l’ordinateur.

L’«ordinateur théorique» (i.e. l’automate abstrait) est l’élément fondamental de notre modèle, mais nous disposons aussi d’un outil concret : le logiciel web Kawâkib développé par Christian Gaubert. Les deux niveaux, théorie et instrumentation, ne doivent pas être confondus, même s’il existe naturellement de fortes interactions. Cette rétroaction continue consiste d’une part en l’implémentation d’algorithmes et d’autre part en la conception d’interfaces pour la modélisation des ressources linguistiques, lesquelles, dans le cas d’une application Web, sont complexes, car reposant sur plusieurs technologies (langages Java et Javascript, techniques AJAX, bases de données, etc.).

Une phase d’optimisation de ces ressources linguistiques est nécessaire et nous projetons l’intégration fine de deux approches, celle de la modélisation de l’arabe non voyellé par automates et celle de la réalisation d’une base de données très complète de l’arabe, faisant internationalement référence: DIINAR. Afin d’accroître la visibilité de notre recherche, tant au niveau de la théorie linguistique générale que dans le domaine des études arabes, nous avons commencé une coopération à long terme avec la Mmsh qui pilote le programme BibMed de bibliothèques virtuelles (réseau d’excellence RAMSES 2, UE) regroupant plusieurs bibliothèques des deux rives de la Méditerranée. Le but de cette collaboration est :

  • de renforcer la puissance des moteurs de recherche dans BibMed ainsi que les fonctions de filtrage;
  • d’apporter une visibilité suffisante au programme sur les automates arabes, à la hauteur de la recherche effectuée en linguistique, cette visibilité devant permettre d’interagir de manière efficace avec la communauté scientifique;
  • de démontrer la puissance de la technologie des automates minimaux, dans le domaine de la recherche d’information, de la fouille textuelle et de la «caractérisation» des textes à l’aide de critères.

Actions prévues:

  1. Constitution d’une grammaire fondée sur les mots-outils appelée G