Institut français
d’archéologie orientale - Le Caire

TALA - Traitement par automates de la langue arabe

Responsables: Claude Audebert (arabisante, univ. Provence, CNRS-UMR 6568 IREMAM); Christian Gaubert (arabisant, informaticien, IFAO); André Jaccarini (mathématicien, CNRS-USR 3125 MMSH).

Collaborations: Samir Zardan (informaticien, MMSH-USR 3125); Amr H. Ibrahim (linguiste, STIH – EA 4509 Paris - Sorbonne, chercheur associé IFAO); Joseph Dichy (arabisant, univ. Lyon 2, CNRS- UMR 5189 ICAR).

Institutions partenaires:

Ce programme est le prolongement de travaux commencés en 1986, voir le site Automates Arabes. L’objectif est de construire une représentation de la grammaire de l’arabe sous la forme d’une structure d’opérateurs fondamentaux susceptibles de se combiner entre eux. Le modèle doit être bien formalisé, en sorte que l’interrogation de la structure ainsi que la synthèse de nouveaux opérateurs à partir de ceux qui existent déjà dans la base puissent être réalisées facilement. Il s’agit d’une représentation algorithmique de la langue arabe. Ces opérateurs sont en effet des algorithmes élémentaires (appelés "automates abstraits") que nous cherchons à définir et à hiérarchiser dans le cadre d’une structure logique rigoureuse. Ce programme théorique trouve un champ naturel d’applications dans l’informatique textuelle ainsi que dans le domaine de la recherche d’information et de son filtrage (IR, Information Retrieval).

La linguistique théorique, la cognition et la didactique ainsi que les études sémitiques sont concernées en premier chef par ce projet. Nous préconisons de «tendre» vers le modèle – lequel n’est jamais figé – par approximations successives, grâce à la méthode expérimentale de rétroaction continue (feedback); cette méthode ne peut être mise en œuvre que grâce à l’ordinateur.

L’«ordinateur théorique» (i.e. l’automate abstrait) est l’élément fondamental de notre modèle, mais nous disposons aussi d’un outil concret : le logiciel web Kawâkib développé par Christian Gaubert. Les deux niveaux, théorie et instrumentation, ne doivent pas être confondus, même s’il existe naturellement de fortes interactions. Cette rétroaction continue consiste d’une part en l’implémentation d’algorithmes et d’autre part en la conception d’interfaces pour la modélisation des ressources linguistiques, lesquelles, dans le cas d’une application Web, sont complexes, car reposant sur plusieurs technologies (langages Java et Javascript, techniques AJAX, bases de données, etc.).

Une phase d’optimisation de ces ressources linguistiques est nécessaire et nous projetons l’intégration fine de deux approches, celle de la modélisation de l’arabe non voyellé par automates et celle de la réalisation d’une base de données très complète de l’arabe, faisant internationalement référence: DIINAR. Afin d’accroître la visibilité de notre recherche, tant au niveau de la théorie linguistique générale que dans le domaine des études arabes, nous avons commencé une coopération à long terme avec la Mmsh qui pilote le programme BibMed de bibliothèques virtuelles (réseau d’excellence RAMSES 2, UE) regroupant plusieurs bibliothèques des deux rives de la Méditerranée. Le but de cette collaboration est :

  • de renforcer la puissance des moteurs de recherche dans BibMed ainsi que les fonctions de filtrage;
  • d’apporter une visibilité suffisante au programme sur les automates arabes, à la hauteur de la recherche effectuée en linguistique, cette visibilité devant permettre d’interagir de manière efficace avec la communauté scientifique;
  • de démontrer la puissance de la technologie des automates minimaux, dans le domaine de la recherche d’information, de la fouille textuelle et de la «caractérisation» des textes à l’aide de critères.

Actions prévues:

  1. Constitution d’une grammaire fondée sur les mots-outils appelée Grammaire des tokens;
  2. Construction d’une base de connaissances linguistiques et structure de son langage d’interrogation, intégration de la base de données DIINAR (ICAR);
  3. Développement du logiciel Web Kawâkib/Octala (Outils Critères TALA) de traitement automatique de l’arabe, en particulier dans la perspective de filtrage dans une bibliothèque numérique;
  4. Création du langage SYGAL, langage de programmation linguistique;
  5. Organisation d’une rencontre internationale:  Système sémitique et calculabilité.

Outils et bibliographie sélective

  • Automates arabes
  • Version publique de Kawâkib
  • A. Jaccarini, Chr. Gaubert, Cl. Audebert. «Structures and Procedures in Arabic Language», dans Proceedings of LREC, Valette, Malte, 2010.
  • Cl. Audebert, «Quelques réflexions sur la fréquence et la distribution des mots outils ou tokens dans les textes arabes en vue de leur caractérisation dans le cadre de l’extraction d’information», AnIsl 44, 2010, p. 39-52.
  • Chr. Gaubert, «Kawâkib, une application web pour le traitement automatique de textes arabes», AnIsl 44, 2010, p. 53-60.
  • A. Jaccarini. «De l’intérêt de représenter la grammaire de l’arabe sous la forme d’une structure de machines finies», AnIsl 44, 2010, p. 5-38.
  • Cl. Audebert, Chr. Gaubert, A. Jaccarini, «A Flexible Software Geared Towards Arabic Texts I.R And Evaluation : Kawâkib», ALTIC 2011, Alexandria, Egypt.
  • Cl. Audebert, Chr. Gaubert, A. Jaccarini, «Arabic Information Retrieval: How to Get Good Results at a Lower Cost?» dans Proceedings of the ESOLEC ‘2011 conference, Ayn Shams, Le Caire, 2011.

TALA - Processing Arabic language with automata

Supervisors: Claude Audebert (arabist, Univ. Provence, CNRS-UMR 6568 IREMAM); Christian Gaubert (arabist, IT specialist, IFAO); André Jaccarini (mathematician, CNRS-USR 3125 MMSH).

Collaborators: Samir Zardan (IT specialist, MMSH-USR 3125) ; Amr H. Ibrahim (linguist, STIH – EA 4509 Paris - Sorbonne, research associate IFAO) ; Joseph Dichy (arabist, Univ. Lyon 2, CNRS- UMR 5189 ICAR).

Partner institutions:

This programme is a continuation of work begun in 1986 (see automatesarabes.net). The aim is to construct a representation of Arabic grammar in the form of a structure of fundamental operators capable of combining with each other. The model must be well formalised so that any interrogation of the structure as well as the synthesis of new operators from those that already exist within the base can be easily realised. We are talking about an algorithmic representation of the Arabic language. These operators are in fact elementary algorithms (called “abstract automata”) that we must try to define and rank within the framework of a rigorous logical structure. A natural area of application for this theoretical programme is in textual computing as wells as in information retrieval (IR) and filtering.

This project is of interest primarily to the fields of theoretical linguistics, cognitive sciences and didactics. We propose to “aim” for the model – which is never fixed – through successive approximations, thanks to the experimental method of continuous feedback. This method can only be implemented with a computer.

The “theoretical computer” (i.e. the abstract automaton) is the fundamental element of our model, but we also have a concrete tool: the web programme Kawâkib developed by Christian Gaubert. The two levels, of theory and instrumentation, must not be confused, even if there are strict interactions. This continuous feedback consists on the one hand of the implementation of algorithms and on the other of the conception of interfaces for the modelling of linguistic resources, which, in the case of a web application, are complex, since they are based upon several technologies (Java languages and Javascript, AJAX techniques, databases etc.).

There is a necessary phase of optimising these language resources and we are planning the tight integration of two approaches: the modelling of unvowelled Arabic by automata and the creation of a complete database of Arabic, the internationally accepted reference, DIINAR. In order to increase the visibility of our research, both as general linguistic theory and within Arabic studies, we have begun a long-term cooperation with the MMSH that is piloting a programme of virtual libraries entitled BibMed (EU, Ramses 2, Network of excellence) that brings together several libraries from both shores of the Mediterranean. The goal of this collaboration is:

  • to reinforce the strength of search engines in BibMed as well as filtering functions.
  • to improve the visibility of the programme on Arabic automata to the level of the research undertaken in linguistics, such visibility should lead to meaningful interaction with the scientific community;
  • to demonstrate the strength of the minimal automata technology in the fields of information retrieval, text mining and text “characterisation” with the help of criteria.

Planned activities

  1. Composition of a grammar based upon tool words called a Grammar of tokens;
  2. Construction of a linguistic knowledge base and structured query language, integration of the database DIINAR (ICAR);
  3. Development of the web programme Kawâkib/Octala (Outils Critères TALA) for automatic processing of Arabic, especially as regards filtering in a digital library
  4. Creation of the language SYGAL, a language for linguistic programming;
  5. Organisation of an international meeting: The Semitic system and computability.

Tools and selective bibliography

  • Automates arabes
  • public version of Kawâkib
  • A. Jaccarini, Chr. Gaubert, Cl. Audebert. « Structures and Procedures in Arabic Language », dans Proceedings of LREC, Valette, Malte, 2010.
  • Cl. Audebert, « Quelques réflexions sur la fréquence et la distribution des mots outils ou tokens dans les textes arabes en vue de leur caractérisation dans le cadre de l’extraction d’information », AnIsl 44, 2010, p. 39-52.
  • Chr. Gaubert, « Kawâkib, une application web pour le traitement automatique de textes arabes », AnIsl 44, 2010, p. 53-60.
  • A. Jaccarini. « De l’intérêt de représenter la grammaire de l’arabe sous la forme d’une structure de machines finies », AnIsl 44, 2010, p. 5-38.
  • Cl. Audebert, Chr. Gaubert, A. Jaccarini, « A Flexible Software Geared Towards Arabic Texts I.R And Evaluation : Kawâkib », ALTIC 2011, Alexandria, Egypt.
  • Cl. Audebert, Chr. Gaubert, A. Jaccarini, « Arabic Information Retrieval : How to Get Good Results at a Lower Cost ? » dans Proceedings of the ESOLEC ‘2011 conference, Ayn Shams, Le Caire, 2011.