Traitement automatique de l’arabe
Construction d’un outil de mesure linguistique en vue du déchiffrage de corpus
Responsable : Christian Gaubert (IFAO)
Collaborations : Claude Audebert (Université d'Aix en Provence), André Jaccarini (CNRS, Maison Méditerranéenne des Sciences de l’Homme, chargé de recherches).
Partenariat :
- Maison Méditerranéenne des Sciences de l’Homme (CNRS – USR 3125 – Université Aix-Marseille I)
Prolongement de travaux commencés depuis plusieurs années au cours desquelles diverses réalisations ont vu le jour (ouvrages, articles, logiciels), ce projet a pour origine la modélisation du déchiffrage d’un texte arabe, modélisation qui peut être simulée par des programmes. La difficulté majeure est l’appréhension des flux d’information entre la syntaxe et la morphologie et leur « masquage » partiel par la non-voyellation généralisée. Le recours est le repérage prioritaire des mots-outils, dits tokens, et l’exploration de leur rôle de structurants dans la phrase : c’est une approche de surface. Une stratégie originale, représenté par un programme fictif, est développée qui s’appuie sur le rôle phare des tokens, s’abstient de recourir au lexique et, d’une manière générale, n’utilise qu’un minimum de règles.
Ce projet se distingue d’un ensemble de projets contemporains par son approche purement algorithmique, la minimalité, l’indépendance par rapport au lexique, le rôle phare des mots-outils et l’approche de surface. La grammaire n’étant pas figée, mais considérée comme un point de vue particulier sur le langage, les grammaires peuvent apparaître comme dérivant par transformation d’un noyau de base lui-même non figé. Se pose alors la question de l’adéquation des grammaires par rapport à un objectif donné : la grammaire d’un contrôleur orthographique n’est pas celle d’un programme d’apprentissage de l’arabe ou celle d’un extracteur d’informations. L’analyse morpho-syntaxique de l’arabe proposée ici constitue une réflexion et un outil assez général pour répondre à un ensemble d’applications.
Le développement de cette approche de surface passe par une étude approfondie des tokens ou mots outils. Cette étude se traduit par la synthèse de grammaires morpho-syntaxiques, briques de grammaires opératoires constituées en vue de synthétiser des procédures de recherche. De telles grammaires peuvent alors servir à détecter des phrases conditionnelles, des relations de causalité, à extraire des citations, à repérer des relations discursives de différents types, etc. Ces thèmes sont fondamentaux pour l’extraction d’information : couplés avec la recherche de colocations (cooccurrences non fortuites), en interaction avec l’analyseur morpho-syntaxique, ils sont à la source de nombreuses applications.
Actions effectuées :
- Création d’une cellule recherches au sein de l’USR 3125 (MMSH) intitulé « automates arabes » .
- Création du site Internet http://automatesarabes.net comportant une application Web : Kawâkib.
- Participation à la conférence MEDAR 2009: article en ligne et présentation (anglais)
- A. Jaccarini, C. Gaubert, C. Audebert. « Structures and Procedures in Arabic Language ». http://www.medar.info/report-ws-malta.pdf. Proceedings of LREC 2010, Valetta, Malta.
- Audebert C., « Quelques réflexions sur la fréquence et la distribution des mots outils ou tokens dans les textes arabes en vue de leur caractérisation dans le le domaine l’extraction d’information ». AnIsl 43
- Gaubert C., « Kawâkib, une application web pour le traitement automatique de textes arabes ». Anisl 43, 2010
- André Jaccarini. « De l’intérêt de représenter la grammaire de l’arabe sous la forme d’une structure de machines finies ». AnIsl 43, 2010
- Audebert C., Gaubert C., Jaccarini A., « A Flexible Software Geared Towards Arabic Texts I.R And Evaluation : Kawâkib », ALTIC 2011, (Alexandria, Egypt), à paraître dans ALTIC 2011
- Audebert C., Gaubert C., Jaccarini A., « Arabic Information Retrieval : How to Get Good Results at a Lower Cost ? » 2011, Proceedings of the ESOLEC ‘2011 conference, Ayn Shams, Cairo.
Transversalité : Dictionnaire des verbes de l’égyptien - Documents de l’Égypte antique et médiévale