Institut français
d’archéologie orientale du Caire

IFAO

Traitement automatique de l’arabe

Construction d’un outil de mesure linguistique en vue du déchiffrage de corpus

Responsable : Christian Gaubert (IFAO)

Collaborations : Claude Audebert (Université d'Aix en Provence), André Jaccarini (CNRS, Maison Méditerranéenne des Sciences de l’Homme, chargé de recherches).

Partenariat :

Prolongement de travaux commencés depuis plusieurs années au cours desquelles diverses réalisations ont vu le jour (ouvrages, articles, logiciels), ce projet a pour origine la modélisation du déchiffrage d’un texte arabe, modélisation qui peut être simulée par des programmes. La difficulté majeure est l’appréhension des flux d’information entre la syntaxe et la morphologie et leur « masquage » partiel par la non-voyellation généralisée. Le recours est le repérage prioritaire des mots-outils, dits tokens, et l’exploration de leur rôle de structurants dans la phrase : c’est une approche de surface. Une stratégie originale, représenté par un programme fictif, est développée qui s’appuie sur le rôle phare des tokens, s’abstient de recourir au lexique et, d’une manière générale, n’utilise qu’un minimum de règles.

Ce projet se distingue d’un ensemble de projets contemporains par son approche purement algorithmique, la minimalité, l’indépendance par rapport au lexique, le rôle phare des mots-outils et l’approche de surface. La grammaire n’étant pas figée, mais considérée comme un point de vue particulier sur le langage, les grammaires peuvent apparaître comme dérivant par transformation d’un noyau de base lui-même non figé. Se pose alors la question de l’adéquation des grammaires par rapport à un objectif donné : la grammaire d’un contrôleur orthographique n’est pas celle d’un programme d’apprentissage de l’arabe ou celle d’un extracteur d’informations. L’analyse morpho-syntaxique de l’arabe proposée ici constitue une réflexion et un outil assez général pour répondre à un ensemble d’applications.

Le développement de cette approche de surface passe par une étude approfondie des tokens ou mots outils. Cette étude se traduit par la synthèse de grammaires morpho-syntaxiques, briques de grammaires opératoires constituées en vue de synthétiser des procédures de recherche. De telles grammaires peuvent alors servir à détecter des phrases conditionnelles, des relations de causalité, à extraire des citations, à repérer des relations discursives de différents types, etc. Ces thèmes sont fondamentaux pour l’extraction d’information : couplés avec la recherche de colocations (cooccurrences non fortuites), en interaction avec l’analyseur morpho-syntaxique, ils sont à la source de nombreuses applications.

Actions effectuées :

Transversalité : Dictionnaire des verbes de l’égyptien - Documents de l’Égypte antique et médiévale