Traitement automatique de l’arabe
Construction d’un outil de mesure linguistique en vue du déchiffrage de corpus
Responsable : Christian Gaubert (IFAO)
Collaborations : Claude Audebert (Université d'Aix en Provence–IREMAM, CNRS UMR 6568), André Jaccarini (CNRS, Maison Méditerranéenne des Sciences de l’Homme, chargé de recherches).
Partenariats :
- Institut de Recherche sur le Monde Arabe et Musulman (IREMAM, CNRS UMR 6568)
- Maison Méditerranéenne des Sciences de l’Homme (CNRS – UMS 841 – Université Aix-Marseille I)
Prolongement de travaux commencés depuis plusieurs années au cours desquelles diverses réalisations ont vu le jour, notamment un travail théorique exposé dans deux thèses, un ensemble d’articles, la conception et la réalisation d’un logiciel nommé Sarfiyya, ce projet a pour origine la modélisation du déchiffrage d’un texte arabe, modélisation qui peut être simulée par des programmes. La difficulté majeure est l’appréhension des flux d’information entre la syntaxe et la morphologie et leur « masquage » partiel par la non-voyellation généralisée. Le recours est le repérage prioritaire des mots-outils, dits tokens, et l’exploration de leur rôle de structurants dans la phrase : c’est une approche de surface. Une stratégie originale, représenté par un programme fictif, est développée qui s’appuie sur le rôle phare des tokens, s’abstient de recourir au lexique et, d’une manière générale, n’utilise qu’un minimum de règles.
Ce projet se distingue d’un ensemble de projets contemporains par son approche purement algorithmique, la minimalité, l’indépendance par rapport au lexique, le rôle phare des mots-outils et l’approche de surface. La grammaire n’étant pas figée, mais considérée comme un point de vue particulier sur le langage, les grammaires peuvent apparaître comme dérivant par transformation d’un noyau de base lui-même non figé. Se pose alors la question de l’adéquation des grammaires par rapport à un objectif donné : la grammaire d’un contrôleur orthographique n’est pas celle d’un programme d’apprentissage de l’arabe ou celle d’un extracteur d’informations. L’analyse morpho-syntaxique de l’arabe proposée ici constitue une réflexion et un outil assez général pour répondre à un ensemble d’applications.
Le développement de cette approche surfacique passe par une étude approfondie des tokens ou mots outils. Cette étude se traduit par la synthèse de grammaires morpho-syntaxiques, briques de grammaires opératoires constituées en vue de synthétiser des procédures de recherche. De telles grammaires peuvent alors servir à détecter des phrases conditionnelles, des relations de causalité, à extraire des citations, etc. Ces thèmes sont fondamentaux pour l’extraction d’information : couplés avec la recherche de colocations (cooccurrences non fortuites), en interaction avec l’analyseur morpho-syntaxique, ils sont à la source de nombreuses applications.
Actions prévues : Poursuite et refonte progressive du logiciel expérimental Sarfiyya - Changement d’environnement informatique vers le langage Java - Étude des opérateurs syntaxiques et grammaire des attentes syntaxiques - Création d’un site Internet comportant une version libre de Sarfiyya - Table ronde de présentation des résultats à l’issue du programme (2011).
Transversalité : Dictionnaire des verbes de l’égyptien - Documents de l’Égypte antique et médiévale
Précédent: Paléographie de l’égyptien ancien
Suivant: Dictionnaire raisonné des verbes de l’égyptien