Institut français
d’archéologie orientale - Le Caire

Automates Arabes: collaborations


Projet de coopération entre le service informatique de la MMSH (USR 3125) et l'équipe DATAT dans le cadre du projet Bibmed


La coopération entre le S.I de la MMSH et le DATAT a pour objectif principal de concevoir et d'intégrer de nouvelles fonctionnalités de recherche et de filtrage d'information dans le projet Bibmed (lien MMSH). Ces recherches concerneront surtout - dans un premier temps - la langue arabe. L'approche purement algorithmique de la grammaire arabe, développée par l'équipe du DATAT (voir théorie), permet en effet de concevoir des applications intéressantes dans le domaine de l'extraction de l'information contenue dans des textes arabes (avec ou sans signes diacritiques) et de son filtrage (réduction du bruit). La création de ces nouvelles fonctionnalités suppose des modélisations linguistiques bien formalisées en sorte que le travail de mise en œuvre informatique soit le plus aisé possible.

1. Le pivot de cette recherche est l’étude approfondie, rendue plus aisée par une version avancée de l’outil Sarfiyya/Kawâkib, des attentes grammaticales de tous les tokens, dont le repérage est déjà résolu. Par exemple, l’opérateur inna implique la présence de structures ayant des fonctions grammaticales précises (thème, prédicat) qui sont reconnaissables par la machine. À l’opposé, les prépositions sont de portée plus réduite mais se combinent éventuellement avec des tokens de haut niveau : une hiérarchie s’établit entre familles d’opérateurs. Il est nécessaire de formaliser les comportements syntaxiques et leurs implications locales et globales.

2. Cette étude est couplée avec celle des marqueurs linguistiques de certaines relations discursives. Ce travail consiste à créer une base d'automates (ou transducteurs), les plus élémentaires possibles, en sorte que leurs combinaisons permettent la synthèse de nouvelles fonctionnalités de recherche d'information (RI). Une première démonstration de l'efficacité de cette méthode a été fournie au congrès de MEDAR 09 (voir aussi rubrique résultats). L'affinement progressif des filtres et la réduction des bruits sont obtenus, selon une méthode expérimentale précise, consistant à rétroagir sur la grammaire initiale en fonction du résultat fourni par la machine. Cette méthode de feed-back (va et vient continuel entre modélisation théorique et implémentation) suppose naturellement un travail d'évaluation des grammaires.

Or, il existe plusieurs manière d'affecter une valeur à une grammaire, selon la norme retenue, laquelle varie en fonction de l'application recherchée. La norme permet, à partir de critères fixés, d'affecter à la grammaire une valeur. Un critère peut être essentiel pour une application donnée mais peu pertinent pour une autre (par exemple l'extraction non ambiguë de la racine ne représente que peu d'intérêt si l'objectif est d'obtenir un simple contrôle orthographique). La donnée de la norme permet de privilégier, selon ses besoins, certains critères parmi d'autres et induit une hiérarchie.

Notre priorité sera de fournir un ensemble assez consistant de formalisation de ces relations discursives, sous forme d'automates, afin d'obtenir facilement des procédures de recherches, susceptibles d'apporter au projet BibMed une valeur ajoutée significative.

Le projet BibMed issu de Ramses II est piloté par le service informatique de l'USR 3125 de la MMSH . Le responsable est du SI de la MMSH est Samir Zardan.