Institut français
d’archéologie orientale du Caire

IFAO

Catalogue des publications

pays/zone estimés: 192.168.253.1 EGY XXX

pdf
AnIsl047_art_19.pdf (0.8 Mb)
Extrait pdf de l’ouvrage :
Annales islamologiques 47
2014 IFAO
17 p.
gratuit - free of charge
Le programme Mogador en linguistique formelle arabe et ses applications dans le domaine de la recherche et du filtrage sémantique

Développer une approche nouvelle du traitement automatique de l’arabe fondée sur une modélisation originale de la grammaire arabe donnant la priorité aux mots-outils (redéfinis) est l’ambition du programme MOGADOR. Échappant au système de dérivation, ces mots-outils redéfinis induisent des attentes syntaxiques voire sémantiques contraignant localement et/ou globalement la phrase. Forts de nos développements algorithmiques et applicatifs en analyse morphologique, en dictionnaires électroniques et en démonstrateurs dans le domaine de l’analyse de corpus et de la recherche d’informations, nous projetons, par des développements théoriques, la construction de nouveaux analyseurs et des mises en œuvre concrètes, de rendre possibles de nouvelles méthodes de filtrage à complexité maîtrisée. Ces filtres pourront être couplés à des moteurs de recherche, dopant ces derniers par des analyses linguistiques qui sont devenues nécessaires depuis l’explosion du Web en langue arabe.

Mots-clés : Linguistique arabe – automates – analyseurs – tokens arabes – optimisation de parseur – moteur de recherche – linguistique de corpus

The MOGADOR project aims at devolopping a new approach to Arabic Natural Language Processing, by designing software tools based on an original description of Arabic grammar that gives top priority to its tool-words (in a redefined definition). These tool-words, that do not derivate from the standard morphological system, trigger off expectations at both syntactic and semantic levels, and thus constrain the sentence either locally or globally. Based on our theoretical and algorithmic work in morphological analysis, electronic dictionaries and proof software in corpora analysis and Information Retrieval, we plan to make available a new generation of filters featuring limited complexity. We propose steps in both theoretical and software fields, with the design of new parsers and software proof tools. These filters could be embedded in search tools boosting them with the results of new linguistic analysis, which have become essential considering the recent boom of the Arabic Web.

Keywords: Arabic linguistics – automata – parsers – arabic tokens – parser optimization – search engine – corpus linguistics