Institut français
d’archéologie orientale du Caire

IFAO

Automates Arabes: outils

Ṣarfiyya et Kawâkib

Ṣarfiyya

Ṣarfiyya est un logiciel expérimental destiné à analyser des textes arabes en exploitant le mieux possible la régularité de la grammaire arabe, morphologique et syntaxique, et en employant le moins possible d'information morphologique exhaustive.

Ṣarfiyya comporte un analyseur ou parser morpho-syntaxique et propose en standard trois grammaires morphologiques principales: nominale, verbale et mot-outils ou token. Pour chaque mot soumis à l'analyse, une série d"interprétations" nominales, verbales ou token sera donc proposée.

Ces interprétations sont le reflet de l'ambiguité naturelle de l'arabe tel qu'il s'écrit, une même forme graphique pouvant se prêter à différentes interprétations, nominale, verbale ou token, relevant respectivement d'une grammaire nominale, verbale ou de tokens.

L'absence de dictionnaire informatique complet permet d'exploiter au maximum la régularité de l'arabe et explique pourquoi on peut analyser tout texte sans dépouillement préalable. Ṣarfiyya ne comporte en effet qu'une liste de racines, une liste de schèmes et quelques micro-lexiques qui permettent la désambiguïsation la plus élémentaire.

Les fonctionalités de Ṣarfiyya (recherche, phrase vide, etc.) sont organisées autour de cet analyseur.

Le logiciel permet donc, dans un premier niveau d'utilisation:

Une terminologie spécifique a été établie pour qualifier les réponses.

Ṣarfiyya permet par ailleurs d'effectuer des recherches sur un texte, par des critères spécifique à la langue arabe:

Sarfiyya
Sarfiyya


Ṣarfiyya est dotée d'un éditeur de grammaires appelé Visigram qui permet de concevoir de manière souple des automates morpho-syntaxiques, de les tester et d'en calculer une version déterministe. Les grammaires produites sont enregistrée dans un format XML et leur représentation graphique est sous forme de graphe de transition, en un dessin vectoriel (SVG). Ces grammaire sont utilisables par l'outil Kawakib présenté plus bas.

Outil non diffusé, Ṣarfiyya est implémentée en Java, XML, SVG et fonctionne sur Windows, Mac OS X et Linux.

Kawakib et Kawakib Pro

L’application Web Kawâkib a été créée à partir du code Java de Sarfiyya. Elle comporte donc nombre de fonction de Sarfiyya dans un environnement internet qui permet son déploiement instantanné et le développement du travail d'équipe sur un corpus commun. Kawâkib comporte :

Les grammaires développées avec Sarfiyya peuvent être installées dans Kawâkib et testées sur le corpus, lequel peut être enrichi en ligne.

Kawâkib existe en deux versions: une version publique Kawâkib comportant des limitations et certaines fonction seulement (racines fréquentes, répétitions, tokens et suites de tokens) et une version en développement Kawakib Pro réservée au groupe de travail.

Kawakib Pro

 

Les principales fonctions de Kawâkib sont:

Ces fonction peuvent être appliquées à des textes tout venants ou importés dans le corpus du logiciel, qui accepte les documents arabes de tout format (doc, docs, rtf, pdf, etc.) pour en extraire le texte.

Des traitements sur ce corpus sont ensuite effectués qui aboutissent à des critères numériques enregistrés, lesquels seront exploités pour la classification des documents.


Kawakib Pro, extraction de citations
Kawakib Pro, extraction de citations