Automates Arabes: outils
Ṣarfiyya et Kawâkib
Ṣarfiyya
Ṣarfiyya est un logiciel expérimental destiné à analyser des textes arabes en exploitant le mieux possible la régularité de la grammaire arabe, morphologique et syntaxique, et en employant le moins possible d'information morphologique exhaustive.
Ṣarfiyya comporte un analyseur ou parser morpho-syntaxique et propose en standard trois grammaires morphologiques principales: nominale, verbale et mot-outils ou token. Pour chaque mot soumis à l'analyse, une série d"interprétations" nominales, verbales ou token sera donc proposée.
Ces interprétations sont le reflet de l'ambiguité naturelle de l'arabe tel qu'il s'écrit, une même forme graphique pouvant se prêter à différentes interprétations, nominale, verbale ou token, relevant respectivement d'une grammaire nominale, verbale ou de tokens.
L'absence de dictionnaire informatique complet permet d'exploiter au maximum la régularité de l'arabe et explique pourquoi on peut analyser tout texte sans dépouillement préalable. Ṣarfiyya ne comporte en effet qu'une liste de racines, une liste de schèmes et quelques micro-lexiques qui permettent la désambiguïsation la plus élémentaire.
Les fonctionalités de Ṣarfiyya (recherche, phrase vide, etc.) sont organisées autour de cet analyseur.
Le logiciel permet donc, dans un premier niveau d'utilisation:
- d'analyser un texte de longueur quelconque, entièrement ou en partie.
- de demander des analyse nominales (N), verbales (V) ou token (T)
- séparément ou avec des combinaisons (N et V, N ou V et non T, etc.)
- de visualiser les analyses dans une console de résultats.
Une terminologie spécifique a été établie pour qualifier les réponses.
Ṣarfiyya permet par ailleurs d'effectuer des recherches sur un texte, par des critères spécifique à la langue arabe:
- recherche par racine (une seule ou des groupes ou des racines apparentées) et par schème
- recherche par séquence de mots, éventuellement disjointe
- recherche de suites de mots-outils
Ṣarfiyya est dotée d'un éditeur de grammaires appelé Visigram qui permet de concevoir de manière souple des automates morpho-syntaxiques, de les tester et d'en calculer une version déterministe. Les grammaires produites sont enregistrée dans un format XML et leur représentation graphique est sous forme de graphe de transition, en un dessin vectoriel (SVG). Ces grammaire sont utilisables par l'outil Kawakib présenté plus bas.
Outil non diffusé, Ṣarfiyya est implémentée en Java, XML, SVG et fonctionne sur Windows, Mac OS X et Linux.
Kawakib et Kawakib Pro
L’application Web Kawâkib a été créée à partir du code Java de Sarfiyya. Elle comporte donc nombre de fonction de Sarfiyya dans un environnement internet qui permet son déploiement instantanné et le développement du travail d'équipe sur un corpus commun. Kawâkib comporte :
- une recherche de racines fréquentes,
- des fonctions de détection de tokens et d'expressions fondées sur des tokens,
- ainsi que la possibilité de synthèse d'automates de recherche par expressions régulières.
Les grammaires développées avec Sarfiyya peuvent être installées dans Kawâkib et testées sur le corpus, lequel peut être enrichi en ligne.
Kawâkib existe en deux versions: une version publique Kawâkib comportant des limitations et certaines fonction seulement (racines fréquentes, répétitions, tokens et suites de tokens) et une version en développement Kawakib Pro réservée au groupe de travail.
Kawakib Pro
Les principales fonctions de Kawâkib sont:
- Analyses morphologiques des noms et verbes (trilitères et quadrilitères) par automates à états finis et transducteurs, avec ressources linguistiques minimales
- Mise en évidence des ambiguïtés et de leur hiérarchie
- Analyse/recherche d’environs 400 tokens (mots-outils) organisés en 24 catégories
- Statistiques pour ces tokens et leurs catégories
- Repérage et stockage de combinaisons et séries de tokens
- Recherche de mots dans un texte et analyse du contexte
- Recherche de racines ou motif de racines (R1 X R3 par exemple)
- Recherche des racines les plus fréquentes et calcul du seuil de couverture
- Recherche de répétition
- Recherche de dates
- Recherche de motifs combinant mots, tokens, opérateurs logiques par expressions régulières et automates
Ces fonction peuvent être appliquées à des textes tout venants ou importés dans le corpus du logiciel, qui accepte les documents arabes de tout format (doc, docs, rtf, pdf, etc.) pour en extraire le texte.
Des traitements sur ce corpus sont ensuite effectués qui aboutissent à des critères numériques enregistrés, lesquels seront exploités pour la classification des documents.