Institut français
d’archéologie orientale du Caire

IFAO

Catalogue des publications

pays/zone estimés: 192.168.253.1 EGY XXX

pdf
AnIsl044_art_04.pdf (2.26 Mb)
Extrait pdf de l’ouvrage :
Annales islamologiques 44
2010 IFAO
8 p.
gratuit - free of charge
Kawâkib, une application Web pour le traitement automatique de textes arabes.

L’application Web Kawâkib http ://www.ifao.egnet.net/kawakib/ décrite ici est un instrument de travail pour la recherche, la mise au point et la diffusion de procédures d’IR arabe (Information Retrivial) : récupération d’information, classification ou caractérisation de textes et filtrage sémantique. Son développement a été réalisé à partir d’éléments du projet Sarfiyya de traitement automatique de l’arabe, qui repose sur la théorie des automates et opère avec un recours minimal au lexique. Kawâkib emploie la technologie Ajax, qui offre une interactivité soutenue pour les sites Web. Les différentes fonctions d’analyse de textes de l’application s’organisent autour de la recherche de racines et de leur fréquence d’emploi, la détection de répétitions, le repérage des mots-outils (tokens). Un analyseur d’expressions régulières, intégrant une visualisation de l’automate associé, permet de rechercher des expressions alternatives, des structures argumentatives ou des phrases subordonnées. Consolidées entre elles, ces expressions deviendront des procédures de détection.

Kawâkib est disponible en version publique aux fonctions restreintes, une version de développement plus complète, Kawâkib Pro, étant réservée à l’équipe de recherche.

***

The Web application http ://www.ifao.egnet.net/kawakib/ described in this paper is a tool for searching, tuning and spreading procedures in the Arabic IR (Information Retrievial) domain, such as automatic categorization and characterization of texts and semantic filtering.

It has been developed by using elements of the Sarfiyya project of Arabic automatic parsing, which relies on the theory of automata and uses as less as possible lexicons. The Ajax methodology is used to increase the interactivity of the web pages. Kawâkib performs several functions like root search and sorting, repetitions detection, tool words analysis. A regular expression engine including a graphic visualization of the associated automaton allows the detection of alternative expressions, as well as argumentative structures and subordinate clauses. These expressions can then be brought together in order to create new detection procedures.

Kawâkib is available in two versions, a public but limited version and Kawâkib Pro, a development version restricted the team research members.