Institut français
d’archéologie orientale du Caire

IFAO

Catalogue des publications


pdf
AnIsl044_art_03.pdf (0.36 Mb)
Extrait pdf de l’ouvrage :
Annales islamologiques 44
2010 IFAO
14 p.
gratuit - free of charge
Quelques réflexions sur la fréquence et la distribution des mots-outils ou “tokens” dans les textes arabes en vue de leur caractérisation dans le cadre de l’extraction d’information.

Nous proposons quelques hypothèses sur la valeur de l’information apportée par les tokens ou mots-outils indicateurs de structures syntaxiques, pour ce qui est de la « caractérisation » et de la classification des textes dans une optique de recherche d’information.

Le présent article constitue un premier repérage d’un petit sous-ensemble de tokens que nous estimons, en première approximation, comme plus discriminants que d’autres. Les instruments de mesure dont dispose aujourd’hui l’équipe permettent de fournir une première indication sur les pistes de recherche. On peut partir d’une pré-définition des classes de tokens quant à leur distribution dans des textes caractérisés à l’avance. En fait, c’est le va et vient entre les deux points de vue qui paraît le plus approprié.

Deux articles d’al-Ahram seront analysés afin d’examiner le comportement des tokens et de leur rôle dans l’argumentation. Ceux-ci, s’ils sont privilégiés, car repérables en surface, ne sont, de toute évidence, pas les seuls moyens linguistiques à contribuer à la caractérisation des textes. L’analyse fera ressortir également que le lexique – et l’extraction de la racine – que l’on pourrait estimer essentiel pour l’extraction d’information, apparaît moins pertinent pour la caractérisation des textes.

***

This paper deals with the value of information brought by tokens, by which we mean tool-words structuring the sentences, within the theory of information retrieval (IR). What role do they play in text characterization? We shall bring forth a set of tokens, which we think are more discriminating than others in terms of IR. The extraction tools we dispose of, should allow for various stages and orientations of research. Tokens can be pre-defined as far as their distribution within the texts is concerned, just as texts can be classified beforehand. It seems most appropriate to operate between the two points of view (feedback).

Two press texts from al-Ahram will be analyzed in order to examine how tokens behave and what part they play in argumentation. Although tokens occupy a privileged part inasmuch as they appear on the surface level, they are by no means, the only element in text characterization. Lexicon as well as root extraction not to mention syntactic structures, play also an important part in text characterization as shown through the two texts analysis.