L’annotation

Dans la transcription du signal physique de la parole, le texte a été enrichi d’informations de nature variée. Dans la mesure du possible, ces informations sont signalées par des balises SGML (Standard Generalized Markup Language). Cette convention permet de décrire et de rendre explicite toute information structurelle. Le système présente deux avantages. D’une part, de nouvelles annotations peuvent être introduites progressivement sans que l’inventaire des étiquettes ne doive être fixé définitivement à l’avance. D’autre part, grâce à l’uniformité des étiquettes, les annotations peuvent facilement être séparées du texte même. Ceci permet de réaliser une interface utilisateur conviviale, qui donne au chercheur la possibilité de sélectionner l’information dont il a besoin sans être confronté avec un texte encombré d’annotations.

Les différents corpus sont actuellement formellement homogènes. La quantité d’informations, par contre, peut différer d’un corpus à l’autre. En général, les différents types d’annotations peuvent être divisés en quatre catégories :

1. Identification et structure interne des corpus

2. Information phonétique

3. Identification des erreurs

4. Information grammaticale (étiquetage morpho-syntaxique)

 

08/01/01