Lannotation
Dans la transcription du signal physique de la parole, le texte a été enrichi dinformations de nature variée. Dans la mesure du possible, ces informations sont signalées par des balises SGML (Standard Generalized Markup Language). Cette convention permet de décrire et de rendre explicite toute information structurelle. Le système présente deux avantages. Dune part, de nouvelles annotations peuvent être introduites progressivement sans que linventaire des étiquettes ne doive être fixé définitivement à lavance. Dautre part, grâce à luniformité des étiquettes, les annotations peuvent facilement être séparées du texte même. Ceci permet de réaliser une interface utilisateur conviviale, qui donne au chercheur la possibilité de sélectionner linformation dont il a besoin sans être confronté avec un texte encombré dannotations.
Les différents corpus sont actuellement formellement homogènes. La quantité dinformations, par contre, peut différer dun corpus à lautre. En général, les différents types dannotations peuvent être divisés en quatre catégories :
1. Identification et structure interne des corpus
4. Information grammaticale (étiquetage morpho-syntaxique)
08/01/01