1. Identification et structure interne des corpus
Afin de pouvoir référer avec précision aux corpus ou pour retrouver facilement un passage déterminé sur les cassettes correspondantes, il est indispensable de disposer dun système didentification univoque, où nous distinguons l'identification du corpus dans son ensemble et sa structure interne.
1.1. Identification des corpus
Pour les corpus réunis sous le sigle ELILAP, les différents extraits sont identifiés à laide dun code qui se compose de chiffres et/ou de lettres et qu'on retrouve dans la version automatisée. Tous les détails sur les enregistrements et sur les témoins, ainsi que sur les questionnaires sont repris dans les différents catalogues.
Pour le corpus LANCOM, lidentification se fait de façon hiérarchique. En principe, chaque collaborateur au projet LANCOM réalise son propre enregistrement et sa propre transcription soumise à un examen collégial. Il ajoute donc une nouvelle cassette vidéo au corpus. La numérotation des cassettes se fait de façon chronologique. Il se peut que le chercheur en question utilise différents scénarios. Chaque scénario reçoit un numéro de série. Il peut y avoir plusieurs séries sur une même cassette. A lintérieur dune série, il y a généralement plusieurs séquences. Une nouvelle séquence commence quand l'ensemble des interlocuteurs change. Toutes ces informations, ainsi que la langue, le thème et le niveau de français sont signalisés dans le corpus informatisé. Parfois le nom du transcripteur et le lieu où l'enregistrement a été effectué sont également mentionnés. Une fiche comprenant toutes les informations mentionnées ci-dessus a été établie pour chaque enregistrement.
A lintérieur dune interview ou dune séquence, les phrases produites successivement par un même locuteur forment une unité, appelée une intervention (ce qui correspond traditionnellement à un tour de parole). Les interventions sont numérotées et les locuteurs sont identifiés à laide dun code. Le début dune intervention est signalé par létiquette <sp who=S nr=N>, où S représente le locuteur et N correspond à la numérotation des interventions. La fin de lintervention est alors signalée par létiquette </sp>. Un code supplémentaire (<INT>) est prévu pour les interventions du professeur ou du transcripteur. Le commentaire figure alors entre accolades.
08/01/01