1. Identification et structure interne des corpus

Afin de pouvoir référer avec précision aux corpus ou pour retrouver facilement un passage déterminé sur les cassettes correspondantes, il est indispensable de disposer d’un système d’identification univoque, où nous distinguons l'identification du corpus dans son ensemble et sa structure interne.

 

1.1. Identification des corpus

Pour les corpus réunis sous le sigle ELILAP, les différents extraits sont identifiés à l’aide d’un code qui se compose de chiffres et/ou de lettres et qu'on retrouve dans la version automatisée. Tous les détails sur les enregistrements et sur les témoins, ainsi que sur les questionnaires sont repris dans les différents catalogues.

Pour le corpus LANCOM, l’identification se fait de façon hiérarchique. En principe, chaque collaborateur au projet LANCOM réalise son propre enregistrement et sa propre transcription soumise à un examen collégial. Il ajoute donc une nouvelle cassette vidéo au corpus. La numérotation des cassettes se fait de façon chronologique. Il se peut que le chercheur en question utilise différents scénarios. Chaque scénario reçoit un numéro de série. Il peut y avoir plusieurs séries sur une même cassette. A l’intérieur d’une série, il y a généralement plusieurs séquences. Une nouvelle séquence commence quand l'ensemble des interlocuteurs change. Toutes ces informations, ainsi que la langue, le thème et le niveau de français sont signalisés dans le corpus informatisé. Parfois le nom du transcripteur et le lieu où l'enregistrement a été effectué sont également mentionnés. Une fiche comprenant toutes les informations mentionnées ci-dessus a été établie pour chaque enregistrement.

 

1.2. Structure interne

A l’intérieur d’une interview ou d’une séquence, les phrases produites successivement par un même locuteur forment une unité, appelée ‘une intervention’ (ce qui correspond traditionnellement à un tour de parole). Les interventions sont numérotées et les locuteurs sont identifiés à l’aide d’un code. Le début d’une intervention est signalé par l’étiquette <sp who=S nr=N>, où S représente le locuteur et N correspond à la numérotation des interventions. La fin de l’intervention est alors signalée par l’étiquette </sp>. Un  code supplémentaire (<INT>) est prévu pour les interventions du professeur ou du transcripteur. Le commentaire figure alors entre accolades.

 

08/01/01