La transcription
Après la constitution des corpus et la spécification des objectifs poursuivis, il a fallu procéder à la transcription des données, afin que les matériaux disponibles puissent être consultés par d'autres chercheurs. La transcription a été réalisée dans le respect d'un code conventionnel (voir Conventions observées dans la transcription) pour de larges extraits des différents corpus (voir Transcriptions disponibles).
1. Conventions observées dans la transcription
Le principe de base de la transcription est de reprendre les données telles quelles. Toute intervention de la part de celui qui transcrit est donc exclue. Les répétitions, les hésitations, les reprises, les mots tronqués, les phrases inachevées, etc. sont transcrites intégralement.
Toute transcription exige une bonne qualité sonore de l'enregistrement. Or, les enregistrements disponibles présentent parfois des bruits de fond qui rendent particulièrement difficile, voire impossible la transcription. Les séquences incompréhensibles ou l'interprétation probable du transcripteur (lorsqu'il n'est pas tout à fait sûr de ce qu'il entend) sont indiquées par le code <unclear> (Il s'agit d'une balise SGML. Pour une description du système SGML, voir L'annotation.).
Le projet propose deux types de transcription : la transcription graphique et la transcription phonétique.
La première transcription, appelée graphique ou graphématique, reprend les caractères de lalphabet romain. Elle s'écarte pourtant de l'orthographe d'usage par un emploi différent de la ponctuation et des majuscules.
La ponctuation est essentiellement remplacée par lindication des pauses. Pour le corpus LANCOM, les phrases interrogatives et exclamatives sont indiquées par des points d'interrogation et d'exclamation. Pour la partie du corpus d'Orléans transcrite à Amsterdam, sont également signalés les points d'interrogation, ainsi que les points. Il convient de faire remarquer que les transcriptions nont pas été réalisées dans le cadre du projet ELICOP, mais bien avant, càd. dans les années 80 pour les corpus ELILAP et dans les années 90 pour le corpus LANCOM. Il en résulte de légères différences dans les conventions de transcription, comme pour la ponctuation. Dans ce cas, nous avons décidé de garder la ponctuation là où elle est présente étant donné que cette information peut être utile pour certaines recherches, par exemple sur lintonation.
Les majuscules sont conservées uniquement pour les noms propres, les sigles, les titres et les mots cités.
La deuxième transcription, appelée phonétique ou phonématique, utilise les symboles de lAlphabet Phonétique International représentés en caractères ASCII selon la convention SAMPA (voir http://www.phon.ucl.ac.uk/home/sampa/french.htm). Tout comme cest le cas pour la transcription graphique, la transcription phonétique reproduit fidèlement lenregistrement. Mais comme elle est plus difficile à réaliser, elle ne porte que sur une petite partie des corpus ELILAP.
2.1. Transcriptions graphiques disponibles
2.1.1. ELILAP
Plusieurs fragments du corpus dOrléans ont été transcrits et automatisés, soit environ 80 heures (± 903 000 mots). La plupart de ces transcriptions ont été réalisées à lUniversité Libre dAmsterdam, soit plus de 70 heures. Grâce à un accord obtenu avec cette université, nous avons pu ajouter ces transcriptions au corpus ELICOP. Dautres extraits ont été transcrits à la K.U.Leuven et ailleurs sans avoir été informatisés, soit quelque 37 heures. Pour ce qui est du corpus de Tours, une dizaine d'entretiens face à face ont été transcrits et informatisés, ce qui représente près de 4 heures de transcriptions graphiques (± 36 000 mots). La partie automatisée du corpus dAuvergne comprend plus de 17 heures (± 177 000 mots). L'ensemble des trois corpus (± 100 heures) compte actuellement plus d'un million de mots et constitue ainsi un échantillon représentatif de la langue parlée.
2.1.2. LANCOM
Quelque 18 heures du corpus LANCOM sont disponibles aux chercheurs sous forme de transcriptions graphiques informatisées. La durée transcrite la plus importante concerne la partie FN, soit près de 14 heures (± 112 000 mots). De la partie FF, environ 2 heures et demie ont été transcrites (± 29 000 mots). La durée transcrite de la partie FB, à savoir 1 heure et demie, est plus restreinte (± 19 000 mots). Le corpus entier ne compte actuellement pas plus de 160 000 mots, mais ce nombre augmente progressivement : de nouvelles transcriptions enrichissent le corpus chaque année.
2.2. Transcriptions phonétiques disponibles
Nous disposons de près de 11 heures de transcriptions phonétiques du corpus dOrléans. Il sy ajoute un seul extrait du corpus dAuvergne. Voir également transcriptions phonétiques disponibles.
2.2.2. LANCOM
Pour le corpus LANCOM, la transcription phonétique n'a pas encore été entamée.
04/01/01