La transcription

Après la constitution des corpus et la spécification des objectifs poursuivis, il a fallu procéder à la transcription des données, afin que les matériaux disponibles puissent être consultés par d'autres chercheurs. La transcription a été réalisée dans le respect d'un code conventionnel (voir Conventions observées dans la transcription) pour de larges extraits des différents corpus (voir Transcriptions disponibles).

 

1. Conventions observées dans la transcription

Le principe de base de la transcription est de reprendre les données telles quelles. Toute intervention de la part de celui qui transcrit est donc exclue. Les répétitions, les hésitations, les reprises, les mots tronqués, les phrases inachevées, etc. sont transcrites intégralement.

Toute transcription exige une bonne qualité sonore de l'enregistrement. Or, les enregistrements disponibles présentent parfois des bruits de fond qui rendent particulièrement difficile, voire impossible la transcription. Les séquences incompréhensibles ou l'interprétation probable du transcripteur (lorsqu'il n'est pas tout à fait sûr de ce qu'il entend) sont indiquées par le code <unclear> (Il s'agit d'une balise SGML. Pour une description du système SGML, voir L'annotation.).

Le projet propose deux types de transcription : la transcription graphique et la transcription phonétique.


1.1. Transcription graphique

La première transcription, appelée ‘graphique’ ou ‘graphématique’, reprend les caractères de l’alphabet romain. Elle s'écarte pourtant de l'orthographe d'usage par un emploi différent de la ponctuation et des majuscules.

La ponctuation est essentiellement remplacée par l’indication des pauses. Pour le corpus LANCOM, les phrases interrogatives et exclamatives sont indiquées par des points d'interrogation et d'exclamation. Pour la partie du corpus d'Orléans transcrite à Amsterdam, sont également signalés les points d'interrogation, ainsi que les points. Il convient de faire remarquer que les transcriptions n’ont pas été réalisées dans le cadre du projet ELICOP, mais bien avant, càd. dans les années 80 pour les corpus ELILAP et dans les années 90 pour le corpus LANCOM. Il en résulte de légères différences dans les conventions de transcription, comme pour la ponctuation. Dans ce cas, nous avons décidé de garder la ponctuation là où elle est présente étant donné que cette information peut être utile pour certaines recherches, par exemple sur l’intonation.

Les majuscules sont conservées uniquement pour les noms propres, les sigles, les titres et les mots cités.


1.2. Transcription phonétique

La deuxième transcription, appelée ‘phonétique’ ou ‘phonématique’, utilise les symboles de l’Alphabet Phonétique International représentés en caractères ASCII selon la convention SAMPA (voir http://www.phon.ucl.ac.uk/home/sampa/french.htm). Tout comme c’est le cas pour la transcription graphique, la transcription phonétique reproduit fidèlement l’enregistrement. Mais comme elle est plus difficile à réaliser, elle ne porte que sur une petite partie des corpus ELILAP.

 

2. Transcriptions disponibles

2.1. Transcriptions graphiques disponibles

2.1.1. ELILAP

Plusieurs fragments du corpus d’Orléans ont été transcrits et automatisés, soit environ 80 heures (± 903 000 mots). La plupart de ces transcriptions ont été réalisées à l’Université Libre d’Amsterdam, soit plus de 70 heures. Grâce à un accord obtenu avec cette université, nous avons pu ajouter ces transcriptions au corpus ELICOP. D’autres extraits ont été transcrits à la K.U.Leuven et ailleurs sans avoir été informatisés, soit quelque 37 heures. Pour ce qui est du corpus de Tours, une dizaine d'entretiens face à face ont été transcrits et informatisés, ce qui représente près de 4 heures de  transcriptions graphiques (± 36 000 mots). La partie automatisée du corpus d’Auvergne comprend plus de 17 heures (± 177 000 mots). L'ensemble des trois corpus (± 100 heures) compte actuellement plus d'un million de mots et constitue ainsi un échantillon représentatif de la langue parlée.

2.1.2. LANCOM

Quelque 18 heures du corpus LANCOM sont disponibles aux chercheurs sous forme de transcriptions graphiques informatisées. La durée transcrite la plus importante concerne la partie FN, soit près de 14 heures (± 112 000 mots). De la partie FF, environ 2 heures et demie ont été transcrites (± 29 000 mots). La durée transcrite de la partie FB, à savoir 1 heure et demie, est plus restreinte (± 19 000 mots). Le corpus entier ne compte actuellement pas plus de 160 000 mots, mais ce nombre augmente progressivement : de nouvelles transcriptions enrichissent le corpus chaque année.


2.2. Transcriptions phonétiques disponibles

2.2.1. ELILAP

Nous disposons de près de 11 heures de transcriptions phonétiques du corpus d’Orléans. Il s’y ajoute un seul extrait du corpus d’Auvergne. Voir également transcriptions phonétiques disponibles.

2.2.2. LANCOM

Pour le corpus LANCOM, la transcription phonétique n'a pas encore été entamée.

 

04/01/01