Le projet ELILAP
Etude LInguistique de la LAngue Parlée
Une première entreprise de constitution de corpus de français parlé remonte à la fin
des années 60. Entre 1968 et 1971, des sociolinguistes et des professeurs de français
britanniques ont mis au point une banque de données importante, connue sous le nom d'Etude sociolinguistique
sur Orléans. Par la suite, d'autres enregistrements ont été effectués dans
deux autres villes françaises : Le livre
parlé de Tours (1974) et Voix
dAuvergne (1976).
Dans le cadre d'un projet de recherche mené de 1980 à 1983 (Le français parlé. Banque de données automatisée; analyse linguistique fondamentale et applications, sous la direction de Josse De Kock, Mark Debrock, Nicole Delbecque et Ellen Bas), le Département de Linguistique de la K.U.Leuven a reçu la gestion de l'ensemble de ces enregistrements, soit près de 500 heures. Ce premier projet est connu sous le sigle ELILAP (Etude LInguistique de la LAngue Parlée). Les responsables du projet ont voulu rendre accessibles les données sous forme informatisée. Plusieurs parties des trois corpus ont été transcrites et sont actuellement disponibles sous forme de transcriptions graphiques (± 100 heures) et phonétiques (± 12 heures) automatisées. Lensemble des corpus compte actuellement plus dun million de mots et peut être considéré comme constituant un échantillon représentatif de la langue parlée.
1. Les corpus ELILAP
Les corpus réunis dans le cadre du projet ELILAP ont été enregistrés sur bande magnétique et comprennent des échantillons de français parlé authentique et spontané de locuteurs sociologiquement très variés dans des situations de communication diverses :
1.1. Etude Sociolinguistique sur Orléans (E.S.L.O.)
Les enquêtes de lE.S.L.O ont été menées entre 1968 et 1971 par une quinzaine de professeurs de français de lUniversity of Essex, Language Centre, Colchester (Royaume-Uni), en collaboration avec des membres du B.E.L.C. (Bureau pour lEtude de lenseignement de la Langue et de la Civilisation françaises de Paris). Les informateurs appartiennent tous à la société urbaine dOrléans et ont été choisis de façon aléatoire daprès la liste de lI.N.S.E.E. (Institut National de Statistique et dEtudes Economiques) du recensement de 1968, ce qui assure la représentativité du corpus.
Comportant environ 315 heures denregistrements (± 4 500 000 mots), le corpus dOrléans est le plus étendu des trois corpus. Les enregistrements peuvent être divisés en sept catégories générales en fonction de la situation de communication. La plupart des témoignages (cf. les catégories 1, 4, 5, 7) reflètent une situation de communication formelle et sont donc bien structurées. Au sein de ces témoignages, il y a cependant plusieurs degrés de spontanéité en fonction de la familiarité du locuteur avec le sujet de la conversation. Au fur et à mesure que le témoin oublie la présence de lenquêteur, le discours est de moins en moins structuré et devient plus informel. Les catégories 2 et 6 comprennent des témoignages beaucoup plus spontanés, rassemblés dans un cadre très peu structuré. Souvent les témoins nétaient même pas au courant de lenregistrement.
Un catalogue exhaustif fournit une description complète de chaque informateur et de chaque enregistrement. Dans ce qui suit, nous regroupons, pour chaque catégorie, les enregistrements qui ont été transcrits. Actuellement, nous disposons denviron 80 heures de transcriptions graphiques (± 903 000 mots) et de près de 11 heures de transcriptions phonétiques. Pour plus de détails sur la façon de transcrire et sur les transcriptions disponibles, voir La transcription.
Le corpus de Tours a été constitué par 21 professeurs de français britanniques du College of Education de Londres, qui avaient participé à un stage de recyclage de lInstitut Français du Royaume-Uni (I.F.R.U., Londres) à Tours (1-15 septembre 1974). Les 193 témoins Tourangeaux (hommes et femmes) exercent 69 professions différentes et appartiennent à toutes les tranches dâge. Le choix des locuteurs enregistrés s'est fait de façon aléatoire.
Lensemble du corpus représente près de 120 heures denregistrements, dont à peu près 103 heures sont disponibles au Département de Linguistique de la K.U.Leuven. Le corpus comporte 193 entretiens face à face sur 13 thèmes différents à partir dun questionnaire "tronc commun". Les questions se rapportaient au vécu des témoins et auraient très bien pu susciter des réponses spontanées. La situation de communication est cependant restée très formelle, les témoins ayant toujours eu le souci de bien structurer leurs réponses. Une dizaine d'entretiens face à face ont été transcrits, ce qui représente près de 4 heures de transcriptions graphiques (± 36 000 mots).
Un catalogue détaillé fournit un aperçu par thème de tous les entretiens et toute information nécessaire concernant les témoins et les enregistrements. Un deuxième catalogue donne un résumé succinct de chaque interview.
Le corpus dAuvergne a été réalisé par une trentaine denseignants britanniques chargés de la formation linguistique et pédagogique de futurs professeurs de français, qui participaient à un stage de recyclage de lI.F.R.U. à Clermont-Ferrand (septembre 1976). Ce stage avait pour but de faire redécouvrir la société française contemporaine et la diversité du français parlé. Les témoins, des Auvergnats de Clermont-Ferrand et de ses environs, ont été choisis de façon intuitive.
Représentant à peu près 52 heures denregistrements, Voix dAuvergne est le corpus le moins développé. Environ 38 heures sont à la disposition des chercheurs. La partie transcrite représente plus de 17 heures de transcriptions graphiques (± 177 000 mots). Un seul extrait a été transcrit phonétiquement. Les rencontres ont eu lieu dans deux types de situations :
Un catalogue bien documenté comprenant quatre grandes parties est disponible. La première partie du catalogue fournit des informations sur les tables rondes. La deuxième partie donne un aperçu thématique des entretiens face à face. La troisième partie consiste en une transcription graphique de 68 textes courts (1h 40). La dernière partie, enfin, contient quelques suggestions dutilisation des textes.
2. Les objectifs
Au départ, le projet ELILAP avait les mêmes objectifs que ceux qui, à l'époque, avaient incité les différents responsables à réaliser les enregistrements :
Au cours du projet ELILAP, lobject linguistique est progressivement devenu de loin le plus important.
04/01/01