Le projet ELILAP
Etude LInguistique de la LAngue Parlée


Une première entreprise de constitution de corpus de français parlé remonte à la fin des années 60. Entre 1968 et 1971, des sociolinguistes et des professeurs de français britanniques ont mis au point une banque de données importante, connue sous le nom d'Etude sociolinguistique sur Orléans. Par la suite, d'autres enregistrements ont été effectués dans deux autres villes françaises : Le livre parlé de Tours (1974) et Voix d’Auvergne (1976).

Dans le cadre d'un projet de recherche mené de 1980 à 1983 (Le français parlé. Banque de données automatisée; analyse linguistique fondamentale et applications, sous la direction de Josse De Kock, Mark Debrock, Nicole Delbecque et Ellen Bas), le Département de Linguistique de la K.U.Leuven a reçu la gestion de l'ensemble de ces enregistrements, soit près de 500 heures. Ce premier projet est connu sous le sigle ELILAP (Etude LInguistique de la LAngue Parlée). Les responsables du projet ont voulu rendre accessibles les données sous forme informatisée. Plusieurs parties des trois corpus ont été transcrites et sont actuellement disponibles sous forme de transcriptions graphiques (± 100 heures) et phonétiques (± 12 heures) automatisées. L’ensemble des corpus compte actuellement plus d’un million de mots et peut être considéré comme constituant un échantillon représentatif de la langue parlée.

 

1. Les corpus ELILAP

Les corpus réunis dans le cadre du projet ELILAP ont été enregistrés sur bande magnétique et comprennent des échantillons de français parlé authentique et spontané de locuteurs sociologiquement très variés dans des situations de communication diverses :

1.1. Etude Sociolinguistique sur Orléans (E.S.L.O.)

Les enquêtes de l’E.S.L.O ont été menées entre 1968 et 1971 par une quinzaine de professeurs de français de l’University of Essex, Language Centre, Colchester (Royaume-Uni), en collaboration avec des membres du B.E.L.C. (Bureau pour l’Etude de l’enseignement de la Langue et de la Civilisation françaises de Paris). Les informateurs appartiennent tous à la société urbaine d’Orléans et ont été choisis de façon aléatoire d’après la liste de l’I.N.S.E.E. (Institut National de Statistique et d’Etudes Economiques) du recensement de 1968, ce qui assure la représentativité du corpus.

Comportant environ 315 heures d’enregistrements (± 4 500 000 mots), le corpus d’Orléans est le plus étendu des trois corpus. Les enregistrements peuvent être divisés en sept catégories générales en fonction de la situation de communication. La plupart des témoignages (cf. les catégories 1, 4, 5, 7) reflètent une situation de communication formelle et sont donc bien structurées. Au sein de ces témoignages, il y a cependant plusieurs degrés de spontanéité en fonction de la familiarité du locuteur avec le sujet de la conversation. Au fur et à mesure que le témoin oublie la présence de l’enquêteur, le discours est de moins en moins structuré et devient plus informel. Les catégories 2 et 6 comprennent des témoignages beaucoup plus spontanés, rassemblés dans un cadre très peu structuré. Souvent les témoins n’étaient même pas au courant de l’enregistrement.

Un catalogue exhaustif fournit une description complète de chaque informateur et de chaque enregistrement. Dans ce qui suit, nous regroupons, pour chaque catégorie, les enregistrements qui ont été transcrits. Actuellement, nous disposons d’environ 80 heures de transcriptions graphiques (± 903 000 mots) et de près de 11 heures de transcriptions phonétiques. Pour plus de détails sur la façon de transcrire et sur les transcriptions disponibles, voir La transcription.

  1. 157 entretiens face à face à partir de questionnaires standardisés (± 182h 30’).
  2. 79 enregistrements dans des situations sociales ou professionnelles "informelles", réalisés à l’insu des témoins (± 27h). Le but était de comparer des enregistrements effectués en situation d’interview (cf. 1) et d’autres effectués dans un cadre informel (cf. 2).
  3. 51 communications téléphoniques (± 2h 10’).
  4. 46 interviews  "sur mesure" avec des personnalités (± 47h).
  5. 29 conférences-débats ou discussions avec plusieurs participants fournissant des exemples de parole publique (± 32h).
  6. 84 enregistrements divers avec des témoins anonymes fournissant des exemples d’une parole publique différente, celle du marchand ou de la serveuse (± 14h 30’).
  7. 41 entretiens au Centre Médico-Psychopédagogique entre des parents d’élèves et une assistante sociale qui était au courant des enregistrements (± 10h).

 

1.2. Le Livre Parlé de Tours

Le corpus de Tours a été constitué par 21 professeurs de français britanniques du College of Education de Londres, qui avaient participé à un stage de recyclage de l’Institut Français du Royaume-Uni (I.F.R.U., Londres) à Tours (1-15 septembre 1974). Les 193 témoins Tourangeaux (hommes et femmes) exercent 69 professions différentes et appartiennent à toutes les tranches d’âge. Le choix des locuteurs enregistrés s'est fait de façon aléatoire.

L’ensemble du corpus représente près de 120 heures d’enregistrements, dont à peu près 103 heures sont disponibles au Département de Linguistique de la K.U.Leuven. Le corpus comporte 193 entretiens face à face sur 13 thèmes différents à partir d’un questionnaire "tronc commun". Les questions se rapportaient au vécu des témoins et auraient très bien pu susciter des réponses spontanées. La situation de communication est cependant restée très formelle, les témoins ayant toujours eu le souci de bien structurer leurs réponses. Une dizaine d'entretiens face à face ont été transcrits, ce qui représente près de 4 heures de  transcriptions graphiques (± 36 000 mots).

Un catalogue détaillé fournit un aperçu par thème de tous les entretiens et toute information nécessaire concernant les témoins et les enregistrements. Un deuxième catalogue donne un résumé succinct de chaque interview.

 

1.3. Voix d’Auvergne

Le corpus d’Auvergne a été réalisé par une trentaine d’enseignants britanniques chargés de la formation linguistique et pédagogique de futurs professeurs de français, qui participaient à un stage de recyclage de l’I.F.R.U. à Clermont-Ferrand (septembre 1976). Ce stage avait pour but de faire redécouvrir la société française contemporaine et la diversité du français parlé. Les témoins, des Auvergnats de Clermont-Ferrand et de ses environs, ont été choisis de façon intuitive.

Représentant à peu près 52 heures d’enregistrements, Voix d’Auvergne est le corpus le moins développé. Environ 38 heures sont à la disposition des chercheurs. La partie transcrite représente plus de 17 heures de transcriptions graphiques (± 177 000 mots). Un seul extrait a été transcrit phonétiquement. Les rencontres ont eu lieu dans deux types de situations :

  1. 11 tables rondes (± 14h 30’), reflétant une situation de communication très formelle, où le discours est bien structuré. Il s’agit dans la plupart des cas d’une langue de spécialité.
  2. 120 entretiens face à face (± 36h 15’) se déroulant dans un contexte fortement structuré où l’élément spontané ne s’introduit que progressivement.

Un catalogue bien documenté comprenant quatre grandes parties est disponible. La première partie du catalogue fournit des informations sur les tables rondes. La deuxième partie donne un aperçu thématique des entretiens face à face. La troisième partie consiste en une transcription graphique de 68 textes courts (1h 40’). La dernière partie, enfin, contient quelques suggestions d’utilisation des textes.

 

2. Les objectifs

Au départ, le projet ELILAP avait les mêmes objectifs que ceux qui, à l'époque, avaient incité les différents responsables à réaliser les enregistrements :

Au cours du projet ELILAP, l’object linguistique est progressivement devenu de loin le plus important.

 

04/01/01