La consultation des corpus
1. Les corpus ELILAP et LANCOM sur Internet
Les corpus ELILAP et LANCOM peuvent être consultés par le réseau Internet à ladresse suivante : http://bach.arts.kuleuven.ac.be/elicop/. Les premières rubriques sur la page d'accueil fournissent des informations sur plusieurs aspects du corpus. Le site internet sera mis à jour régulièrement. Pour toute information supplémentaire, contacter les responsables du projet. Les dernières rubriques offrent des possibilités de recherches dans les corpus. A partir du premier janvier 2001, l'accès aux corpus est libre.
2. Faire des recherches dans les corpus ELILAP et LANCOM
Récemment, un nouveau formulaire de recherche a été installée sur notre site internet. Pous les utilisateurs qui préfèrent continuer à travailler avec les anciens formulaires de recherche, nous maintenons également les 'Recherches KWIC' (Key-Word In Context).
2.1. Nouveau formulaire de recherche
Le nouveau formulaire de recherche permet d'entrer les données suivantes :
[On peut sélectionner soit le corpus dOrléans, soit le corpus de Tours, soit le corpus dAuvergne. Pour le corpus LANCOM, on a le choix entre le français des Français (FF), le français de Belgique (FB) et le français des néerlandophones (FN).]
Après avoir complété le formulaire, on clique sur "Envoi" et on obtient l'index des occurrences. Il suffit ensuite d'en sélectionner un item (en cliquant dessus) pour qu'il soit affiché à l'écran, et de cliquer sur l'item suivant pour passer au suivant.
Pour ce qui est de la forme à chercher, il peut s'agir d'une simple séquence de caractères. Le concordancier montre tous les passages où apparaît cette séquence. Ainsi la chaîne "ours" (les guillemets ne font pas partie de l'expression ; elles servent ici à délimiter l'expression) affichera les occurrences du mot "ours", mais aussi celles des mots "course", "boursière", "toujours", qui contiennent tous cette même séquence. Pour indiquer une frontière de mot, on se sert du code "\b". L'expression "\bours\b" ne donnera que les occurrences du mot "ours".
A la place de la séquence de caractères, on peut également préciser une expression régulière. Il s'agit d'une formule qui couvre plusieurs séquences de caractères; elle suppose une notation conventionnelle pour représenter la structure à laquelle répondent ces séquences. Une expression régulière permet, par exemple, de spécifier un ensemble de caractères pouvant apparaître à une même position dans la structure; cet ensemble sera énuméré entre crochets. Ainsi l'expression
"él[éèe]v"
permet de retrouver les occurrences de mots tels que "élève", "élever", "élévation".
Il est également possible d'indiquer deux ou plusieurs séquences alternatives. Ces alternatives sont séparées les unes des autres par un trait vertical et le tout est délimité à laide de parenthèses. Ainsi l'expression
"(ons|ez|ent)"
couvre les séquences "ons", "ez" et "ent", et l'expression
"[rst](ons|ez|ent)\b"
les mêmes séquences en finale de mot et précédées d'une consonne "r", "s" ou "t".
"er(ai[st]|ions|iez|aient)\b"
L'expression ci-dessus permet de retrouver des formes verbales au conditionnel. Les conventions de notation pour les expressions régulières sont expliquées sur le site.
Finalement on peut entrer, comme forme à chercher, telle ou telle étiquette employée pour l'annotation des corpus. Par exemple, l'expression "<MOR TYPE=VERB" permet d'obtenir la liste des erreurs de morphologie verbale dans le corpus LANCOM. Bien sûr cela suppose que ces informations soient présentes dans le corpus interrogé. La liste des étiquettes employées est en consultation sur le site.
Un exemple concret dune requête est donné ci-dessous. Dans lextrait, le texte, les annotations et loccurrence sidentifient aisément grâce à lemploi de trois couleurs différentes.


Les 'Recherches KWIC' permettent de chercher des chaînes de caractères ou des expressions régulières dans le texte du corpus. En d'autres mots, c'est le texte brut, dépouillé de toutes les étiquettes SGML, qui est offert. Dans ce qui suit, sont énumérées les différentes étapes qu'il faut parcourir pour effectuer une requête :
1) Cliquez sur 'Recherches KWIC'.
2) Dans le champ Mot ou expression, introduisez le(s) élément(s) à chercher :
Þ voir 'Exemples'
Dans ce champ, lutilisateur introduit la chaîne de caractères ou lexpression régulière qui indique de façon univoque la forme cherchée. Les blancs permettent dindiquer une frontière de mot, dans la mesure où un mot sera le plus souvent précédé ou suivi dun blanc. Il est possible de mentionner explicitement dans lexpression, les signes de ponctuation (par exemple "marchait[,;.!?-]").
3) Déterminez la 'largeur du contexte' : le nombre de lignes du corpus affichées dans la concordance peut varier de 1 à 30.
[La valeur par défaut, proposée par notre programme de recherche, est de visualiser 3 lignes de contexte.]
4) Déterminez le 'nombre maximal de réponses' souhaitées : le nombre de réponses peut s'élever à 500.
[La valeur par défaut est de fournir 50 réponses.]
5) Choisissez le(s) 'corpus' dans le(s)quel(s) vous voulez effectuer une requête :
| ELILAP : | LANCOM : |
|
|
|
|
|
|
On peut sélectionner soit le corpus d'Orléans, soit le corpus de Tours, soit le corpus d'Auvergne ou même tous les trois pour les corpus ELILAP. Pour le corpus LANCOM, on a le choix entre le français des Français, le français de Belgique et le français des néerlandophones.
[La valeur par défaut est de chercher uniquement dans les corpus produits par les francophones.]
6) Cliquez sur 'Envoi'.
Dans les résultats, les différentes occurrences de l'élément cherché sont affichées en rouge. Si l'on maintient la configuration de départ, 3 lignes de contexte sont visualisées et au maximum 50 réponses sont fournies. Les exemples sont numérotés en bleu. La source des exemples est également mentionnée. S'il y a plusieurs exemples dans un même extrait, la référence n'est pas reprise à chaque fois. Les frontières des interventions (c'est-à-dire les balises <sp>) sont indiquées en vert. Les locuteurs sont identifiés et les interventions sont numérotées.
Exemple
Recherche du mot "mais"
A titre dexemple, nous avons cherché le mot mais dans le corpus dOrléans. Nous avons limité le nombre de réponses à 10 et nous avons CHoisi de visualiser 3 lignes de contexte.
Nous reproduisons ici les résultats de la requête. Pour des raisons typographiques, les occurrences du mot mais sont soulignées (ce qui correspond à la couleur 'rouge' dans l'application réelle) et lidentification de lintervention est donnée en italiques (ce qui correspond à la couleur 'vert' dans l'application réelle). Tous les 10 exemples proviennent du même extrait.
File=orleans/gra010.txt
[1] alors au soixante-six et au soixante-quatre de cette rue-ci à gauche il y a [ il y a ] une grande bâtisse qui est divisée en deux maintenant mais enfin c' était un ancien château je peux pas vous je ne pourrais pas vous dire le nom de ce château <sp who="A01" nr=11> oui oui[2] <sp who="A01" nr=11> oui oui <sp who="JI" nr=12> mais enfin c' était un château parce que ici avant enfin i y a [ il y a ] des années des années autour de dix -huit cent et des poussières euh ce n' était que des vignes des pâturages et des arbres
[3] <sp who="JI" nr=48> les ACACIAS oui parce que vous avez une place un peu plus haut euh qui a été un peu chamboulée du fait de du bombardement mais enfin qui est toujours plantée d euh d' acacias et qui reste la place des acacias
[4] <sp who="JI" nr=82> je vous ai pas dit apprentie <sp who="A01" nr=83> au départ non il me semble que vous aviez employé un autre mot non mais je me suis peut -êt-re trompé non non
[5] <sp who="JI" nr=92> euh oui ces exa euh ces euh cet apprentissage euh se fait chez la couturière c' est -à-dire que maintenant euh jusqu' à présent il se faisait uniquement chez la couturière mais depuis cette année il y a [ il y a ] une nou un nouveau mode <sp who="A01" nr=93> oui
[6] <sp who="JI" nr=96> oui et alors euh au bout de trois ans d' apprentissage c' est -à-dire que je crois que maintenant du reste on va accélérer un petit peu cet apprentissage mais avant au bout de trois ans vous aviez le CAP et puis alors maint après euh maintenant vous avez le le brevet
[7] <sp who="A01" nr=121> dans le bon sens du mot <sp who="JI" nr=122> euh pas enfin je peux pas me donner ce ce cette qualification-là mais enfin euh les gens qui connaissent mon travail et qui me voient travailler euh j' ai vraiment fait des choses sensationnelles hein
[8] <sp who="JI" nr=142> euh je vous dis je je suis obligée de repartir un peu loin parce que là à l' heure actuelle je travaille toute seule j' avais un atelier mais <sp who="A01" nr=143> ah oui
[9] <sp who="JI" nr=150> en principe la patronne coupe et essaie euh certaines couturières coupent et essaient en dehors de de le de l' apprentie ouvrière mais enfin moi j' ai toujours trouvé qu' il était nécessaire euh à l' apprentie de collaborer directement avec elle c' est -à-dire de couper et d' échanger des idées avec elle pour euh telle et telle façon voir
[10] <sp who="A01" nr=163> oui <sp who="JI" nr=164> c' est catastrophique mais c' est comme ça oui aujourd'hui i y a [ il y a ] une chose qui compte voyez ici dans les ACACIAS les femmes ne s' habillent pas du tout du tout du tout les femmes ne sont pas coquettes elles sont en pantalon toute la journée il y a [ il y a ] une chose
Limite d'occurrences atteinte. Arrêt.
Fin des résultats