LCI                                              Université de Lyon

bandes bleues

Jean Beney




Lexique français pour l'analyse automatique


Avertissement

La liste des formes des mots du français a été constituée principalement suivant l'algorithme utilisé par l'association GUTenberg (pour le programme ispell ou mieux hunspell) et pour OpenOffice. Cet algorithme a été modifié pour ajouter automatiquement les traits des verbes en fonction des terminaisons (voir ci-dessous les données utilisées par ce programme).
Il a été complété par quelques mots apparus dans les documents qui ont servis d'exemples, mais surtout par des listes de mots composés glanées ça et là sur le web. Le lexique a été comparé à celui diffusé par l'Association des Bibliophiles Universels (http://abu.cnam.fr/DICO), ce qui a permis de corriger quelques erreurs ; de même avec le lexique Morphalmou (http://www.cnrtl.fr/lexiques/morphalou/).


Mises à jour

11/2/15

Quelques 300 verbes ont été vérifiés et leurs formes refabriquées automatiquement.

Les participes passés ont été mis dans un fichier à part. Ils ont maintenant 2 lemmes : l'infinitif utilisé quand il s'agit d'un verbe conjugué ; le masculin singulier pour les cas où ils sont utilisés comme adjectifs.

Un fichier donne une liste de verbes qui se conjuguent avec l'auxiliaire être.
18/1/14

Depuis la diffusion de la version précédente, de nombreuses erreurs ont été corrigées. Des fréquences approximatives ont été mises pour des mots dont l'ambiguïté posait problème.

La grammaire utilise maintenant des informations de sous-catégorisation des verbes pour lever les ambiguïtés. Ces informations ont été extraites de celles fournies par ALEXINA/LEFFF. Les affixes utilisés sont en général les mêmes que dans LEFFF.
Il est prévu d'utiliser bientôt d'autres propriétés.

22/12/06 :
Entre autres sources qui nous ont permis de compléter ce lexique, citons la liste de mots composés collectés pour la campagne EASY.

10/3/07 :
L'extension du fichier des affixes pour engendrer les formes de la plupart des verbes avec leurs traits morphologiques est bien avancée. Nous obtenons ainsi 84 600 formes (vgut.dat) qui étaient absentes du lexique de l'ABU. Les fichiers qui ont permis de les fabriquer sont joints. Ils sont limités aux formes verbales et à leurs affixes.
Le croisement de ce lexique fabriqué et de celui existant a permis de trouver de nombreuses erreurs. Les formes enlevées ont été mises en commentaire dans le fichier verb.dat.

6/9/07 :
Les expressions prépositionnelles qui se terminent par de ont été mises dans une catégorie prepde ce qui permet d'engendrer les formes correspondantes en d', du, des. De même les expressions conjonctionnelles en que (ConSubque) pour engendrer les formes en qu'.

26/10/07
De nouveaux ajouts ont été faits à partir de GUT/OOo, principalement des formes féminines de noms et d'adjectifs qui manquaient.

17/04/08
Quelques autres formes de mots ont été ajoutées.

16/02/09
Un paramètre lemme a été ajouté a certains verbes. Les autres verbes et autres mots seront progressivement enrichis de la même manière.

10/03/09
Le lemme a été ajouté à la plupart des noms et adjectifs.

3/2/10
D'autres lemmes ont été ajoutés, notamment pour les mots techniques utilisés lors de l'analyse de brevets.
À ce propos, de nombreuses formes ont été  ajoutées, qui apparaissent dans des brevets et qui manquaient. Ce ne sont pas que des mots techniques.
Remarquez que noms.dat, verbes.dat et adjs.dat contiennt les formes qui n'ont pas vraiment été vérifiées.

20/10/10
Peu d'ajout depuis la dernière fois, mais un début de classement pour faciliter la recherche.

1/2/11
Les fichiers Noms.dat et Adjs.dat ont été vérifiés en recherchant les mots qui n'avaient pas de pluriel ou de singulier (ou de féminin ou de masculin pour les adjectifs) et en consultant les dictionnaires pour décider si cela est normal.


Listes des fichiers

Les formes de mots ont été séparées en plusieurs fichiers pour des raisons pratiques.
Ces fichiers sont en UTF-8. Il se peut qu'ils soit mal affichés, mais, si vous les engregistrez, ils seront corrects.
Comme leur suffixe est .dat, il se peut, sous Windows, que votre navigateur refuse de les ouvrir car il les considère comme des fichiers du système. Enregistrez-les et regardez-les avec lun éditeur de texte.

Nlem.dat
noms.dat
les noms communs
et d'autres non vérifiés
Vlem.dat
verbes.dat
Ppas.dat
les verbes
et ceux qui n'ont pas encore leur lemme
adjs.dat
les adjectifs
advs.dat
les vrais adverbes
pro.dat les divers pronoms et assimilés :
les mots-phrases et les négations
det.dat les divers déterminants

cons.dat les conjonctions et prépositions


Informations de sous-catégorisation :
vsub.fct
verbeetre.fct
quelques propriétés des verbes.
verbes se conjugant avec être.

Abréviations utilisées

types de mots (parties du discours)

Nom(GENRE, NOMBRE)
Nom(GENRE, NOMBRE, TEXT)
 Nom
 Nom avec son lemme (singulier)
Verb(TEMPS, NOMBRE, PERSONNE)
Verb(TEMPS, NOMBRE, PERSONNE, TEXT)
Verb(TEMPS)
Verb(TEMPS, TEXT)
Vppas(GENRE, NOMBRE)
 Verbe
 Verbe avec son lemme (infinitif)
    infinitif ou participe présent
       idem avec le lemme
 Participe passé accordé
Adj(GENRE, NOMBRE)
Adj(GENRE, NOMBRE, TEXT)
 Adjectif
 Adjectif avec son lemme (masculin, singulier)
Adv
Adv(Text)
 Adverbe
 Expression adverbiale avec une forme standard
Pronoms

CliSuj(GENRE, NOMBRE, PERSONNE)
CliCom(GENRE, NOMBRE)
SubPer(GENRE, NOMBRE, PERSONNE)
ProInd(GENRE, NOMBRE)
ProRef(GENRE, NOMBRE, PERSONNE)
 Pronom clitique sujet
 Pronom clitique complement
 Substantif personnel
 Pronom indéfini
 Pronom réflexif
ProPos(GENRE, NOMBRE)
ProDem(GENRE, NOMBRE)
ProRel(GENRE, NOMBRE)
ProInt
 Pronom possessif
 Pronom démonstratif
 Pronom relatif
 Pronom nterrogatif
Déterminants

ArtDef(GENRE, NOMBRE)
ArtInd (GENRE, NOMBRE)
ArtPar(GENRE, NOMBRE)
 Article défini
 Article indéfini
 Article partitif
DetPos(GENRE, NOMBRE)
DetDem(GENRE, NOMBRE)
DetInd(GENRE, NOMBRE)
DetIndde(GENRE, NOMBRE)
 Possessif
 Démonstratitf
 Déterminant indéterminé
 Déterminant indéterminé suivi de "de" ou "d'"
DetNeg(GENRE, NOMBRE)
DetInt(GENRE, NOMBRE)
Coll(GENRE)
Numeral
 Déterminant négatif
 Déterminant interrogatif
 Déterminant collectif
 Nom de nombre
connecteurs

ConCoo
 Conjonction de coordination
ConSub
ConSubque
 Conjonction de subordination
 Conjonction de subordination finissant en que
Prep
Prepde
Prepa
 Préposition
 Préposition se terminant en de
 Préposition se terminant en a
Negation
 Négation
MotPhrase
 Mot-phrase

affixes

GENRE :: mas | fem.

NOMBRE :: sing | plur.

PERSONNE :: un | deux | trois.

TEMPS :: ipre | ipsim | iimp | ifut |
         spre | simp | cpre | impre |
          inf | ppas | ppre .
 indicatif
 subjonctif, conditionnel, imperatif
 infinitif, participes
         spre | simp | cpre |
 subjonctif, conditionnel
         inf | ppas | ppre .
 infinitif, participes
POSIT :: avant | apres | attribut.
 position privilégiée ou obligatoire pour certains adjectifs
REDIS :: actif | passif.  sous-catégorisation des verbes (redistribution)
COMPL :: de-sn | COMPLMDE .
COMPLMDE :: aucun | sn | avec-sn |
        pour-sn | LOCSN | COMPLINF .
COMPLINF :: sinf | a-sinf | de-sinf |
        par-sinf | pour-sinf .
LOCSN :: a-sn | par-sn | en-sn |
        contre-sn | sur-sn | sous-sn |
        devant-sn | apres-sn | dans-sn |
        vers-sn | comme-sn .
 sous-catégorisation :
        compléments préférentiels des verbes