|
Jean Beney
Lexique français pour l'analyse automatique
Avertissement
La liste des formes des mots du français a été
constituée principalement suivant l'algorithme utilisé
par l'association GUTenberg
(pour le programme
ispell ou mieux hunspell) et pour
OpenOffice. Cet algorithme a été modifié pour
ajouter automatiquement les traits des verbes en fonction des
terminaisons (voir ci-dessous les données utilisées par
ce programme).
Il a été complété par quelques mots apparus
dans les documents qui ont servis d'exemples, mais surtout par des
listes
de mots composés glanées ça et là sur le
web. Le lexique a été comparé à
celui diffusé par l'Association des
Bibliophiles Universels (http://abu.cnam.fr/DICO), ce qui a permis de
corriger
quelques erreurs ; de même avec le lexique Morphalmou
(http://www.cnrtl.fr/lexiques/morphalou/).
Mises à jour11/2/15
Quelques 300 verbes ont été vérifiés et leurs formes refabriquées automatiquement.
Les
participes passés ont été mis dans un fichier à part. Ils ont
maintenant 2 lemmes : l'infinitif utilisé quand il s'agit d'un verbe
conjugué ; le masculin singulier pour les cas où ils sont utilisés
comme adjectifs.
Un fichier donne une liste de verbes qui se conjuguent avec l'auxiliaire être. 18/1/14
Depuis la diffusion de la version précédente, de nombreuses erreurs ont été corrigées. Des fréquences approximatives ont été mises pour des mots dont l'ambiguïté posait problème.
La
grammaire utilise maintenant des informations de sous-catégorisation
des verbes pour lever les ambiguïtés. Ces informations ont été
extraites de celles fournies par ALEXINA/LEFFF. Les affixes utilisés sont en général les mêmes que dans LEFFF. Il est prévu d'utiliser bientôt d'autres propriétés.
22/12/06 :
Entre autres sources qui nous ont permis de compléter ce
lexique, citons la liste de mots composés collectés pour
la campagne EASY.
10/3/07 :
L'extension du fichier des affixes pour engendrer les formes de la
plupart des verbes avec leurs traits morphologiques est bien
avancée. Nous obtenons ainsi 84 600 formes (vgut.dat) qui
étaient absentes du lexique de l'ABU. Les fichiers qui ont
permis de les fabriquer sont joints. Ils sont limités aux formes
verbales et à leurs affixes.
Le croisement de ce lexique fabriqué et de celui existant a
permis de trouver de nombreuses erreurs. Les formes enlevées ont
été mises en commentaire dans le fichier verb.dat.
6/9/07 :
Les expressions prépositionnelles qui se terminent par de ont été mises dans
une catégorie prepde
ce qui permet d'engendrer les formes correspondantes en d', du, des. De même les
expressions conjonctionnelles en que
(ConSubque) pour engendrer les
formes en qu'.
26/10/07
De nouveaux ajouts ont été faits à partir de
GUT/OOo, principalement des formes féminines de noms et
d'adjectifs qui manquaient.
17/04/08
Quelques autres formes de mots ont été ajoutées.
16/02/09
Un paramètre lemme a
été ajouté a certains verbes. Les autres verbes et
autres mots seront progressivement enrichis de la même
manière.
10/03/09
Le lemme a été ajouté à la plupart des noms
et adjectifs.
3/2/10
D'autres lemmes ont été ajoutés, notamment pour
les mots techniques utilisés lors de l'analyse de brevets.
À ce propos, de nombreuses formes ont été
ajoutées, qui apparaissent dans des brevets et qui manquaient.
Ce ne sont pas que des mots techniques.
Remarquez que noms.dat, verbes.dat et adjs.dat contiennt les formes qui
n'ont pas vraiment été vérifiées.
20/10/10
Peu d'ajout depuis la dernière fois, mais un début de
classement pour faciliter la recherche.
1/2/11 Les
fichiers Noms.dat et Adjs.dat ont été vérifiés en recherchant les mots
qui n'avaient pas de pluriel ou de singulier (ou de féminin ou de
masculin pour les adjectifs) et en consultant les dictionnaires pour
décider si cela est normal.
Listes des fichiers
Les formes de mots ont été séparées en
plusieurs fichiers pour des raisons pratiques. Ces fichiers sont en UTF-8. Il se peut qu'ils soit mal affichés, mais, si vous les engregistrez, ils seront corrects. Comme
leur suffixe est .dat, il se peut, sous Windows, que votre navigateur
refuse de les ouvrir car il les considère comme des fichiers du
système. Enregistrez-les et regardez-les avec lun éditeur de texte.
Informations de sous-catégorisation :
Abréviations utilisées
types de mots (parties du discours)
Nom(GENRE,
NOMBRE)
Nom(GENRE,
NOMBRE, TEXT) |
Nom
Nom avec son
lemme (singulier) |
Verb(TEMPS,
NOMBRE,
PERSONNE)
Verb(TEMPS, NOMBRE,
PERSONNE, TEXT)
Verb(TEMPS)
Verb(TEMPS, TEXT)
Vppas(GENRE, NOMBRE) |
Verbe
Verbe avec son
lemme (infinitif)
infinitif ou participe présent
idem avec le lemme
Participe
passé accordé |
Adj(GENRE,
NOMBRE)
Adj(GENRE, NOMBRE,
TEXT) |
Adjectif
Adjectif avec
son
lemme (masculin, singulier) |
Adv
Adv(Text)
|
Adverbe
Expression adverbiale avec une forme standard
|
Pronoms
|
|
CliSuj(GENRE,
NOMBRE, PERSONNE)
CliCom(GENRE,
NOMBRE)
SubPer(GENRE,
NOMBRE, PERSONNE)
ProInd(GENRE,
NOMBRE)
ProRef(GENRE,
NOMBRE, PERSONNE)
|
Pronom
clitique sujet
Pronom
clitique complement
Substantif
personnel
Pronom
indéfini
Pronom
réflexif
|
ProPos(GENRE,
NOMBRE)
ProDem(GENRE,
NOMBRE)
ProRel(GENRE,
NOMBRE)
ProInt
|
Pronom
possessif
Pronom
démonstratif
Pronom relatif
Pronom
nterrogatif |
Déterminants
|
|
ArtDef(GENRE,
NOMBRE)
ArtInd
(GENRE,
NOMBRE)
ArtPar(GENRE,
NOMBRE)
|
Article
défini
Article
indéfini
Article
partitif |
DetPos(GENRE,
NOMBRE)
DetDem(GENRE,
NOMBRE)
DetInd(GENRE,
NOMBRE)
DetIndde(GENRE,
NOMBRE) |
Possessif
Démonstratitf
Déterminant
indéterminé
Déterminant
indéterminé suivi de "de" ou "d'" |
DetNeg(GENRE,
NOMBRE)
DetInt(GENRE,
NOMBRE)
Coll(GENRE)
Numeral
|
Déterminant
négatif
Déterminant
interrogatif
Déterminant
collectif
Nom de nombre |
connecteurs
|
|
ConCoo
|
Conjonction de
coordination
|
ConSub
ConSubque
|
Conjonction de
subordination
Conjonction de
subordination finissant en que
|
Prep
Prepde
Prepa
|
Préposition
Préposition se terminant en de
Préposition se terminant en a
|
Negation
|
Négation
|
MotPhrase
|
Mot-phrase
|
affixes
GENRE ::
mas | fem.
|
|
NOMBRE :: sing |
plur.
|
|
PERSONNE :: un |
deux | trois.
|
|
TEMPS :: ipre |
ipsim | iimp | ifut |
spre | simp | cpre | impre |
inf | ppas | ppre .
|
indicatif
subjonctif,
conditionnel, imperatif
infinitif,
participes |
spre | simp | cpre |
|
subjonctif,
conditionnel
|
inf | ppas | ppre .
|
infinitif,
participes
|
POSIT :: avant |
apres | attribut.
|
position
privilégiée ou obligatoire pour certains adjectifs
|
REDIS :: actif | passif. | sous-catégorisation des verbes (redistribution) | COMPL :: de-sn | COMPLMDE . COMPLMDE :: aucun | sn | avec-sn | pour-sn | LOCSN | COMPLINF . COMPLINF :: sinf | a-sinf | de-sinf | par-sinf | pour-sinf . LOCSN :: a-sn | par-sn | en-sn | contre-sn | sur-sn | sous-sn | devant-sn | apres-sn | dans-sn | vers-sn | comme-sn .
| sous-catégorisation : compléments préférentiels des verbes |
|
|