Les vedettes du Dictionnaire Électronique des Synonymes et les relations d’adjacence entre leurs synonymes

Chardon, Laurette; François, Jacques

doi:10.54563/lexique.787

Citer cet article

Fac-similé [PDF, 2,1M]

Les vedettes du Dictionnaire Électronique des Synonymes et les relations d’adjacence entre leurs synonymes

Laurette Chardon et Jacques François

DOI : 10.54563/lexique.787

p. 21-46

The Dictionnaire Électronique des Synonymes of CRISCO (DES, Université de Caen-Normandie) has acquired an undisputed reputation over the last twenty years. The synonymic links that originally originated from 7 source dictionaries have been progressively completed by tens of thousands of proposals from Internet users, whose relevance has been tested and validated by the successive engineers and webmasters of the DES. The present study deals with the utilization of the adjacency graph between all registered synonyms, their distribution into two or more sets of interconnected synonyms, and especially the question of the numerous isolated synonymic links whose integration into an interrelated component is being tested using an original method of exploiting second-order synonymic links. This method, which delivers a high integration rate (between 70% and 80%, irreducible links being removed), will allow an appreciable cleaning of the synonymic network of the DES.

Le Dictionnaire Électronique des synonymes du CRISCO (DES, Université de Caen-Normandie) a acquis depuis une vingtaine d'années une renommée incontestée. Les liens synonymiques issus à l’origine de sept dictionnaires sources ont été progressivement complétés par des dizaines de milliers de propositions d’internautes dont la pertinence a été testée et validée par les ingénieurs et webmestres successifs du DES. La présente étude porte sur l’exploitation du graphe d'adjacence entre tous les synonymes enregistrés, et leur distribution en deux ou plusieurs composantes connexes et en priorité sur la question des nombreux liens synonymiques isolés dont nous testons l’intégration dans une composante connexe à l'aide d’une méthode originale d'exploitation des liens synonymiques du second ordre. Cette méthode, qui délivre un taux d’intégration élevé (entre 70 % et 80 %, les liens irréductibles étant supprimés), permettra un nettoyage appréciable du réseau synonymique du DES.

Index

Mots-clés

lexicographie électronique, lexique français, synonymie du second ordre, dictionnaire, graphe d’adjacence

Keywords

French language, electronic lexicography, second-order synonymy, dictionary, adjacency graph

Plan

Notes de la rédaction

Received: April 2020 / Accepted: July 2020
Published on line: December 2020

Texte

1. Liens synonymiques, cliques de ⌜synonymes⌝ et composantes connexes

Le Dictionnaire Électronique des synonymes (désormais : DES) du CRISCO, conçu par Bernard Victorri et Sabine Ploux durant la dernière décennie du 20^ème siècle1 et dont la visualisation des espaces sémantiques est disponible depuis le début du 21^ème siècle (cf. entre autres2 Manguin, 2004, 2005 ; François, 2007) sur le site du CRISCO, est fondée sur une hiérarchie de propriétés à trois niveaux : 1. les liens synonymiques3, réunis sous la forme d’un immense graphe d’adjacence entre synonymes et de dimension réduite dès lors que l’un de ces synonymes est sélectionné comme une vedette ; 2. le regroupement de ces liens en cliques de synonymes (sous-ensembles de synonymes d’une vedette tous synonymes entre eux) ; 3. le rassemblement supérieur de ces liens – compte tenu ou abstraction faite du niveau intermédiaire des cliques de synonymes – en composantes connexes4. L’historique de l’élaboration et de l’exploitation du DES est résumé sous la forme d’un diagramme chronologique (Tableau 1). L’INALF, sous la direction de Robert Martin, offre dans les années 1990 au laboratoire ELSAP, dirigé à l’époque par Catherine Fuchs, l’opportunité de tester l’exploitation informatique de la liste des renvois lexicographiques rassemblés pour l’élaboration du Trésor de la Langue Française. Cette liste est nettoyée (certains renvois n’étant pas de nature synonymique) et complétée par Jean-Luc Manguin, Michel Morel et Laurette Chardon, administrateurs successifs du DES au CRISCO. Au fil du temps, nombre d’internautes deviennent de véritables collaborateurs du projet en participant régulièrement à l’enrichissement des liens synonymiques. À partir de 1997, B. Victorri et S. Ploux élaborent VisuSyn, l’algorithme de représentation de l’espace sémantique d’une vedette par projection des cliques de synonymes sur un jeu de plans (visualisation 2D). Et au tournant du 21^ème siècle, J.-L. Manguin met en place une méthode de transformation de liens secondaires en liens primaires quand cela paraît indispensable5. En 2019, L. Chardon perfectionne l’éventail des représentations de l’espace sémantique d’une vedette en introduisant des visualisations 3D statiques ou dynamiques (avec un déroulement libre ou programmé)6. Et depuis 2020, une autre voie est en chantier, consistant à représenter les liens synonymiques réunis dans la matrice d’adjacence sous la forme d’un graphe d’adjacence doté de deux propriétés remarquables : (1) une représentation intégrale avec la vedette en son centre et une représentation réduite par occultation de la vedette, et (2) la possibilité d’occulter graduellement tous les synonymes ‘précaires’, c’est-à-dire connectés à un seul autre synonyme en dehors de la vedette. Parallèlement, une nouvelle méthode d’intégration des « liens probables » a été testée. Ces derniers développements font l’objet du présent article (voir les deux cellules grisées dans le Tableau 1).

Tableau 1. Élaboration primaire et évolution des outils du DES. 789 — Tableau 1. Élaboration primaire et évolution des outils du DES. 7 8 9

2. Le graphe d’adjacence des liens synonymiques d’une vedette

Nous allons commencer par préciser la notion de synonymie que nous utiliserons dans cet article. Comme le précisent Ploux et Victorri (1998 : 3), il existe deux types de synonymie : ‘pure’ et ’partielle’. La synonymie ‘pure’ étant considérée comme trop restrictive par les auteurs, c’est à leur définition de la synonymie ‘partielle’ que nous nous référerons ici, à savoir :

Deux unités lexicales sont en relation de synonymie si toute occurrence de l’une peut être remplacée par une occurrence de l’autre dans un certain nombre d’environnements sans modifier notablement le sens de l’énoncé dans lequel elle se trouve. [cf. note 7 pour une rectification nécessaire].

Nous nous proposons donc d’étudier le substantif campagne avec l’ensemble de ses ⌜synonymes⌝ « partiels » présents dans le DES. Le graphe d’adjacence de la vedette campagne10, dont le nombre de ⌜synonymes⌝ est relativement réduit (39), permettra d’apprécier l’intérêt de ce mode de représentation. Les 39 liens synonymiques (niveau 1) du substantif féminin campagne sont :

(1)	bataille, bled, brousse, cabale, cambrousse, château, champ, champs, chartreuse, cloche, combat, cottage, croisade, domaine, équipée, expédition, ferme, guerre, intervention, maison, moulin, nature, offensive, opération, parade, pays, paysage, pilonnage, plaine, propagande, propriété, prospection, publicité, région, saison, sillons, terre, villégiature, voyage

Ces liens synonymiques figurent explicitement dans le graphe d’adjacence avec la vedette en son centre (notée « campagne_39 » dans la Figure 1).

Figure 1. Graphe d’adjacence des liens synonymiques de campagne, y compris la vedette. — Figure 1. Graphe d’adjacence des liens synonymiques de *campagne*, y compris la vedette.

Ce graphe a des qualités esthétiques en raison de sa disposition radiale autour de la vedette, mais il n’est pas très facile à interpréter. On constate toutefois qu’aucun des ⌜synonymes⌝ de campagne ne partage plus de sept ⌜synonymes⌝ avec la vedette (cf. ‘opération 7’)11, ce qui indique que la polysémie de la vedette se déploie plus « en largeur » (ang. width first) qu’« en profondeur » (ang. depth first). Ensuite on note que dix ⌜synonymes⌝ (encadrés) sont liés à la seule vedette, à l’exception de tout autre ⌜synonyme⌝.

Dans les termes de l’économie d’entreprise, ces ⌜synonymes⌝ sont « sur un siège éjectable », car ils ne bénéficient d’aucune relation susceptible d’assurer leur maintien dans l’équipe. Effectivement, si l’on occulte la vedette (Fig. 2) ces ⌜synonymes⌝ qui étaient étiquetés ‘1’ dans la Figure 1, sont désormais étiquetés ‘0’ et figurent comme des satellites déconnectés du graphe d’adjacence. Cela revient à dire qu’ils n’en font partie qu’en raison de leur lien avec la vedette et n’appartiennent pas au réseau des ⌜synonymes⌝ interconnectés de celle-ci, ce sont désormais dix ⌜synonymes⌝ ‘isolés’. L’étiquetage de tous les ⌜synonymes⌝ restants est également réduit d’un point (ex. ‘opération 7’ dans la Figure 1 devient ‘opération 6’ dans la Figure 2).

Plus important, le graphe représenté en Figure 1 est connexe, alors qu’on est en présence, en Figure 2, de trois composantes connexes : celle qui figure dans la partie supérieure de la figure est constituée de douze ⌜synonymes⌝ et elle concerne la dimension ‘stratégique’ (militaire, électorale et publicitaire) d’une campagne, avec ‘opération 6’ comme ⌜synonyme⌝ le plus connecté. Celle qui figure dans la partie inférieure de la Figure 2, riche de quinze ⌜synonymes⌝, concerne la dimension ‘topographique’ de la campagne. Dans cette composante connexe, c’est ‘domaine 6’ qui est le plus connecté. Enfin une troisième composante connexe se limite à la paire champs-sillons (chacun des deux ⌜synonymes⌝ étant étiqueté ‘1’).

La représentation occultant la vedette (Fig. 2. page suivante) présente un intérêt majeur, celui de rendre lisible le statut de chaque ⌜synonyme⌝, car en dehors de la distinction entre ⌜synonymes⌝ isolés étiquetés ‘0’ et ⌜synonymes⌝ interconnectés (étiquetés de 2 à 7), chaque composante connexe comporte des ⌜synonymes⌝ précaires, « sur un siège éjectable », étiquetés ‘1’. Ce statut précaire est mis en évidence en passant du niveau de représentation N =0, qui tient compte de tous les ⌜synonymes⌝, au niveau N =1, caractérisé par la disparition, non seulement des ⌜synonymes⌝ isolés, mais aussi des ⌜synonymes⌝ précaires (Fig. 3. page suivante). L’opération de passage de N =0 à N =1 équivaut à un effeuillage du graphe12, consistant à écarter tout nœud étiqueté ‘1’ et l’arête qui y conduit.

Figure 2. Graphe d’adjacence dissocié des liens synonymiques de campagne, après occultation de la vedette. — Figure 2. Graphe d’adjacence dissocié des liens synonymiques de *campagne*, après occultation de la vedette.

Figure 3. Graphe d’adjacence des liens synonymiques de campagne avec occultation de la vedette, dissocié en deux composantes connexes après passage au niveau N =1. — Figure 3. Graphe d’adjacence des liens synonymiques de *campagne* avec occultation de la vedette, dissocié en deux composantes connexes après passage au niveau N =1.

Dans la composante stratégique (représentée désormais dans la partie inférieure), les quatre ⌜synonymes⌝ précaires de la Figure 2 ont disparu (équipée, intervention, publicité, voyage) et dans la composante topographique, la disparition a touché deux ⌜synonymes⌝ (chartreuse, plaine). En outre, la troisième composante, constituée de deux ⌜synonymes⌝ étiquetés ‘1’, a également disparu.

L’effectif de la composante ‘stratégique’ s’est réduit de 12 à 8 ⌜synonymes⌝ et celui de la composante ‘topographique’ de 15 à 13. Cette procédure est particulièrement utile, quand le nombre des ⌜synonymes⌝ est très élevé, car au niveau initial (N = 0), le graphe est pratiquement illisible. Ce n’est pas le cas pour la vedette campagne, mais la représentation au niveau suivant (N =1) concorde probablement mieux avec le réseau des liens synonymiques accessibles dans le lexique mental de la moyenne des locuteurs francophones natifs13, avec deux jeux de ⌜synonymes⌝ en rapport respectivement avec la topographie d’un espace ‘campagnard’ (en haut) et avec la stratégie d’une offensive militaire, électorale ou publicitaire (en bas).

3. Pourquoi et comment ventiler les liens synonymiques isolés

3.1. Le ‘pourquoi’ : Les liens synonymiques isolés et les conditions de leur intégration dans une composante connexe

Parmi les 50 031 vedettes du DES, 36 418, soit 72,8 % ont un espace sémantique comportant de 1 à 25 liens synonymiques isolés. Le Tableau 2 fournit leur répartition :

Nb syn N=0	Nb entrées	propor- tion	Nb syn N=0	Nb entrées	propor- tion	Nb syn N=0	Nb entrées	propor- tion
Nb syn N=0	Nb entrées	propor- tion	Nb syn N=0	Nb entrées	propor- tion	Nb syn N=0	Nb entrées	propor- tion
1	21452	58,90%	9	120	0,33%	17	8	0,022%
2	7777	21,35%	10	79	0,22%	18	3	0,008%
3	3256	8,94%	11	63	0,17%	19	6	0,016%
4	1577	4,33%	12	40	0,11%	20	5	0,014%
5	858	2,36%	13	28	0,08%	21	2	0,005%
6	483	1,33%	14	22	0,06%	22	6	0,016%
7	272	0,75%	15	11	0,03%	23	3	0,008%
8	195	0,54%	16	6	0,02%	25	1	0,003%

Tableau 2. Répartition des 36 418 vedettes dont l’espace sémantique comporte au moins un lien synonymique isolé.

La question de la ventilation de ces liens est donc essentielle pour la bonne gestion du DES. Comme nous avons pu le constater avec campagne sur la Figure 2, les ⌜synonymes⌝ isolés brouillent la vision des composantes connexes car notre regard est attiré par le fait qu'ils soient sans lien : nous cherchons à les inclure intuitivement dans l’un des groupes affichés ou à vouloir les enlever s’ils n’ont aucun rapport (a priori). La méthode à appliquer consisterait donc :

si un ou plusieurs des ⌜synonymes⌝ proposés pour le ⌜synonyme⌝ isolé conviennent (c’est-à-dire si l’on peut remplacer l’un par l'autre dans un contexte donné), à intégrer le lien synonymique ;
et, si aucun ⌜synonyme⌝ proposé ne correspond, à expulser le ⌜synonyme⌝ isolé.

Le Tableau 3 représente l’application de cette méthode au traitement des ⌜synonymes⌝ isolés de campagne. Le graphe d’adjacence de campagne comporte deux composantes connexes désignées respectivement comme « stratégique » (cf. une campagne éclair, Colonne 1) et « topographique » (cf. une campagne verte et riante, Colonne 5) et neuf ⌜synonymes⌝ isolés (Colonne 3), qu’il s’agisse soit d’intégrer sur la base d’un ⌜synonyme⌝ proposé (Colonnes 2 et 4), soit d’écarter. On constate :

que cabale, parade, pilonnage et prospection sont rattachables à la composante stratégique par l’intermédiaire d’expédition, offensive ou publicité ;
que cottage, moulin, paysage et villégiature sont rattachables à la composante topographique par l’intermédiaire de maison, nature ou propriété ;
mais que saison et cloche ne sont rattachables à aucune des deux composantes connexes, faute d’un ⌜synonyme⌝ intermédiaire plausible.

Tableau 3. Illustration de la méthode d’intégration vs expulsion des ⌜synonymes⌝ isolés14.

L’objectif est donc au final soit d’intégrer, soit de supprimer les liens synonymiques isolés pour les 36 418 vedettes dont l’espace sémantique comporte au moins un lien étiqueté ‘0’ dans la visualisation du graphe d’adjacence, obligatoirement isolé dans la version sans la vedette. Il reste maintenant à formaliser la méthode d’intégration vs expulsion que le Tableau 3 ne fait que suggérer, ce sera l’objet des deux sections suivantes.

3.2. Le ‘comment’ : La méthode des liens probables

3.2.1. L’approche basée sur l’indice de Jaccard

En 2004, François et Manguin ont évoqué une méthode de regroupement des composantes connexes dissociées du DES consistant à tenir compte de « liens synonymiques du second degré » :

La séparation de l'ensemble des ⌜synonymes⌝ en composantes connexes constitue a priori un critère fort d'homonymie. Si cette homonymie est en contradiction avec l’intuition partagée des locuteurs francophones, les constituants des composantes connexes concernées peuvent être rattachés à la composante principale par la prise en compte de liens synonymiques du second degré : deux ⌜synonymes⌝ appartenant à deux composantes connexes, parce qu’ils n'ont aucun ⌜synonyme⌝ commun en dehors de la vedette étudiée peuvent être rattachés à une même composante s’ils entretiennent un lien synonymique avec deux items eux-mêmes en relation de synonymie. [François et Manguin, 2004, note 12]

La même année, Jean-Luc Manguin illustrait ce constat avec le mot-vedette curieux (cf. section précédente) pour lequel cinq dictionnaires sur les sept à l’origine du DES ignorent insolite. Or en étudiant les ⌜synonymes⌝ de l’un et de l’autre, il est apparu qu’une proportion importante des ⌜synonymes⌝ de l’un étaient également ⌜synonyme⌝ de l’autre et que finalement curieux et insolite, figurant comme des ⌜synonymes⌝ d’ordre 2, méritaient d’être traités comme des ⌜synonymes⌝ directs. La méthode développée à l’époque reposait sur l’indice de Jaccard appelé également coefficient de communauté15 qui se résume ainsi : si nous prenons deux ensembles A et B (correspondant aux ⌜synonymes⌝ de curieux d’une part et à ceux d’insolite d’autre part), cet indice est égal à l’intersection des deux ensembles divisés par le cardinal de l’union :

Image 10000000000000AA00000041C68C7DC23DD382A2.png

La différence entre le nombre de ⌜synonymes⌝ de chaque élément de la paire peut être négligeable, faible ou importante, ce qui risque d’influencer les résultats et nous a incités à compléter l’indice de la façon suivante :

Soient les entrées E1 et E2, ⌜synonymes⌝ d’ordre 2. Nous utilisons trois valeurs :

N1 = nombre de ⌜synonymes⌝ + antonymes de E1
N2 = nombre de ⌜synonymes⌝ + antonymes de E2
C = nombre de ⌜synonymes⌝ + antonymes communs à E1 et E2.

Le nombre C est toujours inférieur ou égal à N1 et à N2, mais doit s’en rapprocher pour répondre à nos critères. Plusieurs formules pour obtenir un score de proximité sémantique sont comparées. Le principe est le même pour les antonymes. La première formule considère le taux de ⌜synonymes⌝ et antonymes communs par rapport à l’ensemble des ⌜synonymes⌝ et antonymes des deux entrées. Ce taux atteint 100 % quand tous les ⌜synonymes⌝ et antonymes sont communs (dans le cas limite où C = N1 = N2)

Image 100002010000037600000060C743A8C1979E31E7.png

La deuxième formule tient compte d’un phénomène souvent observé : lorsque l’une des entrées possède moins de ⌜synonymes⌝ et antonymes que l’autre, parfois beaucoup moins, mais que tous ou presque sont communs, le lien est souvent validé. Il nous a donc semblé intéressant d’utiliser une formule qui ne prend en compte que le « meilleur côté » :

Image 100002010000037F000000520AB73958D89DCAA1.png

Là encore, le maximum possible est de 100 %. Nous avons noté ce score « s3 », car nous utilisons également une formule intermédiaire, dans laquelle le « meilleur côté » est légèrement favorisé :

Image 100002010000038100000055788CCCA7C8A19498.png

Ces trois formules permettent de tester si le « meilleur côté » doit être plus ou moins favorisé. Un autre point que nous avons voulu tester est l’influence de la quantité : faut-il accorder une plus grande importance au nombre de ⌜synonymes⌝ et d’antonymes communs qu’au nombre de ⌜synonymes⌝ et antonymes non communs ? En d’autres termes, le score (purement qualitatif dans les formules précédentes) doit-il être modulé selon des critères quantitatifs ? Nous avons pour cela introduit une constante dans les formules afin de favoriser un peu (s+), moyennement (s++), beaucoup (s+++) l’aspect quantitatif. Le cas « pas du tout » (s) a été éliminé rapidement car donnant des résultats nettement moins bons. Il y a donc en tout 3 x 3 = 9 formules [cf. sitographie n° 3].

3.2.2. Le principe de la méthode de ventilation des liens synonymiques isolés

La méthode rapidement évoquée par François et Manguin (2004) concernait l’ensemble des vedettes du DES recherchant, pour chacune d’entre elles, les ⌜synonymes⌝ d’ordre 2 pour les transformer éventuellement en ⌜synonymes⌝ d’ordre 1. Dans notre cas, nous appliquons cette méthode en partant des ⌜synonymes⌝ isolés d’un ensemble donné de vedettes.

Soit un triplet constitué de la vedette V, d’un ⌜synonyme⌝ isolé S_I et de la liste de tous les ⌜synonymes⌝ de la vedette [S, S’, S”, etc.] :

Ou bien S_I entretient un lien synonymique du second degré avec l’un des constituants au moins de la liste [S, S’, S”, etc.], c’est-à-dire que S_I est ⌜synonyme⌝ de S_x, lui-même ⌜synonyme⌝ de l’un de ces constituants. Dans ce premier cas, on établit un lien synonymique direct entre [S_I] et l’un des constituants de la liste [S, S’, S”, etc.], ce qui intègre S_I à la composante comportant ce constituant :

Figure 4. Le processus de validation d’un lien synonymique isolé (ici SI). — Figure 4. Le processus de validation d’un lien synonymique isolé (ici S_I).

Ou bien on ne constate aucun lien synonymique du second degré entre S_I et l’un des constituants au moins de la liste [S, S’, S”, etc.], et dans ce second cas on supprime le lien synonymique entre S_I et V.

Dans les deux cas, au terme de ce test il n’y a plus de ⌜synonyme⌝ isolé. Si la vedette est associée à plusieurs ⌜synonymes⌝ isolés (le maximum observé s’élevant à 25 !), la procédure est réitérée jusqu’à ce que tous les liens synonymiques isolés soient ventilés soit par intégration, soit par suppression.

3.2.3. L’application de la méthode

Nous nous proposons d’illustrer la méthode décrite plus haut en sélectionnant un modeste sous-ensemble des vedettes du DES, à savoir celles qui ont plus de 50 ⌜synonymes⌝ et dont l’espace sémantique révèle 5 ⌜synonymes⌝ isolés. On en compte 82, ce qui représente 82*5 = 410 paires [V, S_i] à traiter. Chaque paire est ensuite associée à un ⌜synonyme⌝ de la vedette au niveau N>0, ce qui représente un total de 24 280 triplets. Ce nombre correspond à la somme des triplets (vedette, ⌜synonyme⌝ isolé, ⌜synonyme⌝ proposé de niveau N>0). Il est fonction du nombre de ⌜synonymes⌝ de chaque vedette : plus une vedette aura de ⌜synonymes⌝, plus grand sera le nombre de triplets à traiter la concernant.

Comme 24 280 triplets représentent une quantité trop importante pour être traitée manuellement, nous avons décidé de ne conserver que les cinq triplets qui ont le meilleur score et le nombre des triplets à traiter se réduit à 2050 (410*5). Le score est transformé en rang : 5, 4, 3, 2 et 1. Nous appliquons les neuf formules d’évaluation proposées dans la Section 3.2.1, ce qui produit neuf listes dont les rangs sont additionnés. L’empan des rangs additionnés s’étend de 1, si le triplet n’est que dans une seule liste, à 9*5 = 45, si le triplet figure en premier dans les neuf listes. Enfin trois seuils sont comparés : dans le seuil le plus bas, nous ne retenons que les triplets d’un rang égal au moins à 6 ; dans le seuil médian, ceux d’un rang au moins égal à 10 et dans le seuil supérieur ceux d’un rang au moins égal à 15.

Pour donner une idée des modalités d’application de la méthode et des difficultés occasionnelles qui se présentent, le Tableau 4 présente les 31 triplets composés de la vedette bandit, des cinq ⌜synonymes⌝ isolés bandolier, brabançon, écorcheur, gangster et miquelet et des listes de ⌜synonymes⌝ proposés. Bandolier et miquelet ne figurent pas dans le TLF, ce qui constitue un critère indiscutable pour supprimer ce lien synonymique isolé (voire le mot lui-même qui encombre le DES sans profit réel). Pour brabançon, on trouve une note dans le TLF : « Au plur., HIST. Les Brabançons. Aventuriers engagés comme mercenaires dont les compagnies dévastèrent la France durant le Moyen Âge ». Et pour cotereaux « HIST. Bandes d’aventuriers et de pillards qui ravagèrent la France dans la seconde moitié du XII^e siècle ». Les deux définitions se correspondent donc en grande partie et nous validons le triplet {bandit, brabançon, cotereaux}, ce qui signifie que brabançon passe du statut de ⌜synonyme⌝ isolé à celui de ⌜synonyme⌝ intégré à l’espace sémantique de la vedette bandit par l’intermédiaire de cotereaux. Pour les deux triplets restants, nous avons admis qu’assassin est le meilleur ⌜synonyme⌝ proposé pour écorcheur et qu’apache est le meilleur pour gangster. Ces jugements peuvent évidemment varier d’un évaluateur à un autre, mais l’essentiel pour l’intégration du ⌜synonyme⌝ isolé est que l’un des ⌜synonymes⌝ proposés soit validé.

Tableau 4. Sélection des 3 ⌜synonymes⌝ isolés de la vedette bandit susceptibles d’être intégrés dans sa composante connexe au score minimum des 6 rangs additionnés des 5 ⌜synonymes⌝ proposés. — Tableau 4. Sélection des 3 ⌜synonymes⌝ isolés de la vedette *bandit* susceptibles d’être intégrés dans sa composante connexe au score minimum des 6 rangs additionnés des 5 ⌜synonymes⌝ proposés.

Au seuil médian (score des rangs additionnés égal au moins à 10), le Tableau 5 perd dix lignes :

Tableau 5. Sélection réduite du Tableau 4 au seuil minimum du score de 10 rangs additionnés.

Enfin, au seuil supérieur (score des rangs additionnés égal au moins à 15), le Tableau 6 ne perd que deux nouvelles lignes :

Tableau 6. Sélection réduite du Tableau 4 au seuil minimum du score de 15 rangs additionnés.

Globalement, pour un nombre invariant de 82 vedettes et de 410 liens synonymiques isolés dont nous avons testé soit l’intégration dans la composante connexe principale (ou l’une d’entre elles) de la vedette, soit la suppression, et compte tenu de trois seuils fondés sur les scores additionnés des rangs de chaque ⌜synonyme⌝ proposé (respectivement entre le maximum de 45 et un minimum de 6, 10 ou 15), le nombre des tests décroît de 2535 pour le seuil le plus bas à 1515 pour le seuil le plus haut, soit une réduction de plus de 1000 lignes (plus de 40 %). En revanche le nombre des propositions d’intégration validées (sur 410) ne décroît que lentement de 329 à 290, soit d’environ 9 % (de 80 % à 71 %) et le score moyen (qui est un bon indicateur de la qualité des intégrations validées) ne décroît que d’un point sur 44, soit environ 2 % (cf. Tableau 7).

Tableau 7. Variation des résultats de l’intégration des ⌜synonymes⌝ isolés en fonction de trois seuils d’empan du score des ⌜synonymes⌝ proposés.

Que peut-on en conclure ? Compte tenu de la faible variation du score moyen des ⌜synonymes⌝ par l’intermédiaire desquels se réalise l’intégration des 410 ⌜synonymes⌝ isolés et de la proportion d’intégrations (entre 80 % et 72 %), il est préférable d’adopter le seuil le plus élevé. Cela veut dire que, quel que soit le seuil inférieur, dans de nombreux cas c’est le premier ⌜synonyme⌝ proposé (celui qui a le meilleur score) qui se révèle le plus adapté et qui est validé. Étendre le test à un nombre plus important de vedettes, notamment à celles qui n’ont qu’un lien synonymique isolé, est possible. L’obstacle n’est pas tant la quantité des tests à effectuer que le fait qu’une grande partie de ces liens isolés correspond soit à des mots absents de la nomenclature16 du TLF, soit à des sens très particuliers de l’article du TLF. Un premier nettoyage consisterait à écarter tous les liens synonymiques impliquant un mot absent du TLF. On peut cependant faire valoir que le lexique du français évolue et qu’il faudrait prévoir un test complémentaire sur les navigateurs.

Dans cette entreprise, l’intuition du lexicologue17 est mise à rude épreuve. Nous ignorions évidemment que dans un de ses emplois brabançon(s) a une définition très proche de celle de cotereau(x). Le dilemme, pour une gestion efficace du DES, est donc de devoir louvoyer entre le souhait d’une couverture lexicale maximale et la difficulté d’évaluer rapidement la synonymie possible entre deux mots, compte tenu de leur probable polysémie et de la prise en compte, ou pas, d’emplois marqués sur le plan diachronique.

4. Bilan d’étape

Notre questionnement mérite d’être élevé au niveau épistémologique : la question des liens synonymiques isolés est typique de ce que nous appellerons la lexicographie ‘extractive’ (en rapport avec la métaphore du data mining), laquelle représente une alternative à la lexicographie classique qui est ‘raisonnée’. Cette dernière est l’œuvre d’un individu, notamment Antoine Furetière au 17^ème siècle, L’Abbé Girard au 18^ème, Émile Littré au 19^ème, ou d’une équipe soudée comme celles, en concurrence, de Paul Robert, Alain Rey et Josette Rey-Debove d’un côté pour le Robert (1^ère éd. 1957) et de Jean Dubois et Louis Guilbert de l’autre pour le Dictionnaire du Français Contemporain (1^ère éd. 1966). Elle se fonde traditionnellement sur l’organisation du lexique mental du rédacteur, quasiment ‘omniscient’, ou plus récemment sur la fusion des lexiques mentaux de l’équipe éditoriale.

Dire que la lexicographie classique est raisonnée signifie qu’elle se fonde sur un vaste matériau philologique mis en ordre logique. Les produits de la lexicographie extractive ne se laissent pas aisément raisonner, ce sont des sauvageons que les parents s’échinent à raisonner. Une autre métaphore imaginable serait celle de la disparité entre l’astronomie et la cosmologie : la lexicographie raisonnée est à sa contrepartie extractive ce que la cosmologie est à l’astronomie : la première ordonne rationnellement le réel, elle lui donne sa profondeur et sa dimension temporelle, la seconde perçoit le réel comme une fascinante forêt de constellations constituée d’astres plus ou moins gros et lumineux.

La métaphore peut aller plus loin : si les vedettes du DES sont accompagnées de tant de liens synonymiques isolés, c’est parce que les intuitions des contributeurs en faveur de leur rassemblement, qu’il s’agisse des sept dictionnaires du 19^ème et 20^ème siècle qui constituent sa base ou des propositions des internautes qui les complètent et occupent une place croissante avec les années (cf. Morel & François 2015), ne se recouvrent que partiellement18 : le DES a été conçu jusqu’à présent comme le réceptacle d’une multitude d’intuitions sur la proximité entre des dizaines de milliers de paires de mots en termes de réunion et non d’intersection. Le résultat est un noyau de jugements de proximité largement partagés et une périphérie de jugements isolés.

L’entreprise de ventilation des liens synonymiques isolés vise à rapprocher ces intuitions en faisant intervenir les ⌜synonymes⌝ du second ordre, que nous convoquons comme des missing links propres à réduire la disparité entre deux facettes de la lexicographie extractive fondées l’une sur la réunion, l’autre sur l’intersection des liens : aussi longtemps que toutes les intuitions immédiates des auteurs des dictionnaires-sources et des internautes qui contribuent à l’extension du DES sont laissées proliférer librement, la fusion des liens produit inévitablement du ‘bruit’, c’est-à-dire des intuitions marginales prenant la forme de liens synonymiques isolés. L’intégration d’une partie de ces liens par l’intermédiaire de ⌜synonymes⌝ du second ordre et la suppression des liens irréductibles permettent de limiter drastiquement cette disparité.

Une autre méthode d’intégration des liens isolés mérite d’être testée afin de disposer de deux procédures en concurrence. Il s’agit de celle des substituts contextuels dans un vaste corpus textuel. Le projet CAMEMBERT de l’INRIA, publié en décembre 2019, devrait fournir des listes de mots simples ou construits figurant dans les mêmes contextes et donc composées en priorité de paires de mots entretenant une relation de proximité entre un subordonné et son superordonné, entre ⌜synonymes⌝ et entre antonymes (cf. Martin, Muller, Suarez, Dupont, Romary … Sagot, 2020). Dès que nous disposerons d’un inventaire suffisant de telles listes, nous en testerons la pertinence en concurrence ou en complément de la méthode des « liens probables » par les « ⌜synonymes⌝ du second ordre ».

1 CRISCO : https://crisco2.unicaen.fr/des/. Laboratoire CNRS ELSAP, Caen, jusqu’en 1999, Ploux et Victorri, 1998 ; Manguin et Victorri, 1999 et […

2 Cf. [Sitographie n° 5].

3 Nous ferons abstraction ici des liens antonymiques qui n’ont pas fait l’objet d’une exploitation raisonnée.

4 Une composante connexe d’un graphe est un sous-graphe connexe, c'est-à-dire d'un seul tenant, de ce graphe.

5 Par exemple, insolite ne figurait pas comme synonyme de curieux, mais il était connecté à suffisamment de synonymes de curieux (bizarre, étonnant…

6 Cf. Chardon et François 2019 et [Sitographie n° 4].

7 On peut objecter que de nombreux synonymes figurant dans le DES ne répondent pas rigoureusement à cette définition et donc que celle-ci est…

8 La même base de données lexicales a été exploitée dans la thèse en sciences cognitives de Fabienne Venant (cf. Venant, 2010).

9 Les travaux sur la proxémie lexicale de Bruno Gaume (cf. Gaume, 2004) se fondent également sur l’exploitation de la matrice d’adjacence entre ⌜…

10 Cf. Sitographie n° 2.

11 Les ⌜synonymes⌝ communs à deux vedettes s’obtiennent facilement dans l’interface du DES [sitographie n° 1] en saisissant dans cet exemple « …

12 En théorie des graphes, la notion de ‘nœud-feuille’ s’applique en priorité aux graphes arborescents. Mais, plus généralement, tout nœud qui n’a…

13 La méthode la plus simple pour tester la substitution synonymique entre deux lexies consiste à proposer à un ensemble de locuteurs francophones…

14 En résumé, le Tableau 3 est destiné à montrer comme relier les ⌜synonymes⌝ isolés, présents dans la Colonne 3 centrale, à l’une des composantes «…

15 https://fr.wikipedia.org/wiki/Indice_et_distance_de_Jaccard.

16 Il est à noter que les substantifs bandolier et miquelet, absents du TLF, figurent cependant dans le Grand Robert.

17 Lorsque les lexicologues sont en présence d’un terme qui leur est inconnu, leur intuition se limite éventuellement à une hypothèse…

18 Le lexique mental de chaque locuteur francophone est organisé par un double jeu d’attractions et de répulsions. Différents facteurs personnels…

Bibliographie

Chardon, L. (2020). Présentation du Dictionnaire Électronique des synonymes (DES). Laboratoire CRISCO, EA 4255, Université de Caen. https://halshs.archives-ouvertes.fr/halshs-02489368/ file/DESPresentationExistant.pdf

Chardon, L., & François, J. (2019). Le Dictionnaire Électronique des synonymes du CRISCO et l’éventail des sens lexicaux. Blog de la Maison de la Recherche en Sciences Humaines (MRSH) de Caen. https://hal.archives-ouvertes.fr/hal-02140291

François, J. (2007). Pour une cartographie de la polysémie verbale. Louvain : Peeters.

François, J. (2020). ‘Conversation’ et ‘dialogue’ selon le Dictionnaire Électronique des synonymes de Caen et les corpus textuels. In L. Oueslati & L. Hosni Oueslati (dir.), La dialogue et la conversation à la croisée des approches (pp. 131-150). Éditions de l’université de Tunis.

François, J., & Manguin, J. (2004). Le propre, l’impropre et le malpropre : esquisse d’un traitement automatique de l’antonymie adjectivale. In H. Bouillon (dir.), Langages à niveaux multiples. Hommage au Professeur Jacques Lerot à l’occasion de son éméritat (pp. 67-86). Louvain-la-Neuve : Peeters. https://hal.archives-ouvertes.fr/hal-00012260

Gaume, B. (2004). Balades aléatoires dans les Petits Mondes Lexicaux. Revue I3 - Information Interaction Intelligence, 4(2), 39-96. https://hal.archives-ouvertes.fr/hal-01321927/document

Manguin, J.-L. (2004). Transitivité partielle de la synonymie : application aux dictionnaires de synonymes, Corela, 2(2). http://corela.revues.org/611

Manguin, J.-L. (2005). Regroupements de ⌜synonymes par indices de similitude : exemple avec l’adjectif ancien. Cahiers de Lexicologie, 86, 239-254. https://hal.archives-ouvertes.fr/hal-00012327/document.

Manguin, J.-L., & Victorri, B. (1999). Représentation géométrique d’un paradigme lexical. Conférence TALN 1999, Cargèse, 12-17 juillet 1999. http://talnarchives.atala.org/TALN/TALN-1999/taln-1999-poster-010.pdf

Martin, L., Muller, B., Ortiz Suárez, P. J., Dupont, Y., Romary, L., Villemonte de la Clergerie, É., Seddah, D., & Sagot, B. (2020). CamemBERT: A Tasty French Language Model. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, July 2020. https://hal.inria.fr/ hal-02445946

Morel, M., & François, J. (2015). Le Dictionnaire Électronique des synonymes du CRISCO : un outil de plus en plus interactif. Revue française de linguistique appliquée, 20(1), 9-28. https://www.cairn.info/revue-francaise-de-linguistique-appliquee-2015-1.htm

Ploux, S., & Victorri, B. (1998). Construction d’espaces sémantiques à l’aide de dictionnaires de synonymes. TAL, 39(1), 161-182. https://halshs.archives-ouvertes.fr/halshs-00009433

Venant, F. (2010). Représentation et calcul dynamique du sens : exploration du lexique adjectival du français. Sarrebruck : Éditions Universitaires Européennes.

Sitographie

1. Dictionnaire Électronique des synonymes (DES), Laboratoire CRISCO Université de Caen, 1998-2020. https://crisco2.unicaen.fr/des/

2. Graphes d’adjacence du DES – CRISCO – Université de Caen, Laboratoire CRISCO Université de Caen, 2020. https://crisco3.unicaen.fr/desgraphe/

3. Calcul des liens manquants probables, Laboratoire CRISCO Université de Caen, 1998-2020. http://crisco.unicaen.fr/dictionnaire-electronique-des-synonymes/presentation-du-des/calcul-des-liens-manquants-probables/

4. Visualisations 3D du DES, Laboratoire CRISCO Université de Caen, 2019-2020. http://crisco.unicaen.fr/dictionnaire-electronique-des-synonymes/visualisations-3d-du-des-965280.kjsp ?RH =1530619460865/

5. Publications portant sur le DES ou ses dérivés. http://crisco.unicaen.fr/dictionnaire-electronique-des-synonymes ⌝/presentation-du-des/publications-portant-sur-le-des-ou-ses-derives-904035.kjsp/

Annexe

Liste des 290 intégrations sur 410 synonymes isolés au seuil maximal (score additionné de 15)

VEDETTE	SYNONYME	SYNONYME	SCORE
VEDETTE	ISOLÉ	PROPOSÉ	SCORE
abattement	abat	chute	30
	abattage	atterrement	32
	finition	atterrement	34
	lourdeur	mollesse	36
aimer	avoir à la bonne	être épris	22
	avoir dans la peau	être épris	22
	avoir du goût pour	être porté sur	28
	en pincer pour	être porté sur	23
	roucouler	prendre plaisir	35
apparence	épiderme	carnation	30
	pronostic	probabilité	45
	superficialité	tape-à-l’œil	26
	vestige	caractère	26
appui	banquette	épaulement	45
	entablement	base	30
	fauteur	souteneur	28
	supporter	tenant	19
	tablette	embase	45
attache	bouton	fermoir	32
	insertion	jointure	24
	poignet	menottes	45
	vrille	crampon	27
avancer	améliorer	mettre en avant	16
	décaler	pousser	18
	s'ébranler	saillir	30
bandit	brabançon	cotereaux	30
	écorcheur	assassin	31
	gangster	apache	15
base	caserne	point d'appui	30
	empattement	embase	18
	tête de pont	point d'appui	26
caché	codé	cryptique	18
	exilé	introuvable	29
	honteux	inavoué	44
	inconscient	enfoui	24
cause	déclencheur	ressort	30
	défense	prétexte	23
	étiologie	pourquoi	24
	inspiration	raison	45
changeant	alternant	variant	41
	arlequin	variant	34
	caméléon	variant	40
	opportuniste	évolutif	36
	sauteur	volage	32
classe	prolétariat	caste	33
	sous-classe	strate	16
colère	ire	rogne	24
	monté	courroucé	41
	péché	violence	24
combat	gigantomachie	corps à corps	30
	hoplomachie	corps à corps	30
	savate	pugilat	38
comique	boulevard	vaudevillesque	24
	écrivain-e	comédien	30
	pliant	pissant	20
	théâtral	comédien	32
défense	armée	garde	36
	corne	canine	37
difficulté	cas de conscience	souci	30
	profondeur	subtilité	32
	rudesse	complexité	17
diminution	déflation	décrue	22
	dégonflement	aplatissement	33
	moins	mitigation	27
	moins-value	déperdition	27
disparaître	manquer à l'appel	se soustraire à la vue	28
	s'escamoter	se soustraire à la vue	25
	se coucher	se tapir	18
	se voiler	se soustraire à la vue	17
domaine	bien foncier	hacienda	30
	diagramme	cadre	39
	estancia	hacienda	33
	fazenda	hacienda	30
	latifundia	hacienda	30
élévation	anagogie	ennoblissement	43
	divinisation	ennoblissement	45
	hardiesse	héroïsme	45
	prière	ennoblissement	45
épreuve	canular	bizutage	45
	morasse	phototype	30
	persécution	brimade	22
	pierre de touche	critère	38
établissement	establishment	factorerie	27
	mise en vigueur	intronisation	21
	rédaction	exposé	32
	restaurant	hôtel	44
exécuter	électrocuter	faire mourir	27
extérieur	adventice	extrinsèque	45
	ailier	externe	30
	extra-muros	externe	30
	indépendant	externe	29
	périphérique	externe	30
extrême	extrémiste	excessif	22
	intensif	ultime	21
	mortel	épouvantable	32
	sans égal	exceptionnel	27
fable	cinéma	menterie	22
fatiguer	flapir	battre les oreilles	30
	se creuser	diminuer	20
	surentraîner	échiner	24
formation	cycle	stage	34
	puberté	façonnement	41
	structuration	façonnement	26
	terrain	façonnement	20
galanterie	bonne fortune	fleurette	28
	madrigal	marivaudage	16
gonfler	congestionner	emplir	20
	déborder	foisonner	41
	enorgueillir	soulever	24
gras	farfelu	polisson	16
	glissant	huileux	32
	suiffeux	huileux	20
	suintant	huileux	21
heureux	exaucé	aux anges	28
	optimiste	gai	27
	sans souci	aux anges	29
	touché	charmé	26
	trouvé	bien venu	39
impur	adultère	malhonnête	24
	altéré	avarié	45
	contaminé	souillé	41
	déshonoré	infâme	20
	pécheur	dévoyé	30
interdit	à l'index	proscrit	23
	délictueux	illicite	44
	tout chose	sans voix	40
jouer	coulisser	se mouvoir	40
	jongler	folâtrer	24
	pianoter	sonner	36
	pincer	toucher	34
lever	draguer	recruter	21
lien	ciment	liaison	24
	imbrication	union	33
	intermédiaire	liaison	20
	trait d'union	connexion	27
limite	cap	point de non-retour	20
	déficience	bornage	20
	interface	séparation	30
	possibilité	périmètre	26
maître-	devancier	doyen-ne	32
maîtresse	pet-de-loup	barbacole	21
	ténor	virtuose	17
malade	gâteux	perturbé	18
	lépreux	anéanti	25
	raide	infirme	23
	révolutionné	secoué	45
	traumatisé	atteint	40
malpropre	cochonné	encrassé	21
	morveux	salopiaud	33
	négligé	crasseux	36
	salopé	sale	30
manifester	agir	présenter	27
	casser les vitres	chahuter	36
	défiler	se montrer	27
	faire éclater	extérioriser	30
	faire ressortir	montrer	37
marcher	arquer	crapahuter	27
	tourner rond	tourner bien	29
	trottiner	porter ses pas	15
mémoire	anamnèse	commémoraison	25
	cœur	recognition	17
	conservation	recognition	32
	mémoration	remembrance	36
mobile	ambition	intention	45
	amovible	portatif	28
	astatique	protéiforme	21
	influençable	changeant	22
nature	environnement	monde	21
nul	crasse	bouché	15
	non avenu	invalidé	30
	personne	aucun	41
	sans effet	inefficace	17
	sans mérite	incapable	16
organiser	encadrer	mettre sur pied	34
	minuter	planifier	24
	politiser	programmer	28
	réorganiser	orchestrer	23
ornement	apprêt	ajustement	38
	bijou	colifichet	37
	chamarrure	garniture	18
	fantaisie	colifichet	45
	fleur	fleuron	25
perte	discrédit	déchéance	45
	hémorragie	coulage	43
	leucorrhée	coulage	30
	moins-value	déficit	43
peuple	classe ouvrière	masses laborieuses	29
	fidèles	habitants	26
	ouailles	habitants	28
	Tiers-état	masses laborieuses	25
poli	bruni	lustré	28
	diplomate	raffiné	40
	peigné	ciselé	29
poser	évoquer	soulever	22
	pouffer	minauder	35
	se contorsionner	minauder	45
	se draper	affecter	26
propos	banalité	fadaise	45
	cajolerie	galanterie	45
	enjôlerie	blablabla	30
	insanité	bêtise	40
	turlutaine	blablabla	23
protéger	couver	préserver	24
	sécuriser	précautionner	43
	vernir	restaurer	22
	verrouiller	défendre	29
puissance	entraînement	force	35
	magie	ascendant	42
	potentat	magnat	27
rapide	ailé	agile	30
	emmené	célère	22
	enlevé	impétueux	21
	fréquent	soutenu	30
reconnaître	arraisonner	visiter	16
	éclairer	révéler	30
	endosser	admettre	40
	légitimer	certifier	21
	subsumer	diagnostiquer	18
réduction	accourcissement	raccourcissement	33
	élision	retranchement	28
	fusion	désoxydation	31
	rationnement	réfaction	38
	schématisation	abrégé	30
réduire	économiser	écorner	43
	rationner	limiter	26
	rattraper	défalquer	25
remonter	mettre en état	remettre	23
	rassembler	remboîter	36
	réapprovisionner	regonfler	24
	regrimper	regonfler	24
remplir	peupler	bonder	21
	renseigner	répondre	19
repos	jour chômé	temps libre	28
	jour férié	temps libre	27
	respiration	méridienne	27
	retraite	inactivité	41
représentant-e	figurant	remplaçant-e	43
	totem	substitut-e	41
résolution	opération	projet	32
	relâchement	diminution	40
	résorption	coda	19
retenir	pacifier	réprimer	35
	parer	réserver	24
	précompter	mémoriser	20
	rattraper	défalquer	18
s'opposer	présenter	mettre son veto	18
	s'exclure	se faire face	24
	se contredire	différer	15
	se mettre en travers	aller à l'encontre	25
sauvage	hagard	craintif	29
	homme des bois	à l'état de nature	27
	inapprivoisé	féroce	29
	incivilisé	primitif	18
	sauvageon	à l'état de nature	28
séparer	bifurquer	faire le départ	27
	déparier	démarier	19
	déprendre	détacher	23
	désaccoupler	détacher	30
	s'interposer	faire le départ	41
signe	astre	pictogramme	31
	brassard	insigne	27
	clin d'œil	appel	22
	graphie	notation	45
souffler	remémorer	suggérer	43
	s'épandre	déferler	45
	ventiler	reprendre haleine	40
soutien	busc	étrésillon	30
	ceinture	protection	15
	gagne-pain	service	30
supérieur-eure	au-dessus	suréminent	41
	fine fleur	meilleur	45
	sommital	suréminent	30
	superviseur	proviseur	18
transporter	camionner	charroyer	30
	égarer	déranger	37
	engouer	enthousiasmer	31
	translater	faire passer	25
troublé	aveuglé	perturbé	23
	chamboulé	sens dessus dessous	27
	chaviré	sens dessus dessous	28
	désorbité	égaré	21
	rougissant	intimidé	32
usé	amoindri	émoussé	45
	dévasté	décrépit	32
	écaillé	détérioré	32
vain	fastueux	superbe	38
	hypothétique	illusoire	40
	sans effet	inefficace	16
	sans fondement	faux	30
	sans motif	sans importance	32

Notes

1 CRISCO : https://crisco2.unicaen.fr/des/. Laboratoire CNRS ELSAP, Caen, jusqu’en 1999, Ploux et Victorri, 1998 ; Manguin et Victorri, 1999 et [Sitographie n° 1]. Retour au texte

2 Cf. [Sitographie n° 5]. Retour au texte

3 Nous ferons abstraction ici des liens antonymiques qui n’ont pas fait l’objet d’une exploitation raisonnée. Retour au texte

4 Une composante connexe d’un graphe est un sous-graphe connexe, c'est-à-dire d'un seul tenant, de ce graphe. Retour au texte

5 Par exemple, insolite ne figurait pas comme synonyme de curieux, mais il était connecté à suffisamment de synonymes de curieux (bizarre, étonnant, étrange, singulier) pour être admis dans le champ synonymique de curieux (cf. Manguin, 2005). Retour au texte

6 Cf. Chardon et François 2019 et [Sitographie n° 4]. Retour au texte

7 On peut objecter que de nombreux synonymes figurant dans le DES ne répondent pas rigoureusement à cette définition et donc que celle-ci est quelque peu idéalisée. Pour les liens synonymiques de la première génération (approximativement la première décennie du 21^ème siècle), l’objection est justifiée ici ou là, car l’algorithme élaboré par les auteurs a opéré sur une ressource occasionnellement biaisée, à savoir la liste de tous les ‘renvois’ figurant dans sept dictionnaires du 20^ème siècle et marginalement du 19^e. S’agissant des cinq dictionnaires de synonymes, les renvois en question sont bien synonymiques, mais dans les deux dictionnaires de langue pris également en compte (le Dictionnaire Robert en six volumes et le Grand Larousse de la Langue Française en sept volumes) certains des renvois indiquent une simple relation d’association mentale. Dans la seconde génération, c’est-à-dire depuis que les propositions des internautes en faveur de nouveaux liens synonymiques font l’objet d’une évaluation attentive et régulière (une fois par mois depuis une dizaine d’années), la proportion de ces nouveaux liens s’est fortement accrue tandis que de nombreux liens seulement associatifs étaient éliminés. À terme, le poids de ces derniers devrait donc devenir négligeable. Dans la suite du texte nous adopterons la notation ⌜synonyme(s)⌝ pour éviter tout malentendu. Retour au texte

8 La même base de données lexicales a été exploitée dans la thèse en sciences cognitives de Fabienne Venant (cf. Venant, 2010). Retour au texte

9 Les travaux sur la proxémie lexicale de Bruno Gaume (cf. Gaume, 2004) se fondent également sur l’exploitation de la matrice d’adjacence entre ⌜synonymes⌝. Retour au texte

10 Cf. Sitographie n° 2. Retour au texte

11 Les ⌜synonymes⌝ communs à deux vedettes s’obtiennent facilement dans l’interface du DES [sitographie n° 1] en saisissant dans cet exemple « campagne ; opération ». Retour au texte

12 En théorie des graphes, la notion de ‘nœud-feuille’ s’applique en priorité aux graphes arborescents. Mais, plus généralement, tout nœud qui n’a qu’un seul nœud-père et aucun nœud-fils est un nœud-feuille (ou nœud terminal). Retour au texte

13 La méthode la plus simple pour tester la substitution synonymique entre deux lexies consiste à proposer à un ensemble de locuteurs francophones natifs une série d’extraits littéraires et/ou journalistiques avec une ‘fenêtre’ comportant deux lexies présumées ⌜synonymes⌝, en demandant aux sujets de l’expérience de reconnaître laquelle des deux figures dans l’original. Cette méthode a été appliquée avec succès à la paire de substantifs conversation / dialogue et présentée en prologue à un colloque de linguistique et littérature française de même intitulé à l’université de Tunis en 2017 (cf. François, 2020). Retour au texte

14 En résumé, le Tableau 3 est destiné à montrer comme relier les ⌜synonymes⌝ isolés, présents dans la Colonne 3 centrale, à l’une des composantes « stratégique » ou « topographique ». Les quatre premiers ⌜synonymes⌝ isolés sont reliés à l’un des ⌜synonymes⌝ de la composante stratégique (Colonne 1, extraction en Colonne 2), les quatre suivants à un ⌜synonyme⌝ de la composante topographique (Colonne 5, extraction en Colonne 4), tandis que les deux derniers (saison, cloche) sont expulsés, car ils ne peuvent être reliés à aucun des ⌜synonymes⌝ des deux composantes. Retour au texte

15 https://fr.wikipedia.org/wiki/Indice_et_distance_de_Jaccard. Retour au texte

16 Il est à noter que les substantifs bandolier et miquelet, absents du TLF, figurent cependant dans le Grand Robert. Retour au texte

17 Lorsque les lexicologues sont en présence d’un terme qui leur est inconnu, leur intuition se limite éventuellement à une hypothèse dérivationnelle (ex. branbançon < Brabant) et eux aussi sont forcés de consulter un dictionnaire. Retour au texte

18 Le lexique mental de chaque locuteur francophone est organisé par un double jeu d’attractions et de répulsions. Différents facteurs personnels pondèrent et individualisent ce jeu : les locuteurs cultivés mémorisent et tirent parti de termes complexes, ils percevront par ex. aisément la proximité entre arroser, hydrater et irriguer ; les jeunes locuteurs seront plus attirés par les néologismes, parce que leur lexique mental n’est pas encombré d’une vaste nomenclature de mots déjà fréquemment employés, tandis qu’inversement les locuteurs âgés éprouveront un degré variable de répulsion à l’égard de ces néologismes, parce qu’ils en considéreront une partie comme superflus, etc. Retour au texte

Illustrations

Tableau 1. Élaboration primaire et évolution des outils du DES. 7 8 9

docannexe/image/787/img-1.png
Figure 1. Graphe d’adjacence des liens synonymiques de campagne, y compris la vedette.

docannexe/image/787/img-2.png
Figure 2. Graphe d’adjacence dissocié des liens synonymiques de campagne, après occultation de la vedette.

docannexe/image/787/img-3.png
Figure 3. Graphe d’adjacence des liens synonymiques de campagne avec occultation de la vedette, dissocié en deux composantes connexes après passage au niveau N =1.

docannexe/image/787/img-4.png
Tableau 3. Illustration de la méthode d’intégration vs expulsion des ⌜synonymes⌝ isolés14.

docannexe/image/787/img-5.png
docannexe/image/787/img-6.png
docannexe/image/787/img-7.png
docannexe/image/787/img-8.png
docannexe/image/787/img-9.png
Figure 4. Le processus de validation d’un lien synonymique isolé (ici S_I).

docannexe/image/787/img-10.png
Tableau 4. Sélection des 3 ⌜synonymes⌝ isolés de la vedette bandit susceptibles d’être intégrés dans sa composante connexe au score minimum des 6 rangs additionnés des 5 ⌜synonymes⌝ proposés.

docannexe/image/787/img-11.png
Tableau 5. Sélection réduite du Tableau 4 au seuil minimum du score de 10 rangs additionnés.

docannexe/image/787/img-12.png
Tableau 6. Sélection réduite du Tableau 4 au seuil minimum du score de 15 rangs additionnés.

docannexe/image/787/img-13.png
Tableau 7. Variation des résultats de l’intégration des ⌜synonymes⌝ isolés en fonction de trois seuils d’empan du score des ⌜synonymes⌝ proposés.

docannexe/image/787/img-14.png

Citer cet article

Référence papier

Laurette Chardon et Jacques François, « Les vedettes du Dictionnaire Électronique des Synonymes et les relations d’adjacence entre leurs synonymes », Lexique, 27 | -1, 21-46.

Référence électronique

Laurette Chardon et Jacques François, « Les vedettes du Dictionnaire Électronique des Synonymes et les relations d’adjacence entre leurs synonymes », Lexique [En ligne], 27 | 2020, mis en ligne le 01 décembre 2020, consulté le 19 mai 2024. URL : http://www.peren-revues.fr/lexique/787

Auteurs

Laurette Chardon

CRISCO, EA 4255 Université de Caen–Normandie
laurette.chardon@unicaen.fr

Jacques François

CRISCO, EA 4255 Université de Caen–Normandie
jacques.francois@unicaen.fr

Droits d'auteur

CC BY