Nous remercions Yan Greub de ses observations sur une première version de cet article.
Cette communication porte sur les interfaces, possibles et souhaitables, entre le Französisches Etymologisches Wörterbuch, le « dizionario-tetto1 » de la lexicographie gallo-romane, et la numérisation des Nouveaux Atlas Linguistiques de la France. Elle repose sur deux points d’appui, l’un épistémologique, l’autre méthodologique. Comme on le sait par les témoignages de Wartburg, sa darstellung des galloromanischen sprachschatzes qu’est le FEW n’aurait jamais existé sans l’Atlas linguistique de la France de Jules Gilliéron. Le FEW a bien entendu intégré également les données disponibles en son temps de l’ALLo, de l’ALG, de l’ALLy2 et la refonte en cours de la lettre B- intègre pleinement les Nouveaux atlas. Du point de vue épistémologique, la fusion entre le FEW et les données des atlas est donc intégrale. D’un point de vue méthodologique, nous nous plaçons dans l’optique de la rétro-conversion numérique du FEW : celle-ci n’est pas encore achevée, mais elle est en bonne voie, soutenue notamment par l’engagement de Pascale Renders3.
En reprenant les observations d’Esther Baiwir et de Pascale Renders, il nous a semblé nécessaire de se focaliser sur la question qui « concerne les unités à mettre en relation dans chacune des ressources : s’agit-il du lexème, de l’article, de la notice, de la carte ? En fonction de la granularité des unités ainsi identifiées, diverses modélisations informatiques sont possibles4. » Nous nous sommes donc demandé quels pourraient être les problèmes et les empêchements pratiques d’une mise en réseau des atlas numérisés avec le FEW rétro-converti, quelle est l’utilité pour le FEW numérisé d’intégrer de nouvelles données et quel pourrait être l’apport de cette intégration.
Le point de départ de notre travail est, notamment, le volume 16 du FEW, qui contient les étymons germaniques des lettres G-R. En même temps, nous avons intégré à notre réflexion le Thesaurus occitan (THESOC), « base de données multimédia qui vise à rassembler toutes les données dialectales recueillies sous forme orale en domaine occitan5 » et qui fournit à présent la référence la plus vaste pour les Nouveaux atlas. Dans cette constellation de travaux en cours de rénovation, restructuration ou encore de conception6, nous ne pourrons que tracer des pistes de réflexion, parfois encore théoriques. Du côté des atlas, nous nous sommes appuyé pour cette réflexion sur le vol. 5 de l’ALLy de Pierre Gardette et, très brièvement, sur les matériaux inédits qui complètent l’ALMC de Pierre Nauton7.
Première partie
Les liens simples : URL
Le FEW compte actuellement 25 volumes. En dehors des 3 volumes (21-23) qui contiennent les matériaux d’origine inconnue ou incertaine, classés selon le système onomasiologique (le Begriffssystem), les matériaux sont classés selon leur entrée étymologique. C’est une des grandes différences avec les Atlas, qui sont organisés par concepts. L’autre différence consiste en la présentation des matériaux en diachronie dans le FEW et en synchronie dans les Atlas8.
Pascale Renders a écrit 37 algorithmes qui rendent possible la transformation des articles du FEW à partir d’un format XML avec balisage de base (.ffml, FEW Font-style Markup Language) en format XML enrichi (.fsml, FEW Semantic Markup Language)9. Si le FEW contient une erreur d’écriture, une incohérence dans la structure ou une ambiguïté, l’outil de rétro-conversion s’arrête et demande une correction. Les 37 algorithmes ajoutent 24 balisages sémantiques qui contiennent des informations concernant la macro-structure de l’article (<doc>, <com>, <notes>) et l’identification des caractères des unités lexicales (<etymon>, <geoling>, <biblio>). Ce balisage enrichi est le centre de notre réflexion. Voici un exemple d’« unité minimale de traitement10 » balisée (FEW 16, 355a s.v. *kramp)11 :
<unit>AllierSE. krãpunä „taller (du blé)“ ALLy 54</unit>
<geoling>AllierSE</geoling>
<form>krãpunä</form>
<i>krãpunä</i>
<lb/>
<def>„taller (du blé)“</def>
<precisions>ALLy 54</precisions>
<biblio>ALLy 54</biblio>
L’article rétro-converti en format .fsml est ensuite transformé en HTML ; la donnée est récupérée en utilisant le moteur Allegro. Celui-ci permet l’interrogation des données à travers le langage Corpus Query Language (CQL), en utilisant une interface REST et par la suite mis à disposition des utilisateurs sur une interface web : https://few-webapp.atilf.fr/. Cette interface permet déjà, entre autres, de mettre en exergue des informations comme les étymons, les formes, les étiquettes géolinguistiques ou bibliographiques, les deux dernières avec des renvois au Beiheft 2010, ce qui rend la consultation bien plus rapide et aisée. La recherche, pour l’instant, peut être effectuée sur des étymons, des formes ou en croisant des paramètres comme le volume du FEW, la géolocalisation ou la bibliographie. Il est clair que le souhait majeur est de pouvoir implémenter les fonctionnalités de recherche en vue de recherches croisées de plus en plus complexes. Cette interface ne permet pas, pour l’instant, de signaler des mises à jour ou d’intégrer des liens externes qui soient immédiatement visibles par les utilisateurs12.
La limite de la configuration actuelle est que les hyperliens via des URL au FEW rétro-converti ne peuvent être liés qu’à l’interface graphique et pas aux articles individuels. Il faudrait donc envisager la possibilité d’un accès direct en utilisant une URI transparente et discriminante qui indique le volume, la page et le numéro de l’article dans la colonne selon la balise <"ici"> ("in-column index"13). Nous suivrons la proposition de Renders, Baiwir, et Dethier : « our suggestion would be to implement a simple REST API based on HTTP request and using JSON-encoded data14 ». Le format HTTPS de l’URL porte comme informations le numéro du volume, le numéro de l’article et l’étymon concerné. Prenons l’exemple du lexème iḻãrạdo dans l’ALLy 434 "(la branche) est éclatée", qui est à rattacher à la base souabe landel (FEW 16, 443a) :
https://few-webapp.atilf.fr/consulter/volume/match;volume=16;id=001044;match=landel
La version scannée peut être rejointe grâce à cette URL :
https://apps.atilf.fr/lecteurFEW/lire/volume/160/page/443
Avec une URL qui renvoie à l’article rétro-converti, on ne peut pas signaler la page mais uniquement le numéro de l’article (dans ce cas-là le 1044), alors que la limite de la deuxième URL est que dans une page on peut trouver plusieurs articles, comme dans la page suivante 444, qui contient 9 articles (https://apps.atilf.fr/lecteurFEW/lire/volume/160/page/444). Pour éviter toute ambiguïté, la recommandation est très simple mais efficace, puisqu’à l’identifiant URI « FEW 16, 443a » il suffira d’ajouter la vedette « FEW 16, 443a, landel ».
Apport du THESOC aux articles du FEW
Venons-en à un exemple concret. Comme nous ne connaissons pas encore la forme définitive des fiches lexicales du THESOC, nous cantonnerons nos observations au spécimen de « Fiche réponse par localité : la bergeronnette à Pézenas », dont le lemme est pastorèla15. L’information étymologique est déjà excellente, car elle renvoie non seulement à REW 6279 – désormais malgré tout dépassé – mais aussi au FEW en indiquant en outre une « formule étymologique » (qui correspond à ce que Martin Glessgen appelle la « structure lexématique »16) et qui permet de placer le lexème à l’intérieur d’un article du FEW ; en l’occurrence, le renvoi est à FEW 7, 759a s.v. pastor17. Dans l’optique d’un renvoi au FEW scanné actuellement disponible, l’hyperlien pourrait être fait par le biais d’une URL de ce type :
https://apps.atilf.fr/lecteurFEW/lire/volume/070/page/759.
La structure lexématique pastor + ella permet un lien immédiat vers le bon emplacement dans l’article du FEW qui suit une structure morphologique assez claire : FEW 7, 759a pastor § I.1.b.Ablt. classe les dérivés en -ellu, -ella. Si l’on considère l’ensemble du paragraphe, on s’aperçoit que toute la famille des composés en -ella se caractérise comme une famille occitane occidentale, avec des représentants éparpillés dans le Valais et la Haute-Savoie. Le FEW, surtout basé sur l’ALF 1460 et sur l’ALLo 460, permet de décrire une répartition aréale de ce type : « Trèves p å s t u r é l o "bergeronnette", Hér. p a s t u r é l o, Ariège id., Lavel. (Lavelanet, Ariège, Foix), HGar., TarnG. id., Lot p o h t o r é l o (p 720), Tarn, Camarès pastourèlo, aveyr., St-GermT., Can. Massegros p o s t u r é l o, Cantal p o h t u r é l o (p 715). »
Avoir un lien direct vers les données du THESOC, naturellement, permet de cerner la diffusion du type dans l’espace et à une époque quelque peu plus récente, insérant ainsi l’enquête dialectologique synchronique dans l’axe de la diachronie. En transposant les données du THESOC sur la même carte de l’ALF, celle-ci nous montre une aire de diffusion du type <pastorèla> qui se superpose presque parfaitement à celle qui est déjà disponible18. De même, si l’on considère aussi le lemme suffixé pastoreleta, la répartition aréale est reconfirmée (en effet, les deux types cohabitent dans la même aire). Néanmoins, si l’on élargit l'enquête à l'ensemble de la famille étymologique de pastor pour le sens ‘bergeronnette’, les NALF fournissent trois attestations du type pastressa entre Vaucluse, Bouches-du-Rhone et Alpes-de-Haute-Provence, glissant du sens ‘bergère’ (attesté dans FEW) à ‘bergeronnette’19. On signalera, enfin, le lexème pastrẹsuna attesté à Murat, dans le Cantal20.
Avoir à disposition un programme de cartographie automatique des données d’un article du FEW, ou mieux encore des données intégrées des NALF, permettrait une visualisation immédiate des distributions aréales et des éventuelles (voire probables) évolutions en diachronie, décelables grâce à la comparaison des deux ouvrages21.
Seconde partie
Étymologiser les Atlas
Des questions complémentaires surgissent : suffit-il de faire des renvois à la page/colonne du FEW, ou pouvons-nous exploiter des liens plus précis ? Comment devrait se comporter le FEW ? Quels sont les conseils pour les Atlas numérisés afin de se placer dans le cadre du FEW rétro-converti ?
Nous nous appuierons surtout sur le vol. 5 de l’ALLy, dans lequel Pierre Gardette reprend chaque carte de l’Atlas linguistique et ethnographique du lyonnais et interprète les témoignages en indiquant un classement étymologique sous la forme d’un petit commentaire. Nous avons compté 117 étymons germaniques appartenant au vol. 16 du FEW (G-R)22. Les 5 fascicules du vol. 16 ont paru entre 1955 et 195923, les 3 volumes de l’ALLy ont paru en 1950, en 1952 et 1955 (alors que le vol. 4, Exposé méthodologique et tables, a paru en 1967 et le vol. 5, Commentaires et index, en 1976). Wartburg aurait vraisemblablement pu exploiter le travail de Gardette, même si le vol. 3 de l’ALLy est paru en concomitance avec le fascicule 16/1 du FEW. En tout cas, cette chronologie nous donne une base assez sûre pour remarquer que dans le vol. 16 du FEW, l’ALLy est cité exactement dans 12 articles, partiellement dans 32 et non cité dans 73. Le rapport de citation est d’environ 2 : 3, ce qui laisse une lacune sensible dans la dimension « thesaurus » du FEW. Bien entendu, dans un article comme FEW 16, 668a Reginhart, qui donne renard en français et qui est emprunté dans les régions occitane et francoprovençale, il ne vaut pas la peine de signaler le renvoi à l’ALLy, qui n’apporterait aucune information supplémentaire24.
En revanche, la carte 60 de l’ALLy (à l’envers) indique le syntagme o nor dans le Nord du Rhône, avec un sens qui est absent de FEW 16, 601b norþ (ags.)25. De même, pour le souabe landel, la carte 434 ((la branche) est éclatée) de l’ALLy mentionne le signifiant iḻãrạdo (p 36 = Vollore-Montagne, Puy-de-Dôme), qui est à rattacher à FEW 16, 443a : « Alp. eilandrá v.a. "déchirer" M, AlpesM. ẹ l ã n d r á ALF 1531 p 888 » ; cette nouvelle attestation permet d’élargir l’aire d’attestation du mot vers la Basse Auvergne. Ce ne sont que deux exemples de formations un peu insolites et qui demandent à être expliquées, mais qui ajoutent des informations précieuses au FEW et à l’histoire de la diffusion des unités lexicales dans l’espace.
Nous avons choisi de traiter certaines formes de l’ALLy qui y ont déjà été étymologisées et qui ont ainsi été intégrées dans le THESOC, afin d’exploiter l’interaction entre ces deux projets et le FEW. Il s’agit notamment des bases : garƀa (FEW 16, 13b, abfrq.), *grût (FEW 16, 96a, abfrq.), kolzaad (FEW 16, 343b, néerl.), *kramp (FEW 16, 353b, abfrq.), *krappa (FEW 16,357a, germ.), *mornôn (FEW 16,565a, abfrq.).
Les liens à la structure XML
Nous avons donc cherché à vérifier l’apport au FEW de ces notices étymologisées insérées dans le THESOC et avons voulu savoir comment ces ressources pourraient être liées ensemble, plus d’un point de vue théorique que proprement pratique. Pour l’instant, nous avons retenu trois cas de figure représentatifs26.
Renvoi du FEW à l’ALLy27
54, 8 taller [THESOC cramponner (fr.), renvois à ALLy28] (Ø ALMC 977 ; Ø ALG 1107)
ALLy 5, 37 : « 8. krãpunà dans l’Allier, à 13, 14, 22, 23 semble dérivé du fr. crampon : le blé qui talle forme de nouvelles racines qui le fixent à la terre comme par des crampons. FEW 16, 355a (*kramp). »
Emplacement dans le FEW 16, 355a, s.v. *kramp : « nfr. se cramponner à "s’accrocher fortement (p. ex. à une personne, à un espoir, se dit aussi de la tige d’une plante)" (seit Rich 1759), AllierSE. k r ã p u n ä "taller (du blé)" ALLy 54. »
URI : « FEW 16, 355a *kramp »
.fsml 16,000901 – lignes : 2261-2268
<unit>AllierSE. krãpunä „taller (du blé)“ ALLy 54</unit>
<geoling>AllierSE</geoling>
<form>krãpunä</form>
<i>krãpunä</i>
<lb/>
<def>„taller (du blé)“</def>
<precisions>ALLy 54</precisions>
<biblio>ALLy 54</biblio>
Lignes : 2178-2181
Tags inserted into <p> paragraph, column 355a
<group>Ablt. — Aflandr. apik. cramponchel…
<title>Ablt. —</title>
Commentaire : le vb. connait un sémantisme restreint à l’aire délimitée par ALLy. Le FEW et le THESOC reprennent les données de l’ALLy. Il suffirait de faire un renvoi à l’article du FEW [vol. pag.] ou de renvoyer à l’unité qui contient déjà le renvoi précis à la carte <biblio>ALLy 54</biblio>.
108, 2-3 une jointée [THESOC grapada29] (ALMC 1021, HLoire Ardèche Lozère ; Ø ALG 483)
ALLy 5, 75 : « B. Deux mots occitans et un hybride se trouvent dans les régions d’influence occitane. […] 2. grapá (-ạdo) occupe une aire à l’O et au S, à partir de 36, 48, 60, 67, 70. Ce participe passé du verbe occitan grapa "saisir" a pris le sens de "jointée"30 dans une aire qui s’étend sur une partie du Puy-de-Dôme, la Haute-Loire et quelques localités de la Lozère et de l’Ardèche, ALMC 1021. FEW 16, 358a (*krappa)31. »
1. grapada
Emplacement dans le FEW 16, 358a, s.v. *krappa : « Vinz. g r a p á d å "jointée" RLR 63, 103, Ambert, Thiers, lang. grapado "poignée de grains", LoireSO. Annonay g r a p á ALLy 108. » Ajouter les données de ALMC 1021, p 27, 31, 35 (indiquées par le THESOC) qui élargissent l’aire de distribution attestée par le FEW.
URI : « FEW 16, 358a *krappa »
.fsml 16,000912 – ligne 3964 <biblio>ALLy 108</biblio>
Ici le renvoi à l’ALLy est déjà présent (typologie I.).
Commentaire : le lexème est déjà enregistré dans FEW. Les données de l’ALMC, enregistrées par le THESOC, trouvent leur place naturelle avec des renvois à cette unité lexicale et permettent d’élargir l’aire d’attestation.
Renvoi de l’ALLy à des unités lexicales du FEW
Dans ce deuxième cas de figure, le FEW contient un lexème qui se retrouve aussi dans l’ALLy mais sans renvoi à l’atlas (en l’occurrence, le sens est le même, alors que la forme peut subir de menues variations phonétiques). Par conséquent, le résultat est souvent l’élargissement de l’aire d’attestation du lexème32.
421,2 : croûte de pain [Ø THESOC] (Ø ALMC 1122)
(ALLy 5, 304) : « 2. grwà dessine une petite aire à 54, 62, 66, 69-71. Ce mot de la région de Saint-Étienne (Veÿ groua) et du Forez (Gras groué) est aussi lyonnais (P. grua) et nord-dauphinois (DTF 2709 grẅé). On peut le placer sous *grut (FEW 16, 97a), à côté de Sainte-Sabine (Côte-d’Or) gruon "croûton ou débris de pain".
3. grųto à 67, 69 paraît être un hybride de ses deux voisins grwa et kruto. Mais il faut noter l’alternance de kr-/gr- dans cette région. »
Emplacement dans le FEW 16, 97a, s.v. *grût : « Ste-Sabine gruon "croûton ou débris de pain". »
URI : « FEW 16, 97a *grût »
.fsml 16,000188 – lignes 1219-1224
<unit>Ste-Sabine gruon „croûton ou débris de pain“</unit>
<geoling>Ste-Sabine</geoling>
<lb/>
<form>gruon</form>
<i>gruon</i>
<def>„croûton ou débris de pain“</def>
Commentaire : élargissement de l’aire de diffusion du lexème avec le sens "croûte de pain", autrement attesté seulement en bourguignon (Ste-Sabine est située dans le sud de la Bourgogne). Il conviendrait d’insérer un lien vers l’unité lexicale du FEW pour renvoyer aux nouvelles formes enregistrés dans l’ALLy.
1163,4 : le son [Ø THESOC] (Ø ALMC 1723, Ø ALG 287)
ALLy 5, 675 : « 4. gryèœ 47 se rattache à la base germanique *grût (FEW 16, 96) qui a donné l’afr. gruel "avoine, orge grossièrement moulue"33. »
Emplacement dans le FEW 16, 96b s.v. *grût : « Nfr. griot "son servant à faire de l’amidon" Enc 1, 384b, lang. griôou "son" S34, Ambert g r y œ u "son de seigle". »
URI : « FEW 16, 96b *grût »
.fsml 16,000188 – lignes 919-942 :
<unit>Nfr. griot „son servant à faire de l’amidon“ Enc 1, 384</unit>
<geoling>Nfr.</geoling>
<form>griot</form>
<i>griot</i>
<def>„son servant à faire de l’amidon“</def>
<lb/>
<precisions>Enc 1, 384</precisions>
<biblio>Enc 1, 384</biblio>
<unit>lang. griôou „son“ S</unit>
<geoling>lang</geoling>
<lb/>
<form>griôou</form>
<i>griôou</i>
<def>„son“</def>
<precisions>S</precisions>
<biblio>S</biblio>
<unit>Ambert gryœ&few-u-boucle; „son de seigle“</unit>
<geoling>Ambert</geoling>
<form>gryœ&few-u-boucle;</form>
<i>gryœ&few-u-boucle;</i>
<def>„son de seigle“</def>
<lb/>
Commentaire : l’ALLy confirme l’aire d’attestation du mot relevée par le FEW (Ambert est situé dans le Puy-de-Dôme ; le pt 47 indique Valcivières, canton d’Ambert). Il conviendrait d’insérer la nouvelle attestation de l’ALLy gryèœ dans un paragraphe du FEW déjà existant.
Données de l’ALLy qui manquent dans le FEW
Le troisième cas de figure est sans doute le plus intéressant. Les atlas peuvent apporter des données absentes dans le FEW et donc exiger l’intégration de nouvelles unités lexicales. On peut imaginer que ce cas de figure puisse être assez fréquent.
102, 9 la balle du blé [THESOC35 balle, s. crapa et grabeau (fr.)36] (Ø ALMC 1017 ; Ø ALG 286)
ALLy 5, 71-72 : « B. Mots de sens plus général signifiant "poussières, résidus" […] 9. krapi (krapae) à 61, 66, 69, 70, 73, 75 doit sa terminaison i à buri, le suffixe -ariu étant ae ou ei à 70, 73, 7537. Quant à son radical krap-, c’est celui de krạpa "résidu de la pressée" (ALLy 213). Ce terme a peut-être été attiré vers le sens de "résidu du vannage" par la ressemblance phonique entre krap- et grab- de grabó ».
Emplacement hypothétique dans FEW 16, 359a s.v. *krappa : « Vaux, Couzon crappa "grappe de raisin après le pressage" […] Biz. SDT. "grappe dépouillée de son raisin" »
URI : « FEW 16, 357a *krappa »
.fsml 16,000912 – ligne 18 « I 3 Afr. grape18) „rafle de raisin“ (seit 11. jh., REJ 1937, 106; RSt 1, 167) »
Lignes 5187s
Tags inserted into <p> paragraph, column 359b
<pnum>3.</pnum>
<unit>Afr. grape18) „rafle de raisin“
Les attestations de l’ALLy se rattacheraient aux lignes 5379-5385
<unit>Vaux, Couzon crappa „grappe de raisin après le pressage“</unit>
<geoling>Vaux</geoling>
<geoling>Couzon</geoling>
<form>crappa</form>
<i>crappa</i>
<lb/>
<def>„grappe de raisin après le pressage“</def>
ou aux lignes 5409-5414
<unit>voir. id., Biz. SDT. „grappe dépouillée de son raisin“</unit>
<geoling>voir</geoling>
<geoling>Biz</geoling>
<geoling>SDT</geoling>
<imp/>
<def>„grappe dépouillée de son raisin“</def>
<lb/ >
Commentaire : le sens manque dans FEW, mais Gardette propose un rapprochement hypothétique avec *krappa, parce que le lexème grape, lié aux raisins, est attesté dans la même région, entre l’Isère et l’Ardèche septentrionale. D’un point de vue informatique, il faudrait attacher le lexème de l’ALLy à l’ensemble du paragraphe I.3. du FEW.
512, 5 roitelet [THESOC gruda noga°°38] (ALP 956)
ALLy 5, 360 : « Dénominations d’après la petite taille de l’oiseau […] krou dė nyéi 75 "coquille de noix" »
cf. FEW 7, 255b s.v. nūx : « Clerm. nougóta f. "roitelet" » et 256b : « Saugues n u z ē t a "roitelet" » [Hérault ; HLoire, Le Puy]
Commentaire : d’après le THESOC, la désignation du roitelet liée à l’image de la noix est attestée dans les dialectes du Rhône mérid. (Larajasse 49), Isère occ. (Jardin 63, Clonas 65), Loire (Ste-Croix-en-Jarez 62), HLoire (Saugues), de l’Ardèche sept. (Vion) et de la Drôme sept. (cf. Alixan, Chantemerle, La-Roche-De-Glun, Monteleger dans ALP 956). Les données confirment FEW 7, 255b s.v. nūx et élargissent l’aire d’attestation du lexème. L’ajout de cette lexie complexe dans les dérivés de nūx, qui s’insère dans une aire géographique cohérente, enrichit la connaissance des désignations métaphoriques du roitelet créées par expansion sémantique39.
L’ALMC et la refonte modulaire du FEW
L’index de l’ALMC rédigé par Nauton, incomplet et sous forme manuscrite, comprend deux fichiers. Le premier, sous forme de fiches lexicales avec renvois non systématiques au FEW, est préparatoire au second fichier qui « présente la liste alphabétique des étymons, chacun suivi de tous les noms patois, y compris toutes leurs variantes, qui y remontent. Il était donc conçu comme un supplément au FEW pour les données des parlers du Massif Central40. » Dans un article récent, Wolf propose une réécriture de l’article auca, auparavant rédigé par Nauton sur la base de la carte 605, avec le renvoi systématique à FEW 25, ainsi conçue :
« auca (25, 754-775) · jars 605 : (25, 766b ; + -ardu) œutsạr, œʊtsạr, ʊkạr, ʊyạr ; (25, 766b ; + -aceu) aʊkạs, oʊkạs, ʊwtsạs ; (25, 767a ; + -attu) oukạ, oʊkạrt · oie 605 : (25, 755b) ạʊka, ạʊtsa, ọya, wọyo · oison 605 : (25, 768b ; + -one) ʊyʊ, oʊtsụ, ʊwtsụ, aʊtsʊ, ʊtsʊ, œtsụ, eutsụ ; (25, 770a ; + -itta) oʊkẹto, aʊkẹto, ʊwtsẹta, ʊyẹto (f.) ; · cri d’appel des oies 605* : (25, 757b) a l ọyo ; (25, 768b ; + -one) ʊwkʊ41 »
L’article auca (FEW 25, 754a-775b) est rédigé par Éva Buchi et André Thibault selon la structure modulaire qui explicite les changements morphologiques et qui lui permettrait d’être lié à la notice de Nauton. La balise tag-affix <affix type="suffix">42 permettrait, d’un point de vue informatique, de reconnaître la structure explicitée du FEW et de créer un lien avec les données de l’atlas ainsi classée. Par exemple, les suffixés en -āceu sont classés sous le paragraphe 5.a.α. (25, 766b), les suffixés en -ardu sous 5.a.β. (25, 766b), et ainsi de suite. La nécessité et l’avantage de ce travail d’indexation des matériaux ont été mis en relief par Lothar Wolf :
« Ce travail de séparation morphologique des données du fichier est la première tâche à accomplir. Le cas échéant, ce sera un travail pénible sans aucun doute, puisque chaque dérivé devrait être identifié étymologiquement (ce qui ne sera pas toujours possible) et être mis de nouveau dans l’ordinateur, mais comme entrée nouvelle, c’est-à-dire avec l’étymon, le numéro et le titre de la carte de l’atlas, le renvoi précis au FEW, et, bien sûr, les variantes phonétiques43. »
La modélisation modulaire des articles de la refonte du FEW a été théorisée et mise en pratique par Anne-Christelle Matthey et Christel Nissille44. À Nicolas Mazziotta revient le mérite d’avoir, le premier, évalué la proposition d’une modélisation du FEW rétro-converti selon le modèle de l’Ontology Web Language. Il proposait en 2011 une comparaison entre la formalisation OWL de l’ALW, sur la base des « cinq relations de base » théorisées par Marie-Guy Boutier45, et le FEW, puisqu’à son avis : « les deux entreprises [ont] les mêmes caractéristiques fondamentales, bien que le FEW soit, il est vrai, un petit peu plus complexe46. » Sa proposition d’enrichir les fichiers du FEW d’un « formalisme RDF [qui] est plus complet et plus expressif que le formalisme hérité de la représentation XML des documents47 » représenterait un avantage indéniable pour la mise en réseau du FEW ; à condition que toutes les autres ressources soient formalisées de la même manière. La réécriture de l’article étymologique de Nauton, en suivant le modèle structurel de l’entrée du FEW, permettrait de créer un lien automatique et immédiat entre les deux ressources. En effet, le modèle proposé par Mazziotta peut fonctionner avec les articles de la refonte en B-, qui ont été rédigés de manière « modulaire ». L’avantage de ce type de rédaction est que les matériaux sont préalablement présentés selon une structure qui en explicite les caractères (par exemple, les données morphologiques) et qui permet, comme il le montre bien, une structure hiérarchique explicite48. L’avantage de l’ALW est que ses données sont toujours explicitées ; dans le FEW, en vertu du principe de synthèse qui le caractérise, elles sont souvent implicites, et l’organisation structurelle des articles varie en fonction des souhaits des rédacteurs : le .fsml issu de la rétro-conversion n’arrive pas à les expliciter de manière automatique49. Nous nous demandons donc si une rétro-conversion du FEW en langage OWL demanderait un effort considérable pour expliciter de façon manuelle toutes les données implicites des articles du FEW. Comme Mazziotta semble l’envisager à la fin de son article, le formalisme OWL devrait être pensé pour pouvoir être appliqué a posteriori sur le résultat de la première rétro-conversion.
Conclusions : minima etimologica
La vocation du FEW d’être « eine darstellung des galloromanischen sprachschatzes » en fait naturellement le lieu idéal pour nourrir son inventaire lexicologique de l’apport des atlas. Le choix de fournir « une présentation […] synthétique des matériaux50 » et, vraisemblablement, les contraintes du medium papier dans lequel il a été conçu – il ne pouvait en être autrement – ont obligé Wartburg à des choix et à des sélections51.
En insérant les données des NALF dans le FEW, sa « dimension thesaurus52 » en serait par conséquent accrue dans sa position de centre collecteur des données lexicologiques galloromanes53, qui accomplit le rêve d’un « dictionnaire total à la Jorge-Luis Borges ("La bibliothèque de Babel"), inlassablement augmenté, remanié, élagué et reclassé par des machines infaillibles54 ». En même temps, injecter les données très nombreuses des NALF55 implique une réflexion sur le risque de toucher à la « dimension monographique56 » de l’œuvre, et donc de « briser la séquentialité du discours et de provoquer la perte d’informations importantes57 » que seule la lecture intégrale d’un article et de son commentaire permet, en respectant la conception de Wartburg. Il sera en effet nécessaire de tenir compte de l’ajout de nouveaux sens (cf. roitelet), de propositions douteuses (cf. grwà), d’élargissements des aires d’attestations (cf. grapada). En plus, la dimension synchronique des Atlas entrerait dans un dialogue dynamique avec la dimension diachronique du FEW, en permettant ainsi de percevoir les changements des aires de diffusion des mots sur l’axe temporel (cf. pastorèle).
Or, la question des modalités de gestion d’une « mise à jour » du FEW est en discussion et nécessite des réflexions plus approfondies, autant d’un point de vue informatique que d’un point de vue théorique. Nous avons relevé, dans cette contribution, comme les possibilités d’hyperliens et de renvois entre FEW et Atlas changent au cas par cas, tout en restant assez rationalisables (du moins selon les trois cas de figure que nous avons isolés). Les balises "ici" (in-column index) et le tag-microstructure <p structid=""> (Renders 2015, 275-278) devraient faciliter considérablement des renvois plus fins avec le FEW rétro-converti. Dans le cadre d’un « chantier global commun58 » les développements concernant le FEW pourront sans doute être harmonisés avec la planification informatique des entreprises de numérisation des NALF. Pour cette raison il est important d’envisager des « hyperliens réciproques entre les lexèmes [des Atlas] et le FEW informatisé59 » qui rendraient plus simples :
- une homogénéisation et une harmonisation entre les différentes entreprises, tout comme une lemmatisation selon des standards communs ;
- l’entrée dans la dimension onomasiologique des données du FEW qui, dès le début, a été structuré de manière alphabétique, malgré les souhaits initiaux de Wartburg60.
L’effort de concertation demandé concerne non seulement les chercheurs dialectologues, mais aussi les informaticiens responsables de concrétiser ces positions théoriques. Du côté du FEW, la disponibilité à la collaboration est réelle, au moins dans l’idée de son directeur, Yan Greub.
Le linguiste-dialectologue aura surtout le devoir d’interpréter la masse de données, fruit d’un demi-siècle de travail et de dizaines de dialectologues professionnels et engagés61. Colette Dondaine a déjà mis en relief l’apport d’un index étymologique de l’ALFC au FEW et à l’ALFC lui-même, puisqu’il « permet d’élucider en diachronie les formes de l’Atlas comtois et de les classer grâce à des références au FEW62 » :
- révision des matériaux et élimination des éléments inexacts ;
- nouveaux apports ;
- possibilité de situer les types patois dans le temps et dans l’espace grâce au FEW (et au GPSR) ;
- distinction des types héréditaires du latin et des emprunts au français ;
- élimination des "faux inconnus" appartenant à des familles lexicales déjà répertoriées dans le FEW et leur réintégration dans l’architecture de l’œuvre.
Nous conclurons en synthétisant une série de minima etimologica mises en avant tout au long de notre contribution et qui pourraient favoriser la coordination des Atlas avec le FEW :
- renvoi à la place précise dans l’article (page, colonne, structure ou unité lexicale selon les exigences) ;
- informations de morphologie dérivationnelle (composition et dérivation) ;
- informations sémantiques ;
- identification du type d’apport au FEW (nouvelle donnée, correction, étymologisation d’un inconnu, etc.) selon des grilles partagées.
Nous sommes bien conscients qu'il ne s'agit là que d’une réflexion partielle et que Pascale Renders ou Nicolas Mazziotta ont déjà entrevu ces différents cas de figure, et bien d’autres. Notre point de vue est celui du rédacteur du FEW et nous réfléchissons donc à partir de ce que le FEW peut apporter à la structuration des matériaux des NALF, et sur ce que ces derniers peuvent apporter au FEW. Nous sommes conscient de l’importance du chantier, que nous souhaiterions commun, tout comme Martin Glessgen et Maguelone Sauzet. Mais nous sommes également d'avis que, au fond, la relation entre l’investissement et le rendement est extrêmement positive : grâce à l'excellent travail tant de Wartburg que des auteurs des NALF, nous pourrons, en mettant en lien les deux ensembles, les enrichir très considérablement et en tirer tout le profit.