Introduction
Notre texte va exposer les objectifs, les implications méthodologiques et nécessités techniques et procédurales, les difficultés et obstacles rencontrés, les travaux réalisés et les résultats encore provisoires du Projet Plin-édit. Ce projet, co-financé par la Maison des Sciences de l’Homme de Bretagne (MSHB) et l’Institut brestois des sciences humaines et sociales, portait sur la numérisation d’une infime partie du fonds des manuscrits du naturaliste Georges Cuvier (1769-1832), fonds conservé à la Bibliothèque de l’Institut de France, située à Paris. Ce début de numérisation est bien modeste car le fonds en question est non seulement célèbre (il a déjà fait l’objet d’utilisations ponctuelles très sérieuses – Taquet, 2006, 2019), mais surtout, son volume, son contenu et sa structure sont passablement compliqués. Nous conclurons en parlant de la nécessité d’un travail pluridisciplinaire humain de « haute intensité ». Autrement dit, d’un travail sans doute inaccessible à l’intelligence artificielle quelles que soient sa forme et son développement – une intelligence qui restera, puisqu’elle est censée la reproduire, aussi limitée que la nôtre (du moins si l’on se place, comme nous, dans une épistémologie proche du néo-mystérianisme – Chomsky, 2016).
1. Le Projet Plin-édit : histoire, objectifs, travaux réalisés…
a. Historique du projet
Notre projet de numérisation est né d’une découverte et d’un constat. Cette découverte a été faite par une doctorante que Marie-Thérèse Cam1 et Hervé Ferrière encadrent, en l’occurrence Madame Julie Le Goïc Auffret dont la thèse en Langues et littératures anciennes et EHST, porte sur « Pline l'Ancien, ichthyologue » (identification d’animaux aquatiques inconnus ou mal déterminés à partir des sources gréco-latines et de la tradition manuscrite et éditoriale de l’Antiquité jusqu’à l’époque contemporaine). Elle a en effet repéré, au sein de la correspondance privée de G. Cuvier et de ses innombrables notes de travail, un important matériel, datant surtout de la période 1810-1830, lié au souhait de ce dernier de participer à la réédition commentée de l’Histoire Naturelle de Pline l’Ancien (23 ou 24-79) – un projet qui n’a abouti qu’en partie à cause de la mort précoce de Cuvier.
En cherchant à mieux cerner les tenants et aboutissants de ce souhait de Cuvier, nous avons constaté que l’on ne disposait pas d’un inventaire détaillé de ses manuscrits. Il en existe bien un, réalisé par l’ancien Conservateur de la Bibliothèque de l’Institut Henri Dehérain (1867-1941), édité en 1908 et intitulé « Catalogue des Manuscrits du Fonds Cuvier conservés à la Bibliothèque de l'Institut de France, Henri Dehérain ». Mais il ne donne pas une vision claire ni détaillée des enjeux traversant les travaux de Cuvier (et encore moins ses conditions de réalisation).
Nous avons alors décidé de réfléchir collectivement sur les raisons de ce souhait de Cuvier (et ses implications et intérêts) de rééditer Pline l’Ancien, et de proposer à des collègues de participer à un programme de recherche que nous avons nommé Plin-édit autour des savoirs de différentes formes que nous pourrions tirer des manuscrits de Cuvier. Ce projet voulait donc prendre place au sein d’un domaine en cours de constitution dans le monde francophone depuis quelques années maintenant : les humanités environnementales en lien avec les théories de l’évolution et de l’écologie. C’est en partie dans l’objectif d’élargir l’interdisciplinarité inhérente à ce domaine de recherche que nous comptions transformer des terrains d’étude encore trop généralement séparés en un nouveau terrain d’étude collectif en initiant un projet de numérisation de textes du XIXe intégrant des savoirs datant de l’Antiquité. Des collègues des domaines d’études concernés ont alors été sollicités (dans une zone géographique définie par les institutions de financement du projet). Ont répondu à notre appel les linguistes Amarande Laffon2, Patricia Gaillard-Seux3 et William Pillot4, les naturalistes Samuel Iglesias5 et Santiago Aragon6, les historiens des sciences Pierre Savaton 7 et Pietro Corsi8 et le spécialiste de l’édition numérique Geoffrey Williams9.
Nous prévoyions de numériser, par nos propres moyens techniques à l’origine, et de transcrire des manuscrits inédits de G. Cuvier à propos de son souhait de rééditer des ouvrages anciens sur les animaux marins, et d’identifier et de retracer, par un travail interdisciplinaire les espèces en question, leurs usages et représentations culturelles, mais aussi les impacts des activités humaines (et des changements climatiques) sur leur répartition en Atlantique et en Méditerranée.
b. Nos objectifs initiaux et nos premières questions méthodologiques
Nous souhaitions donc mettre en place une équipe ayant pour objectif d’étudier les données fournies par ces écrits inédits. Ces manuscrits de Cuvier (correspondances, carnets de notes, annotations sur des ouvrages, écrits pour soi…) forment un corpus de plusieurs dizaines de milliers de pages – dont une part rédigée en latin. Ces manuscrits pourraient être en partie seulement retranscrits afin d’être mis à disposition de tout le monde.
Ici se dessinent déjà quelques-uns des nombreux choix que les équipes de recherche impliquées dans un projet de numérisation doivent réaliser dans l’objectif de conserver un maximum d’informations utiles aux différents types de recherches pouvant être menés sur ce fonds. L’objectif final est-il que ce fonds puisse être numérisé de manière à être étudié dans une perspective interdisciplinaire ? Ou bien doit-on identifier des portions de ce fonds pouvant répondre à des questions « actuelles » (pour ne pas dire « à la mode ») et s’attacher à sa mise en ligne dans un cadre clair et problématisé ? Dans notre cas, ce fonds constitue une source considérable d’information sur la manière dont Cuvier et ses contemporains travaillaient et dans quel cadre ils évoluaient, mais aussi des sources sur la détermination, la répartition, le comportement, les usages et les représentations culturelles des animaux marins depuis, au moins, Pline l’ancien. Et, pour ces deux aspects, il nous parait très prometteur. D’autres intérêts, liés à l’histoire antique, à la philologie, à la linguistique, à la sémiotique et à l’historiographie, mais aussi à la conservation et à l’archivage des sources et des collections nous sont apparus assez rapidement.
c. L’identification d’une problématique scientifique commune
Il s’agissait en effet aussi de questionner les méthodes actuelles de connaissance de la faune marine pour mieux comprendre les conséquences qu’elles ont sur notre mode de lecture des sources historiques. En effet, le « Shifting baseline syndrome », mis en lumière aussi bien en biologie marine (incapacité à évaluer rigoureusement les dites « ressources » halieutiques – Pauly, 1995) qu’en écologie (effacement de la mémoire collective et individuelle dans les milieux anthropisés – Dubois, 2012), se fonde sur l’interrogation des sources passées (parfois très anciennes), et s’inscrit dans une perspective historique. Alors, nous nous sommes demandé en quoi la relecture au XIXe siècle par G. Cuvier des ouvrages de Pline l’Ancien (et de ses commentateurs et traducteurs successifs) pourrait-elle nous aider à mieux retracer les effets de l’anthropisation des littoraux (français) ? Les effets de celle-ci sont déjà repérés depuis quelques décennies à son époque10. C’est aussi à ce moment-là, durant les années 1820, qu’il souhaite participer à la réédition de l’Histoire Naturelle de Pline l’Ancien. Ce projet est-il un indice d’une prise de conscience des changements environnementaux en cours et d’une sorte d’obligation faite aux animaux de « s’adapter » à ces changements ?
Une citation de Cuvier va nous permettre d’exposer la richesse des questionnements qui le traversaient déjà, alors qu’il n’avait qu’une vingtaine d’années en 1788, près de quarante ans avant son projet de rééditer l’Histoire Naturelle : « Je pense que l'on devrait rechercher soigneusement les rapports de tous les êtres existant avec le reste de la nature, et montrer surtout leur part dans l'économie de ce grand Tout. En faisant ce travail, je voudrais que l'on partît des choses les plus simples, par exemple, de l'eau et de l'air, et qu'après avoir parlé de leur influence sur l'ensemble, on passât peu à peu aux minéraux composés ; de ceux-ci aux plantes, et ainsi de suite… » (Taquet, 2006, p. 179)
Nos objectifs étaient donc d’abord scientifiques et épistémologiques : il s’agissait de mieux saisir l’histoire, les motifs et parfois les dénis entourant la compréhension et la réalité de l’anthropisation des milieux en particulier du milieu marin. Déjà à l’époque de Cuvier, on connaît des crises d’approvisionnement en certains poissons et mollusques (Ferrière, 2022), mais aussi les effets des premières industries sur la qualité de l’air des villes, sur les espaces insulaires colonisés par les planteurs et sur les forêts d’Europe (Locher, Fressoz, 2020).
Nous souhaitions comprendre comment l’anthropisation (parfois fantasmée) des milieux a pu inspirer le catastrophisme scientifique proposé, entre autres, par G. Cuvier (Savaton, 2019) en réponse aux théories transformistes développées par J.-B. de Lamarck (1744-1829) et les explications fixistes de l’existence de fossiles différents des espèces actuelles.
Nous voulions aussi montrer que le concept d’anthropisation a des racines scientifiques, historiques, philosophiques et politiques singulières.
Il s’agissait encore de comprendre en quoi l’évolutionnisme darwinien fait croire à certains d’entre nous que notre espèce est capable de s’adapter et de survivre aux changements en cours (du moins au prix de certains « sacrifices » qui, à l’aune du progrès général de l’humanité, seraient quantité négligeable). Une question que l’on pourrait résumer à celle du « grand dessein » de la Nature.
Nous cherchions enfin à partir des manuscrits inédits de Cuvier à cerner les motivations qui les ont poussés, lui et certains de ses contemporains, à étudier avec passion les écrits des auteurs antiques et médiévaux, afin de prouver que, si la nature se modifie, ce ne peut être que sous l’effet des activités humaines (une anthropisation plus ou moins déraisonnable avec ses impacts liés à la littoralisation des sociétés humaines très intense dans les pays occidentaux en voie de sur-développement dès le début du XIXe) et de catastrophes ponctuelles et non selon une « Marche » de la Nature correspondant peu ou prou à ce que nous appelons aujourd’hui l’évolution des espèces11. Toutes ces thématiques et problématiques semblaient en effet cristalliser dans le désir de Cuvier de rééditer Pline l’Ancien.
2. Un projet pluridisciplinaire complexe
a. Le choix des manuscrits à retranscrire et encoder
Comment en effet étudier un immense fonds célèbre dont le contenu et la structure sont passablement compliqués avec des moyens limités ? En faisant des choix parfois drastiques.
Nous avons sélectionné, en lien avec les thématiques de recherche des membres de l’équipe et les conditions posées lors du financement du projet, six liasses (représentant environ 300 pages) parmi toutes celles qui avaient été repérées mais trois seulement ont été étudiées en entier (environ une centaine de pages). Nous avons ensuite retenu deux animaux aquatiques et un seul a fait l’objet d’une numérisation. La contrainte temporelle et l’obligation d’avoir une production numérique nous ont en effet amenés à faire des choix assez drastiques. Nous avons décidé de retranscrire et d’encoder deux liasses (dites « tests » parce qu’elles devaient nous servir à tester la faisabilité et l’intérêt du projet) de manuscrits du fonds Cuvier conservé dans les archives de la Bibliothèque de l’Académie des sciences de Paris : la liasse Ms 3101 (« Extraits sur les sepia de Carl Von Linné12 ») comptant 28 pages manuscrites et la liasse Ms 3161 (« Fonds Cuvier Carton H 2 Liasse XXVII 161. Analyse des éléments de minéralogie de M. Brongniart précédée d’une introduction des éléments des sciences dans l’enseignement de la jeunesse13 ») qui compte quant à elle 52 pages (dont la numérotation est d’ailleurs incorrecte14). Ces deux liasses ont été choisies parce qu’elles répondaient à des critères intéressants sur les plans naturalistes, historiques, linguistiques et épistémologiques et méthodologiques.
La première liasse sur la Seiche (le genre Sepia) permet en effet de tester les lectures croisées de la part des chercheuses et chercheurs impliqués dans le projet en étant comparée à une autre liasse étudiée collectivement mais non retranscrite : la liasse « Suchus » portant sur le crocodile. Ces deux animaux Seiche et Crocodiles sont en effet symboliques des controverses naturalistes dans les années 1820 autour des transformations des espèces animales et des causes de ces transformations15. Ces liasses mobilisent enfin des écrits antiques (dont bien sûr Pline) afin de « prouver » selon Cuvier la fixité des espèces animales depuis la « Création ».
La seconde liasse retranscrite portant sur l’enseignement des sciences devait nous permettre de discuter de l’histoire longue de l’histoire naturelle, de la diffusion des savoirs scientifiques, historiques et linguistiques et de la mobilisation des sources antiques par les naturalistes du XIXe (en particulier sur l’ichtyofaune de Pline l’Ancien qui est souvent critiqué dans les ouvrages paraissant durant cette période). Les notes de Cuvier nous ont permis de voir comment il a fait évoluer son discours quant à l’importance de la connaissance de l’histoire des sciences dans leur enseignement, leur compréhension et leurs progrès. Cela nous a permis de savoir pourquoi et comment Cuvier lisait les sources antiques et de nous demander si nous pouvons nous fier à la relecture de Cuvier des sources antiques (où il les lisait et parfois retraduisait) et si cette relecture nous permet d’identifier des phénomènes liés à l’anthropisation des milieux (présence des animaux, changement de taille, de comportement liés aux activités de pêche, à la pollution des côtes…).
b. Les difficultés rencontrées
Comment poser les bases d’un encodage des manuscrits qui soit utile et intéressant dans différents champs disciplinaires ? Comment conserver l’organisation singulière de manuscrits (ou plutôt de leur « désorganisation ») ? Comment garder des traces des ratures (Fig. 1), des corrections, des insertions (Fig. 2), des collages (Fig. 3), des listes (annotées, commentées, remaniées…), des citations d’auteurs (qui permettent de voir comment Cuvier les mobilise), des explications, des schémas et croquis de matériels biologiques ou géologiques (de croquis parfois très rudimentaires et demandant de longues séances d’observation avant d’être interprétés correctement16). Il fallait aussi envisager les différentes langues utilisées : leur graphie et leur traduction avec des usages parfois propres à une époque, les abréviations en latin et en grec ancien de Cuvier, sa manière d’accentuer, ses erreurs orthographiques (le français est sa langue seconde et l’orthographe de son temps n’est pas figée)… Ainsi, nous avons eu parfois des difficultés à identifier des personnes, des lieux, des animaux ou des œuvres cités.
Une fois toutes ces difficultés relevées, comment retranscrire, baliser et encoder les pages des manuscrits ? Il nous a fallu choisir les balises permettant d’identifier les formes des écrits, leur matérialité, leur organisation, et bien sûr, leur contenu : choisir des mots-clés dans le but d’établir des index, de repérer les noms propres (auteurs, témoins…), les citations (les passages repris et si possible retrouver les ouvrages en question), mais aussi les espèces animales citées, les comportements, les lieux (Fig. 4)…
Tout cela dans le but de voir s’il était possible de réellement « mesurer » l’anthropisation du milieu marin grâce à ce type de sources. Autant dire, qu’une grande partie du travail reste à faire, mais il est clair que des indices sont à notre portée dans ces textes.
Pour conclure cette partie, nous tenons à souligner l’importance du travail collectif et donc aussi de celui des « petites-mains » qui retranscrivent, balisent puis encodent les textes… Afin que les deux stagiaires recrutées au cours du projet, chacune pendant 4 semaines, Marie Estrabaud et Emma Kolodziej (deux étudiantes en master d’éditions numériques), et Élisa Mabille (Chargée d'édition de corpus numériques de la MSHB) comprennent parfaitement les enjeux du projet, nous les avons invitées tout au long du travail à participer aux réunions de l’équipe de recherche. Notre étudiant du master EHST de l’UBO, Mountassir Bay Tamsamani, par les réflexions menées au cours de son mémoire de recherche portant sur des usages spécifiques d’outils numériques dans la littérature de science-fiction, a contribué au présent travail et nous tenons ici à l’en remercier.
3. Quelques réflexions générales sur la numérisation des manuscrits
Pour finir, nous vous présenterons quelques réflexions générales qui nous ont été inspirées par ce projet de numérisation. Après avoir suivi divers séminaires avant et tout au long de notre projet, nous avons été confrontés à plusieurs questions importantes. Avec l’apparition des outils d’Intelligence Artificielle, peut-on encore numériser et retranscrire « comme avant » des manuscrits ? C’est-à-dire en prenant le temps de la lecture systématique, en mobilisant des collègues enseignantes, enseignants, chercheuses, chercheurs, ingénieurs et techniciens ? N’allons-nous pas être contraints, tôt ou tard, à utiliser seulement des bots (agents qui simulent mais dépourvus d’intentionnalité et dont la "mémoire" n'a rien à voir avec la mémoire humaine) capables, dans notre cas, de retranscrire le latin ou le grec ancien ? Les injonctions à aller dans ce sens risquent-elles de devenir très fortes ? Les financements des projets de numérisation risquent-ils d’être conditionnés par leur utilisation (permettant un approfondissement de l’apprentissage de ces machines mais aussi une valorisation aisée et rapide des productions réalisées) ?
On nous parle en effet de « Deep learning » mais les présupposés épistémologiques et anthropologiques sous-jacents à l’utilisation de ces outils sont importants et doivent être questionnés collectivement et publiquement afin d’en imaginer les conséquences à plus ou moins longs termes. Celles-ci sont en effet d’ordre technique et économique mais aussi épistémologique et éthique : de quel type de recherche parlons-nous dorénavant quand nous faisons appel à ces bots ? Recherche-t-on des connaissances, de savoirs de formes différentes (scientifiques, historiques, linguistiques, philosophiques…) ou seulement à atteindre des objectifs « mesurables » d’efficacité et de production ? Un bot est vu comme plus rapide et plus efficace qu'un intense travail humain, mais peut-il vraiment retranscrire correctement des schémas, des ratures, des notes en vrac, des brouillons comme ceux que vous pouvez voir dans les liasses numérisées par les services des Bibliothèques de l’Institut de France17 ? Nous ne préjugeons pas de l’efficacité de la lecture automatique mais les résultats affichés par des logiciels payants sont-ils un argument valable pour nous amener à exercer gratuitement ces bots en les utilisant (en relisant et corrigeant leurs erreurs) ?
Nous l’avons constaté pendant toute la durée de notre projet, nous avons ressenti la nécessité de nous retrouver soit physiquement en grand groupe soit régulièrement (et parfois en visio) en groupe restreint pour mieux appréhender les dimensions épistémologiques et méthodologiques de notre travail. Il a fallu alors impliquer et remobiliser, malgré toutes les contraintes que cela occasionne, les chercheuses et chercheurs des différentes disciplines afin de résoudre les problèmes soulevés par la plume de Cuvier et ses multiples usages des sources antiques. Mais les échanges humains étaient tellement riches et joyeux qu’il serait vraiment dommage de s’en passer en ne devenant que des utilisateurs de plateformes et de bots18.
Alors peut-on pour autant se passer des outils informatiques ? Non. Ils peuvent servir pour commencer la retranscription (ce qui est déjà difficile pour des manuscrits comme ceux que nous avons étudiés), mais en veillant à conserver grâce à la saisie, l’observation et la lecture humaines, toute la richesse, la profondeur et la matérialité des textes anciens19, à leurs retraductions et utilisations successives, dans un principe d’empathie que les historiens connaissent bien (même s’ils s’en méfient !). Si nous abandonnons cette complémentarité, nous risquerions de nous retrouver, bien seuls, dans des collections de textes un peu sèches et froides. De nombreux sens et apports des textes seraient alors perdus.
Une autre catégorie de questions nous est apparue en raison des injonctions environnementalistes que nos universités relaient depuis quelque temps déjà : le stockage, le transfert et la mise à disposition permanente des données informatiques soulèvent de gros problèmes structurels, techniques, économiques, sociaux, éthiques et écologiques. Ces processus entraînent de grosses consommations d’énergie dans des usines-hangars - qui sont autant de radiateurs géants, d’espaces de travail pénible, mais aussi des lieux d’espionnage, de confiscation et de marchandisation des données20. La question de leur pérennité se pose aussi déjà (un sujet dont on ne se préoccupe pas toujours, comme si la conservation de ces données était éternelle). Alors, comment concilier tout cela avec les objectifs de Développement Durable et les Responsabilités Environnementales au sein de l’ESR ? Quelle pourrait-être la place des SHS dans ce sujet ? S’agit-il de s’autolimiter ? Mais quel impact cela aurait face aux géants du Streaming21 ? N’est-ce pas pourtant aux scientifiques de montrer (parfois) l’exemple ?
Devons-nous questionner les réels intérêts de la numérisation : réfléchir à cette injonction du « tout numérique » et à ses limites ? Pourquoi et pour qui numériser ? Le nombre d’utilisateurs ou de lecteurs est-il un bon indice ? En tout cas, celui de la valorisation et la conservation des documents numérisés est souvent mis en avant par les institutions qui financent et/ou abritent les manuscrits parce qu’une image numérique est assez facile à communiquer, mais est-ce un argument convaincant ? Mais quels autres modes de diffusion peut-on envisager ?
La pression sur le temps consacré à la recherche est de plus en plus forte. Ce qui nous amène à hésiter devant des projets nécessitant l’intense travail humain dont nous parlions plus tôt…
Conclusion : notre travail ne fait que commencer !
Notre projet consistait à débuter la numérisation d’une infime partie des manuscrits Cuvier et à repérer une partie des espèces de l’ichtyofaune qu’il a étudiées. Un immense travail, qui nécessitera sans doute la mise en place d’une forme de sciences participatives, reste donc à faire. Mais le « test » a été concluant.
Nous voudrions conclure ce texte en soulignant la générosité de l’aide apportée par la Bibliothèque de l’Institut à l’issue de ce projet et en particulier par sa directrice Sabrina Castandet-Le Bris, ainsi que ses collègues du service des Bibliothèques numériques, Céline Leroux et Patrick Latour. Après avoir reçu l’autorisation de la Commission des Bibliothèques et archives de l’Institut de France de publier les documents numérisés que nous avons établis, l’Institut nous a proposé de produire lui-même des images des manuscrits des liasses étudiées et les mettre à disposition, accompagnées de notre retranscription et de leur encodage sur le site de leur bibliothèque numérique (un site pérenne, identifiable, très souvent consulté – en tout cas plus que l’aurait été notre projet tout seul ! – et dont la citabilité est garantie). Ce sont les images que nous avons indiquées plus tôt, en lien avec les deux liasses étudiées, et dorénavant disponibles sur le site de la Bibliothèque numérique de l’Institut22.
Par la suite, dans le cas où notre projet puisse se poursuivre, il nous faudra établir une convention de partenariat avec la Bibliothèque de l’Institut et rechercher des moyens de financement propres pour effectuer ces numérisations.
En tout cas, que toutes les actrices et tous les acteurs de ce projet sont ici encore une fois remerciés. Notre travail à leur côté ne fait donc que commencer !