Les modèles théoriques de la perception visuelle à l’épreuve des images de l’art : une étude oculométrique

  • Theoretical models of visual perception tested against art images: an oculometric study

DOI : 10.54563/demeter.1702

Abstracts

La façon dont nous explorons une image dépend de 2 stratégies que nous utilisons sans même nous en rendre compte. Nous pouvons utiliser une stratégie « bottom-up », dans ce cas ce sont plutôt les caractéristiques physiques de l’image qui vont guider nos yeux (les contrastes de forme, d’intensité et de couleur) ou, au contraire, une stratégie « top-down », ou les yeux sont guidés pour l’exploration de l’image par la cognition (nos attentes, nos connaissances). Dans cet article, nous présentons une étude qui montre que les artistes ou les connaisseurs en art ne se comportent pas comme les autres spectateurs, ils ont des stratégies très différentes et sont moins soumis à l’influence des processus bottom-up.

The way we explore an image depends on 2 strategies that we use without even realizing it. We can use a “bottom-up” strategy, in which the physical characteristics of the image guide our eyes (contrasts of shape, intensity and color) or, on the contrary, a “top‑down” strategy, in which the eyes are guided to explore the image by cognition (our expectations, our knowledge). In this article, we present a study showing that artists and art connoisseurs behave differently from other spectators, with very different strategies and less subject to the influence of bottom-up processes.

Outline

Text

Je remercie vivement Nathalie Delbard et Dork Zabunyan de m’avoir impliqué dans leur projet « Oculométrie et perception des images : nouveaux enjeux esthétiques ». Ce projet a été pour moi l’occasion d’aborder mes recherches en psychologie cognitive sous un nouvel angle, original et fructueux. L’étude présentée ici ne représente qu’une partie du travail qui a été réalisé dans le cadre de ce projet. De nombreux autres enregistrements ont été réalisés où toutes sortes d’images et de films ont été testés dans des conditions très différentes.
Cette étude a bénéficié du soutien du Programme d’Investissement d’Avenir ANR-11-EQPX-0023.

Introduction

Les œuvres d’arts ont un pouvoir, elles exercent sur nous une fascination qui n’est pas toujours facile à expliquer. Une même œuvre aura, chez certains, une forte valeur hédonique, sans que cela soit forcément le cas pour d’autres qui soit resteront insensibles ou, pire encore, la trouveront laide. Un tableau ou une photo contiendra des interactions entre les lignes, les couleurs, les textures, les formes, les tailles qui seront plaisantes pour les sens de certaines personnes, mais pas pour tous. Pourquoi ? Comment ? A priori, nous avons tous le même système visuel composé d’une rétine tapissée de photorécepteurs qui transcodent la lumière en influx nerveux, de circuits neuronaux qui transmettent cette information vers des centres spécialisées où l’information sera ensuite traitée, analysée. Au final, un percept émergera de tous ces traitements, la sensation d’avoir vu quelque chose. Mais la cognition visuelle ne se limite pas à la création d’images mentales, elle permet aussi de reconnaitre les objets, d’identifier immédiatement leur fonction. Elle nous permet aussi de pouvoir interagir avec notre environnement ou juste d’apprécier, ou pas, ce qui nous entoure. Peut-être qu’une façon originale de comprendre une œuvre d’art, une peinture ou une photo, et l’action qu’elle peut avoir sur nous, serait alors d’étudier les mécanismes qui permettent de l’interpréter et, donc, en tout premier lieu, les mécanismes de la perception visuelle. La perception visuelle est tout sauf passive, c’est de façon active qu’une œuvre est regardée. Ainsi, le fait d’étudier comment le spectateur regarde une œuvre pourrait nous aider à mieux comprendre le fonctionnement psychologique mais, aussi, pourrait nous aider à mieux comprendre comment les artistes procèdent pour créer ces sensations chez le spectateur. C’est le point de vue qui va être présenté dans ce chapitre.

La perception visuelle

La vision humaine est caractérisée par une absence d’homogénéité spatiale liée à l’organisation du système visuel : la rétine centrale (fovéa) permet la vision des couleurs et des détails fins (stimuli à haute fréquences spatiales), alors que la rétine périphérique (parafovéa) est dévouée à la vision achromatique et à la vision des fréquences spatiales basses. Cette partie de la rétine est aussi très sensible à la détection des changements de luminosité, ce qui permet la détection des mouvements. À première vue, cette organisation pourrait être considérée comme désavantageuse car elle restreint notre capacité à percevoir les stimuli visuels complexes à la seule vision fovéale, c’est-à-dire, à une très petite zone d’à peine 2 degrés d’angle. La réalité est tout autre : la majeure partie des informations présente dans le champ visuel est bien souvent inutile pour l’accomplissement des comportements dans lesquels l’individu est engagé. De plus, l’information visuelle provenant du monde extérieur est tellement massive et complexe qu’elle ne peut pas être abordée globalement ni totalement, cela mobiliserait l’entièreté de nos ressources cognitives. Par conséquent, le développement d’une fovéa si sophistiquée, combiné à la capacité de déplacer de façon rapide et précise les yeux constituent une évolution phylogénétique essentielle permettant aux primates de sélectionner l’information visuelle pertinente parmi le flux sensoriel ascendant1.

Sur le plan scientifique, l’étude des mouvements oculaires permet d’identifier comment un observateur sélectionne les informations visuelles pertinentes, ce qui permet d’étudier les mécanismes impliqués dans la vision consciente et la cognition et de mieux comprendre des comportements aussi complexes que l’exploration des scènes naturelles, la perception des objets visuels2. En retour, il devient aussi possible d’étudier comment la cognition influence la motricité oculaire. Par exemple, un expert dans le domaine de l’art ne regardera pas un tableau de la même façon qu’un non expert, un expert ne cherchera pas les mêmes informations qu’un non expert. Ce qui démontre aussi une grande plasticité dans les déplacements oculaires, un modelage provoqué par l’expertise artistique sur la vision. On observe (figure 1) que, chez le non expert en art, les yeux s’attardent plus volontiers sur les éléments importants de la scène (visage, éléments principaux de la scène). Les déplacements sont moins nombreux, les périodes de fixation plus longues. Chez l’expert, les éléments importants de la scène sont aussi analysés par l’œil, mais les déplacements sont plus nombreux, les fixations plus courtes et, surtout, on observe une analyse plus fine focalisée sur les détails du tableau.

Figure 1

Figure 1

Parcours oculaire d’un non expert (A) et d’un expert (B). Chaque point bleu représente une zone où l’œil s’est attardé (la taille du rond bleu représente la durée de la fixation). Le non expert s’intéresse principalement à la scène représentée alors que l’expert se focalise, en plus, sur les détails (Enregistrement réalisé lors des Journées du Patrimoine 2011 – Palais Rameau – Lille)

Ainsi, devant la complexité que représentent les scènes visuelles, le système cognitif procède en sélectionnant différentes zones de l’environnement et en dirigeant notre regard vers ces zones, ce qui permet d’entraîner en même temps notre attention vers ces régions. Mais comment notre système attentionnel procède pour sélectionner ces zones ? Deux procédures différentes ont été identifiées : une procédure « montante » ou « bottom‑up » (dite aussi de bas niveau), basée sur les caractéristiques physiques de l’image, et une autre procédure « descendante » ou « top-down » (dite aussi de haut niveau), qui dépend essentiellement des attentes de l’observateur, de la tâche à réaliser, de sa personnalité ou de son expertise, comme nous l’avons vu avec l’exemple précédent (figure 1). L’interaction entre les processus de hauts niveaux et de bas niveaux constitue un défi majeur pour l’étude de la perception visuelle3. Les traitements de bas niveaux permettent d’extraire les caractéristiques physiques des scènes visuelles (contraste, fréquence spatiale, couleurs, mouvements, etc.). Les processus de hauts niveaux permettent de mettre en œuvre des stratégies d’exploration adaptées4.

La procédure de haut niveau est moins connue que la procédure de bas niveau, le domaine de l’art constitue donc un domaine d’étude privilégié. La procédure de bas niveau, quant à elle, a été très bien étudiée et il existe maintenant des modèles très précis permettant de simuler son fonctionnement. Par exemple, selon la Feature Integration Theory5, l’information visuelle est progressivement décomposée en éléments essentiels, unitaires, tout au long d’un trajet qui va de la rétine au cortex occipital. Cette décomposition est automatique et réalisée par des filtres neuronaux (certains neurones ne répondent qu’à certaines formes bien précises, certaines orientations, on parle alors de processus pré-attentionnels). L’attention sélective est mobilisée ensuite pour rassembler ces éléments unitaires afin de leur donner un sens. Un tel système permet d’économiser énormément de ressources cognitives. Cette idée de Treisman et Gelade a ensuite été développée par Itti et Koch6 qui en ont déduit un modèle implémenté informatiquement. Leur modèle est centré sur la notion de « carte de saillance », c’est-à-dire, une cartographie en 2D qui permet de déterminer, pour chaque pixel d’une image, les zones d’intérêts susceptibles d’attirer l’attention et, donc, le regard. L’un des grands avantages de ce modèle tient dans le fait qu’il est suffisamment spécifié, ce qui permet de réaliser des prédictions très précises validées empiriquement.

Figure 2

Figure 2

Principes de la saillance visuelle. Les contrastes d’orientation (image de gauche), d’intensité (image centrale) et de couleurs (image de droite) sont automatiquement analysés par le système visuel. Ces contrastes constituent des saillances qui attirent l’attention et le regard.

Selon ce modèle, l’image est décomposée suivant un certain nombre de propriétés élémentaires comme l’orientation (figure 2, image de gauche : le trait qui n’est pas dans la même direction que les autres constituera une zone de saillance susceptible d’attirer le regard), l’intensité (figure 2, graphique du milieu : une zone plus claire que les autres se détache) et les contrastes de couleurs (figure 2, graphique de droite, le cercle rouge se détache). Ces 3 propriétés sont analysées simultanément et chacune des zones saillantes sera combinée dans une seule carte appelée « carte de saillance ». Ces contrastes captent l’attention et, donc, la direction du regard. Dans le domaine de l’art, certains artistes manipulent depuis longtemps ces saillances dans leurs œuvres et ceci de façon plus ou moins intuitive. Les peintures de Joan Miró en sont un exemple parfait (figure 3). Les contrastes de formes, d’intensités et de couleurs permettent, grâce à la carte de saillance (figure 3, panel B), de prédire correctement l’orientation du regard dans les premiers instants qui suivent la présentation de l’œuvre (figure 3, panel C) ; ce phénomène illustre les procédures d’analyses perceptives de bas niveau (bottom‑up) mais au-delà de ces premiers instants, les procédures de haut niveau (top‑down) s’activent, et le regard, moins contrôlé par la saillance et les caractéristiques physiques et perceptives de l’image, s’écarte alors des zones saillantes afin d’explorer le reste de l’image (figue 3, panel D).

On constate donc que les peintures et les images d’art recèlent de nombreuses astuces visuelles (illusions, contrastes, anamorphoses…) visant à induire une stratégie oculaire ou un état mental particulier. La modélisation des traitements de haut niveau et de bas niveau face à ces œuvres peut donc nous permettre de mieux rendre compte des propriétés visuelles et mentales mises en jeu ainsi que des qualités propres aux artistes.

Figure 3

Figure 3

Illustration des effets de la saillance perceptive à partir de l’œuvre Bleu II de Joan Miró. A : peinture originale, B : analyse des contrastes de formes, de couleur et d’intensité (les zones blanches représentent les zones les plus contrastées qui capteront, en théorie, l’attention et par conséquent, le regard du spectateur), C : déplacements réels du regard pour les 5 premières secondes, D : déplacements du regard pour les 5 secondes suivantes.

Expérimentation

Afin de mieux comprendre ces phénomènes, nous avons donc réalisé une étude en partenariat avec les étudiants et les enseignants en arts et un chercheur en sciences cognitives. Le fait d’associer ces deux approches nous semble intéressant et constructif. À partir de mesures oculométriques, nous essaierons de comparer les stratégies visuelles mises en œuvre par des spectateurs face à des œuvres d’art mais, aussi, face à des images neutres afin de comparer les prédictions des modèles de la saillance visuelle. Les œuvres d’art étant des stimuli visuels bien particuliers, il est en effet tout à fait possible que ces œuvres contiennent autre chose que de simples contrastes de formes, d’intensités ou de couleurs que les modèles de bas-niveau ne prennent pas en compte. D’autre part, il nous semble aussi intéressant de s’intéresser aux œuvres elles-mêmes et pas seulement aux comportements oculaires prédits : est-il possible d’observer des différences dans les stratégies d’observations entre les œuvres choisies ? Sont-elles équivalentes dans leur façon de contrôler notre regard ?

Les 10 participants à l’étude présentée ici sont des étudiants en Master « Arts Plastiques » de l’Université de Lille. Ils ont participé à ce travail dans le cadre d’un séminaire « Oculométrie et perception des images ». Les étudiants ont choisi 35 œuvres (peintures ou photographies) et 5 autres photographies contrôles (paysages, animaux, scènes urbaines) ont été ajoutées. Ces images ne sont pas des images d’art mais des images neutres provenant d’une base de données de référence7 qui permet aux chercheurs du monde entier de mettre à l’épreuve les modèles théoriques de la saillance visuelle à l’aide d’un matériel commun à tous, ce qui facilite les comparaisons.

Les déplacements oculaires ont été mesurés à l’aide d’un oculomètre SMI-RED 500 (SensoMotoric Instruments gmbh). Le participant est confortablement assis face à un écran 15”, la tête n’est pas contrainte et les images, toutes à la même résolution de 1680x1050 pixels, sont présentées pendant 30 secondes. L’expérience a une durée d’environ 20 minutes.

Les modèles théoriques de la saillance perceptive prennent la forme d’algorithmes qui analysent les contrastes (de forme, de couleur, de luminosité) afin de construire des cartes prédictives des déplacements oculaires. Ensuite, on superpose à ces cartes théoriques les déplacements observés provenant d’observateurs réels et on mesure l’adéquation entre la prédiction et la réalité. On obtient alors 4 situations possibles (voir tableau 1) : soit le modèle prédit correctement les déplacements oculaires (les zones prédites sont effectivement regardées, les zones prédites comme non regardées ne le sont pas), soit les prédictions du modèle sont erronées (il prédit des zones qui ne sont pas réellement regardées, il oublie des zones qui sont effectivement regardées dans la réalité). Dans la pratique, les données prédites sont comparées aux données observées et on calcule un coefficient d’adéquation qui est en fait une probabilité8 qui tient compte à la fois des prédictions correctes mais aussi des erreurs. Plus cette probabilité est élevée (proche de 1) plus les prédictions sont correctes. Une probabilité égale à 0.5 correspond au hasard. Dans notre étude, les prédictions théoriques ont été calculées à l’aide d’un modèle récent et considéré comme très efficace par la communauté scientifique9.

Prédiction théorique

 

la zone va être regardée

la zone ne va pas être regardée

Réalité

la zone est effectivement regardée

prédiction correcte

prédiction incorrecte (fausse alarme)

la zone n’est pas regardée

prédiction incorrecte (omission)

prédiction correcte

Tableau 1. Un modèle théorique de la saillance perceptive peut prédire correctement les déplacements oculaires (cases en marron) ou commettre des erreurs (cases en gris). Dans la pratique, les données prédites sont comparées avec les données observées et on calcule un coefficient d’adéquation.

L’objectif de notre étude est donc de comparer les prédictions d’un modèle de saillance perceptive pour des images d’art versus des images neutres. Pour les images neutres, on s’attend à une plus grande efficacité du modèle. En effet, nous supposons que les images d’art portent en elles une intentionnalité voulue par l’artiste, ou encore un punctum (Barthes) qui capte notre attention et qui ne dépend pas forcément des caractéristiques physiques de l’image.

Étant donné la grande complexité et l’énorme quantité d’informations portées par les images, quelles qu’elles soient, il n’est pas possible d’en analyser toutes les subtilités d’un seul coup d’œil. Nous sommes donc obligés de déplacer notre regard afin d’explorer notre environnement visuel pour mieux l’appréhender, pour le comprendre. Par conséquent, dès les premiers instants qui suivent la présentation d’une image, les déplacements du regard seront pilotés par les caractéristiques physiques de cette image et, en particulier, par les différents contrastes qui la composent. Dans un second temps, quelques secondes après cette première phase d’exploration, une forme d’analyse plus volontaire et contrôlée consciemment s’installe progressivement. La première forme d’analyse est donc contrôlée par les informations visuelles montantes (contrôle bottom-up ou de bas niveau), la deuxième forme d’analyse est plus intentionnelle et, donc, contrôlée par la cognition (contrôle top-down ou de haut niveau). Les modèles de la saillance visuelle prédisent correctement les déplacements du regard lors de la première phase d’analyse10 (voir aussi la figure 2).

Notre hypothèse est que les modèles théoriques basés sur la saillance perceptive n’auront pas la même efficacité pour les images d’art par rapport aux images neutres. En quelque sorte, les artistes produisent des œuvres qui impliquent un regard différent, y compris et, surtout, dès les premières secondes d’exploration.

Les résultats obtenus vont bien dans le sens de cette hypothèse : le modèle est plus efficace dans ses prédictions pour les images neutres par rapport aux images artistiques, surtout dans les premiers secondes d’exploration de l’image (figure 4).

Figure 4

Figure 4

Les prédictions théoriques basées sur la saillance perceptive sont meilleures pour les images neutres (en orange) par rapport aux images d’art (en bleu), plus particulièrement dans les premiers instants de découverte de l’image. Plus le coefficient d’adéquation est élevé, plus la prédiction est conforme à la réalité observée.

Ces résultats représentent une moyenne calculée sur l’ensemble des images et des participants. Concernant les images contrôles, l’adéquation entre les prédictions et la réalité est homogène, en revanche, ce n’est pas le cas pour les images d’art. Pour certaines, les prédictions théoriques ne sont pas confirmées : c’est le cas en particulier pour The Garden of Earthly Delights de Hieronymus Bosch. Alors que la saillance est très bien répartie sur l’ensemble de l’œuvre, le regard des observateurs ne s’attarde que sur la partie centrale de l’image ainsi que sur quelques zones excentrées (figure 5).

Figure 5

Figure 5

Cartes de chaleur pour The Garden of Earthly Delights et concernant les 5 premières secondes de découverte du tableau. Positions prédites du regard (A) et positions observées pour le groupe de participants (B). L’échelle de couleur représente les durées de fixation et vont du rouge (zone très regardée) au vert (zone peu regardée).

Entre les périodes de fixation où l’œil est stable, le regard se déplace à l’aide de bonds très rapides (saccades). L’étude de ces déplacements nous permet de constater qu’entre les 5 premières secondes d’observation de l’image et les 5 secondes suivantes, les saccades oculaires explorent très peu les différentes zones : elles alternent de gauche à droite pour revenir au centre (figure 6).

Figure 6

Figure 6

Déplacements oculaires (saccades) observées pour les 5 premiers secondes (panel A) et les 5 secondes suivantes (panel B). On représente ici les balayages de l’œil en découvrant l’image là où l’œil est passé.

Une deuxième œuvre, Architecture of Density de Michael Wolf, bien que très différente de celle de Bosch provoque un comportement similaire : l’observateur a tendance à rester au centre de l’écran et déplace très peu les yeux, pourtant, l’image est beaucoup plus symétrique et comporte nettement moins de détails que The Garden of Earthly Delights (figure 7). Les prédictions théoriques sont très décalées par rapport à la réalité observée. De plus, il semble que l’exploration de l’image procède plutôt de façon systématique car les saccades semblent d’abord se diriger vers la gauche, pour les 5 premières secondes, puis vers la droite, pour les 5 secondes suivantes (figure 8).

Figure 7

Figure 7

Positions prédites du regard (panel A) et positions observées (panel B) pour la photographie Architecture of Density de Michael Wolf.

Figure 8

Figure 8

Pendant les 5 premières secondes, les saccadent semblent se porter sur la gauche (panel A), puis sur la droite pour les 5 secondes suivantes (panel B).

Les prédictions théoriques ne sont jamais parfaites, mais, à titre indicatif, on obtient en général de bien meilleurs résultats à l’aide d’images qui ne sont pas des images d’art (image contrôle nature, figure 9).

Figure 9

Figure 9

Pour l’image neutre nature, les prédictions théoriques basées sur la saillance (panel A) sont plus conformes à la réalité observée (panel B).

Néanmoins, quelques images d’art, comme le tableau d’Henri Matisse, View of Notre Dame. Paris, quai Saint-Michel, spring 1914 (figure 10), permettent de mettre en évidence une bonne adéquation entre la prédiction théorique et les données observées. Notons quand même que les couleurs de ce tableau sont nettement moins vives que celles des autres œuvres testées dans cette étude.

Figure 10

Figure 10

Comparaison entre la prédiction théorique (panel A) et les données observées (panel B) pour View of Notre Dame. Paris, quai Saint-Michel, spring 1914. Cet exemple est l’un des rares où la prédiction théorique correspond aux données observées.

Figure 11

Figure 11

Saillance théorique pour Cible décalée.

Il semble donc évident que d’autres facteurs que la seule saillance perceptive influencent le parcours oculaire pour les œuvres d’art lors des premiers instants de découverte. Un exemple frappant peut être trouvé dans l’œuvre abstraite de Nicolas Chardon Cible décalée. Alors que les modèles perceptifs prédisent que le regard devrait se focaliser, pendant les premières secondes, sur les principales zones contrastées (figure 11), on observe au contraire que le regard suit la figure géométrique décalée d’abord, en commençant par le centre, pour s’écarter progressivement vers la périphérie. Comme si le flux d’information montante et les processus de bas niveaux, pourtant si prompts à influencer la direction du regard dans les premiers instants, surtout pour des images si contrastées, étaient très rapidement interceptés par un autre processus, probablement plutôt de plus haut niveau, et que le spectateur se complaisait finalement à suivre ces courbes déformées imaginées par l’artiste (figure 12).

Figure 12

Figure 12

Décours temporel des déplacements du regard par pas de 2 secondes (panels A, B, C, D) pour la Cible décalée. Les spectateurs semblent partir du centre de l’image pour progressivement s’en éloigner.

Conclusion

Alors que les modèles théoriques de la saillance perceptive sont plutôt efficaces, quand il s’agit de prédire les déplacements oculaires d’un spectateur découvrant une image, en particulier dans les premiers instants de découverte de cette image, nous avons constaté que lorsqu’il s’agit d’appliquer ces modèles à d’autres formes de représentations visuelles que celles habituellement utilisées pour les tester, en l’occurrence des images d’art, alors les prédictions théoriques ne correspondent plus à la réalité observée.

Il est tout à fait possible que ce résultat soit, au moins en partie, dû au fait que les participants de l’étude étaient tous des étudiants en art et, donc, des experts n’ayant pas un œil naïf sur les œuvres qui leur ont été présentées. Pourtant, nous avons observé que dans certains cas, les prédictions théoriques étaient plutôt correctes (le tableau de Matisse, par exemple, en plus des images neutres). Dans d’autres situations, l’œil se contente de balayer l’image en passant et repassant sur les mêmes zones (The Garden of Earthly Delights) ; parfois on constate des stratégies plus systématiques, par exemple, en se déplaçant d’abord vers la gauche, puis vers la droite, (The Garden of Earthly Delights) ou en suivant les formes abstraites en se déplaçant de façon concentrique (Cible décalée).

Bien que très parcellaires, ces premiers résultats semblent montrer que l’influence des processus cognitifs de haut niveau peut être très précoce et prendre des formes très variées qu’il convient de mieux explorer. Peut-être aussi que notre regard, lorsqu’il est confronté à une œuvre d’art, rend compte d’une certaine forme d’intentionnalité, telle que définie par Alfred Gell11 et qu’à travers leurs déplacements, nos yeux expriment les actions voulues ou réalisées par un artiste. Selon Gell, l’être humain aurait développé une faculté qui lui permet d’imaginer ce qui se passe dans l’esprit des autres et l’art en serait une manifestation : l’art serait alors un vecteur d’empathie.

Bibliography

Birmingham Elina, Walter Bischof, & Alan Kingstone, “Saliency does not account for fixations to eyes within social scenes”, Vision research, 49 (24), 2009. DOI: https://doi.org/10.1016/j.visres.2009.09.014 [consulté le 12 décembre 2024].

Callum Ross & Martin Robert, “The role of vision in the origin and evolution of primates”, Evolution of nervous systems, 4, 2007. DOI: https://doi.org/10.1016/B0-12-370878-8/00001-X [consulté le 12 décembre 2024].

Gell Alfred, Art and Agency: An Anthropological Theory, Oxford, Oxford University, 1998.

Harel Jonathan, Christof Koch & Pietro Perona, “Graph-based visual saliency”, Advances in Neural Information Processing Systems, 19, 2006.

Henderson John M. “Human gaze control during real-world scene perception”, Trends in Cognitive Sciences, 7 (11). DOI: https://doi.org/10.1016/j.tics.2003.09.006 [consulté le 12 décembre 2024].

Hwang, Alex D., Emily C. Higgins & Marc Pomplun, “A model of top-down attentional control during visual search in complex scenes”, Journal of Vision, 9 (5), 2009. DOI: https://doi.org/10.1167/9.5.25 [consulté le 12 décembre 2024].

Itti Laurent & Christof Koch, “Computational modelling of visual attention”, Nature Reviews Neuroscience, 2 (3), 2001. DOI: https://doi.org/10.1038/35058500 [consulté le 12 décembre 2024].

Kootstra, Gert, Bart de Boer & Lambert R. B. Schomaker, “Predicting Eye Fixations on Complex Visual Stimuli Using Local Symmetry”, Cognitive Computation, 3 (1), 2011. DOI: https://doi.org/10.1007/s12559-010-9089-5 [consulté le 12 décembre 2024].

Treisman, Anne M., & Garry Gelade, “A feature-integration theory of attention”, Cognitive psychology, 12 (1), 1980. DOI: https://doi.org/10.1016/0010-0285(80)90005-5 [consulté le 12 décembre 2024].

Notes

1 Ross Callum & Robert Martin, “The role of vision in the origin and evolution of primates”, Evolution of nervous systems, 4, 2007, p. 59-78. DOI: https://doi.org/10.1016/B0-12-370878-8/00001-X [consulté le 12 décembre 2024]. Return to text

2 Henderson John M. “Human gaze control during real-world scene perception”, Trends in Cognitive Sciences, 7 (11), 498‑504. DOI: https://doi.org/10.1016/j.tics.2003.09.006 [consulté le 12 décembre 2024]. Return to text

3 Elina Birmingham, Walter Bischof, & Alan Kingstone, “Saliency does not account for fixations to eyes within social scenes”, Vision research, 49 (24), 2009. DOI: https://doi.org/10.1016/j.visres.2009.09.014 [consulté le 12 décembre 2024]. Return to text

4 Alex D. Hwang, Emily C. Higgins & Marc Pomplun, “A model of top-down attentional control during visual search in complex scenes”, Journal of Vision, 9 (5), 2009. DOI: https://doi.org/10.1167/9.5.25 [consulté le 12 décembre 2024]. Return to text

5 Treisman, Anne M., & Garry Gelade, “A feature-integration theory of attention”, Cognitive psychology, 12 (1), 1980. DOI: https://doi.org/10.1016/0010-0285(80)90005-5 [consulté le 12 décembre 2024]. Return to text

6 Laurent Itti & Christof Koch, “Computational modelling of visual attention”, Nature Reviews Neuroscience, 2 (3), 2001. DOI: https://doi.org/10.1038/35058500 [consulté le 12 décembre 2024]. Return to text

7 Koostra Gert, Bart de Boer & Lambert R. B. Schomaker, “Predicting Eye Fixations on Complex Visual Stimuli Using Local Symmetry”, Cognitive Computation, 3 (1), 2011. DOI: https://doi.org/10.1007/s12559-010-9089-5 [consulté le 12 décembre 2024]. Return to text

8 Cette probabilité est appelée « courbe ROC » en anglais pour Receiver Operating Characteristic. Return to text

9 Jonathan Harel, Christof Koch & Pietro Perona, “Graph-based visual saliency”, Advances in Neural Information Processing Systems, 19, 2006, p. 545-552. Return to text

10 Itti Laurent & Christof Koch, “Computational modelling of visual attention”, op. cit. Return to text

11 Gell Alfred, Art and Agency: An Anthropological Theory, Oxford, Oxford University, 1998. Return to text

Illustrations

  • Figure 1

    Figure 1

    Parcours oculaire d’un non expert (A) et d’un expert (B). Chaque point bleu représente une zone où l’œil s’est attardé (la taille du rond bleu représente la durée de la fixation). Le non expert s’intéresse principalement à la scène représentée alors que l’expert se focalise, en plus, sur les détails (Enregistrement réalisé lors des Journées du Patrimoine 2011 – Palais Rameau – Lille)

  • Figure 2

    Figure 2

    Principes de la saillance visuelle. Les contrastes d’orientation (image de gauche), d’intensité (image centrale) et de couleurs (image de droite) sont automatiquement analysés par le système visuel. Ces contrastes constituent des saillances qui attirent l’attention et le regard.

  • Figure 3

    Figure 3

    Illustration des effets de la saillance perceptive à partir de l’œuvre Bleu II de Joan Miró. A : peinture originale, B : analyse des contrastes de formes, de couleur et d’intensité (les zones blanches représentent les zones les plus contrastées qui capteront, en théorie, l’attention et par conséquent, le regard du spectateur), C : déplacements réels du regard pour les 5 premières secondes, D : déplacements du regard pour les 5 secondes suivantes.

  • Figure 4

    Figure 4

    Les prédictions théoriques basées sur la saillance perceptive sont meilleures pour les images neutres (en orange) par rapport aux images d’art (en bleu), plus particulièrement dans les premiers instants de découverte de l’image. Plus le coefficient d’adéquation est élevé, plus la prédiction est conforme à la réalité observée.

  • Figure 5

    Figure 5

    Cartes de chaleur pour The Garden of Earthly Delights et concernant les 5 premières secondes de découverte du tableau. Positions prédites du regard (A) et positions observées pour le groupe de participants (B). L’échelle de couleur représente les durées de fixation et vont du rouge (zone très regardée) au vert (zone peu regardée).

  • Figure 6

    Figure 6

    Déplacements oculaires (saccades) observées pour les 5 premiers secondes (panel A) et les 5 secondes suivantes (panel B). On représente ici les balayages de l’œil en découvrant l’image là où l’œil est passé.

  • Figure 7

    Figure 7

    Positions prédites du regard (panel A) et positions observées (panel B) pour la photographie Architecture of Density de Michael Wolf.

  • Figure 8

    Figure 8

    Pendant les 5 premières secondes, les saccadent semblent se porter sur la gauche (panel A), puis sur la droite pour les 5 secondes suivantes (panel B).

  • Figure 9

    Figure 9

    Pour l’image neutre nature, les prédictions théoriques basées sur la saillance (panel A) sont plus conformes à la réalité observée (panel B).

  • Figure 10

    Figure 10

    Comparaison entre la prédiction théorique (panel A) et les données observées (panel B) pour View of Notre Dame. Paris, quai Saint-Michel, spring 1914. Cet exemple est l’un des rares où la prédiction théorique correspond aux données observées.

  • Figure 11

    Figure 11

    Saillance théorique pour Cible décalée.

  • Figure 12

    Figure 12

    Décours temporel des déplacements du regard par pas de 2 secondes (panels A, B, C, D) pour la Cible décalée. Les spectateurs semblent partir du centre de l’image pour progressivement s’en éloigner.

References

Electronic reference

Laurent SPARROW, « Les modèles théoriques de la perception visuelle à l’épreuve des images de l’art : une étude oculométrique », Déméter [Online], Hors-série | 2024, Online since 29 janvier 2025, connection on 06 février 2025. URL : https://www.peren-revues.fr/demeter/1702

Author

Laurent SPARROW

Laurent Sparrow est Maître de conférences à l’Université de Lille, membre de l’UMR SCALab et coordinateur de la Fédération de Recherche Sciences et Cultures du Visuel (CNRS, Université de Lille). Spécialiste en oculométrie, il étudie les mécanismes impliqués dans la lecture et ses dysfonctionnement (dyslexie). Parallèlement, grâce à la fédération de Recherche SCV, il a été amené à collaborer avec des historiens de l’art et des artistes en utilisant l’oculométrie pour étudier les stratégies d’exploration d’une œuvre d’art.

Copyright

CC-BY-NC