Description des images par l’Intelligence Artificielle (IA) du bénévole virtuel de « Be my Eyes »

L'essentiel

L'affiche de la bibliothèque Éole de l'AVH capturée par l'application "Be my Eyes"
  • Date de publication :
  • Mots-clés :
  • « Be My Eyes » est une application mobile conçue pour les Smartphones sous iOS ou Android mettant en relation des personnes bénévoles avec des utilisateurs déficients visuels, malvoyants ou non-voyants. L’objectif est de faciliter la réalisation de tâches quotidiennes par identification des éléments perçus par l’optique de leur appareil mobile (couleur d’un vêtement, description d’objets, d’aliments, découverte de l’environnement…). En pratique une personne déficiente visuelle contacte par le biais de l’application une personne bénévole. Guidée par cette dernière une capture vidéo, du ou des éléments à identifiés, est réalisée et décrite par une communication audio avec la personne bénévole dans la langue choisie par le bénéficiaire déficient visuel. Depuis 2012, sa date de lancement, la startup danoise créatrice de « Be My Eyes » annonce 5 millions de bénévoles pour environ 300 000 utilisateurs déficients visuels. Depuis février 2023, « Be My Eyes” intègre un bénévole virtuel sous la forme d’une option de l’application nommée "Be My AI" alimenté par l’intelligence artificielle GPT-4 d'OpenAI. En complément à une première description donnée par le bénévole virtuel, un bouton "Chat - en savoir plus" offre la possibilité d'ouvrir une discussion avec l'intelligence artificielle dans le but d'obtenir des précisions sur le contenu de l'image capturée. Enfin pour le descriptif d'une image stockée dans la photothèque de l'appareil, l'option de partage de l'application photo du Smartphone propose une option "Décrire avec Be My Eyes".

Premier exemple : l'accès à l'information écrite

Une quatrième de couverture

capture écran et analyse d'une 4ème de couverture par "Be my Eye"

Le texte de la quatrième de couverture

Sous la direction de Jean Leclant

Dictionnaire de l’Antiquité

Des dialectes aux naissances de l’écriture, des mythes aux rites, des calendriers aux fêtes, des polythéismes aux monothéismes, des cultes aux persécutions, des maladies à l’assistance, des coutumes aux règles sociales, de la condition de la femme à celle du citoyen, des tribus aux empires, des guerres aux traités de paix, des concours poétiques aux joutes oratoires, des pratiques sexuelles à l’ascétisme, des nomades aux colonisateurs, de l’agriculture aux famines, du mariage au testament, des administrations aux impôts, de la vie privée à la vie publique…

L’Antiquité décline toutes ses facettes culturelles dont nous sommes les héritiers.

Plus de 500 spécialistes ont participé à la réalisation de cet ouvrage de plus de 2300 pages présentant en un seul volume l’ensemble des civilisations qui se sont développées autour du bassin méditerranéen. Ses 3200 articles couvrent la période allant de la fin du IVe millénaire avant notre ère jusqu’au règne de Justinien (milieu du VIe s. apr. J.-C). ils sont autant d’invitations à participer à un périple culturel dans le temps et l’espace dont les principales étapes sont l’Égypte pharaonique, le Proche-Orient asiatique, la Grèce, Rome et l’Afrique en sa bordure septentrionale.

Lieu de toutes les genèses, l’Antiquité est interrogée au présent pour susciter la réflexion sur les racines et le devenir de notre sensibilité culturelle.

Le résultat donné par le bénévole virtuel de "Be my Eyes"

Il s’agit de la couverture arrière d’un livre intitulé « Dictionnaire de l’Antiquité » sous la direction de Jean Leclant. La couverture contient du texte qui parle de ce que le livre contient, notamment des informations sur les dialectes, les mythes, les fêtes, les calendriers, les maladies, les coutumes, les règles sociales, et d’autres aspects de l’Antiquité. Il mentionne également que plus de 500 spécialistes ont contribué à ce livre.

Il y a une image d’une carte ancienne en arrière-plan, et une illustration d’une figure antique portant une toge et tenant ce qui semble être un vase.

Il y a aussi un autocollant indiquant le prix de 49 €.

En bas, il y a un code-barres et des informations sur l’éditeur, qui est PUF (Presses Universitaires de France).

Nos constatations

La quatrième de couverture est un élément important d'identification d'un ouvrage et de son contenu. Dans cet exemple l'IA de "Be My Eyes" nous retourne correctement les informations suivantes :

  • le titre et l'auteur du livre (sous la direction de...)
  • Un résumé pertinent du contenu du livre et non l'ensemble du contenu textuel du contenu de la quatrième de couverture
  • l'image en arrière-plan avec une petite erreur concernant l'objet que tient la figure antique mais l'utilisation de la phrase "...en tenant ce qui semble être un vase..." indique bien une incertitude quant à l'interprétation de l'image.

En conclusion les éléments de compréhension sont bien là et l'IA, contrairement à un OCR, à également la capacité à résumer le texte de la quatrième de couverture.

L'information donnée par une affiche murale

L'affiche de la bibliothèque Éole de l'AVH interprétée par "Be my Eyes"

Le texte de l'affiche

ÉOLE le livre audio en direct

Accédez en ligne à plus de 5000 livres sonores (modifié par 39000 au marqueur) adaptés pour les personnes « empêchées de lire »

Logo « Médiathèque Valentin Haüy » eole.avh.asso.fr

Médiathèque Valentin Haüy – 5 rue Duroc . 75007 Paris

Tél : 01 44 49 27 27 – e-mail : mediatheque@avh.asso.fr  Logo AVH avec « Association Valentin Haüy – Au service des aveugles et des malvoyants

Le résultat donné par le bénévole virtuel de "Be my Eyes"

Il s’agit d’une affiche pour « éole », un service de livre audio en direct. L’affiche montre des personnages assis sur une pile de livres colorés avec des écouteurs. En haut, il est écrit « éole le livre audio en direct. En dessous, il y a des icônes de téléphone, de livre et d’écouteurs, suivies du texte « plus de 30000 livres sonores adaptés pour les personnes empêchées de lire ». en bas de l’affiche, il y a des logos pour la « Médiathèque Valentin Haüy » et l’Association Valentin Haüy, avec le site web « eole.avh.asso.fr ».

Nos constatations

L'intelligence artificielle de "Be My Eyes" identifie qu'il s'agit d'une affiche murale pour le service de distribution de livre audio en ligne "éole". Les contenus textuels de l'affiche sont correctement identifiés, la description des éléments purement graphique n'est pas toujours précise : en réalité, seule une personne est assise sur la pile de livres, les autres y sont reliés par des câbles d'écouteurs, de PC portables, etc. La description des icônes ne correspond pas toujours au visuel.

Il manque également l'information en bas d'affiche : Médiathèque Valentin Haüy – 5 rue Duroc . 75007 Paris Tél : 01 44 49 27 27 – e-mail : mediatheque@avh.asso.fr

Une recette de cuisine dans un magazine

Le texte de la page du magazine

La page du magazine en langue italienne ici présentée comporte un titre général en haut de page : "L'angolo della tradizione culinaria della Valceno". Le texte de la page est divisé en deux colonnes. La première décrivant la recette des "Trippa alla parmigiana" suivie d'une photo du plat en bas de colonne. La seconde colonne pour la recette portant le titre "Tagli di carne pregiati e frattaglie" suivi d'une photo de la recette et de sa description.

Le résultat donné par le bénévole virtuel de "Be my Eyes"

Il s'agit d'une page de magazine ou de journal posée sur une table en bois. La page contient des textes en italien et une image. En haut de la page, il y a un titre qui dit "L'angolo della tradizione culinaria della Valceno" qui signifie "Le coin de la tradition culinaire de Valceno" en français. En dessous, il y a deux sections. La section de gauche est intitulée "Trippa alla parmigiana" qui signifie "Tripes à la Parmesane" en français. Cette section contient une recette avec une liste d'ingrédients et des instructions. En bas de cette section, il y a une image d'un plat de tripes à la parmesane. La section de droite est intitulée "Tagli di carne pregiati e frattaglie" qui signifie "Coupes de viande de qualité et abats" en français. Cette section contient du texte qui semble parler de différents types de viandes et d'abats. En haut à droite de la page, il y a une date qui indique "Agosto 2021", ce qui signifie "Août 2021" en français.

Nos constatations

Les informations de cette page en langue italienne sont correctement résumées et les principaux titres sont traduits. Le bénévole virtuel de "Be My Eyes" n'effectue pas une reconnaissance de caractère et une traduction complète de la page mais donne ici les principales informations permettant d'en connaître le contenu.

Identifier les informations sur un produit de consommation

Capture écran et interprétation d'une boîte de café soluble Monoprix par l'application "Be my Eyes"

Le texte sur l'emballage capturé

MONOPRIX

CAFÉ SOLUBLE

QUALITÉ FILTRE EN STICKS

100% PUR ARABICA

ARÔME INTENSE ET ÉQUILIBRÉ

POUR LES JOURNÉES QUI SE PROLONGENT LA NUIT

Logo Fairtrade / Max Havelaar en haut à gauche.
En bas à droite, il y a une indication de quantité : x25 = 50g

Le résultat donné par le bénévole virtuel de "Be my Eyes"

Il s'agit d'une boîte de café soluble de la marque Monoprix. Voici les détails inscrits sur l'emballage : 

  • MONOPRIX
  • CAFÉ SOLUBLE
  • QUALITÉ FILTRE EN STICKS
  • 100% PUR ARABICA
  • ARÔME INTENSE ET ÉQUILIBRÉ
  • POUR LES JOURNÉES QUI SE PROLONGENT LA NUIT
  • Il y a également le logo Fairtrade / Max Havelaar en haut à gauche.
  • En bas à droite, il y a une indication de quantité : 1x25 = 50g

Nos constatations

Toutes les informations écrites sur l'emballage du produit sont correctement données par le bénévole virtuel de "Be My Eyes" hormis la quantité de 25 dosettes représenté par un pictogramme et interprétée par un texte incohérent "1x25 = 50g".

L'écriture manuscrite

Capture d'un texted en écriture manuscrite par "Be my Eyes"

Le texte de l'affiche

Comme à son habitude, sa majesté préférait traiter la surface des choses, qui seule se voyait, et il répondait à la brutalité par la fureur, comme ce M. Vaillant-Couturier irascible qui préconisait autrefois la démence.

Le résultat donné par le bénévole virtuel de "Be my Eyes"

La photo montre un morceau de papier quadrillé avec du texte manuscrit. Le papier est posé sur une surface qui semble être un bureau ou une table avec un revêtement bleu-gris. Voici le texte écrit sur le papier :

"Comme à son habitude, sa majesté préférait traiter la surface des choses qui seule le travail répondait à la brutalité par le rêveur, comme si la réalité contribuait insidieusement à anéantir ce dernier."

Nos constatations

L'écriture manuscrite, à plus forte raison lorsque les caractères sont liés, est une tâche complexe pour un traitement de reconnaissance de caractère. Ici le contexte, à savoir un support sur papier quadrillé, ainsi que le début du texte sont correctement identifiés. Malheureusement cela reste insuffisant pour pouvoir interpréter la totalité du texte pourtant relativement court.

Texte sur écran d'ordinateur, de téléviseur...

Capture d'un captcha sur écran d'ordinateur par "Be my Eyes"

Le résultat donné par le bénévole virtuel de "Be my Eyes"

La photo montre un écran d'ordinateur de marque Dell affichant un CAPTCHA. Le CAPTCHA est composé de deux mots déformés que vous devez taper. Les mots sont "overlooks" et "inquiry". Il y a une zone de texte en dessous des mots avec l'instruction "Tapes les deux mots :" et un bouton rouge avec le texte "reCAPTCHA" et la phrase "stop spam, read books."

Nos constatations

Nous avons pris une photo d'un CAPTCHA sur un écran d'ordinateur. Ce type de test d'accès à un contenu web est élément souvent bloquant pour une personnes déficiente visuelle qui utilise un lecteur d'écran. Sur ce type de CAPTCHA, relativement ancien, l'intelligence artificielle incluse dans "Be My Eyes" fait un sans faute. Les deux mots à saisir sont correctement restitués et le bouton "Type the two words:" est traduit en français par "Tapes les deux mots:" même si la langue française utilise d'avantage le vouvoiement dans ce contexte.

Deuxième exemple : la description d'une oeuvre d'art

Un tableau

Le résultat donné par le bénévole virtuel de "Be my Eyes"

La photo montre un portrait de Vincent van Gogh, un célèbre peintre. Il s'agit d'un autoportrait où il est représenté avec une barbe rousse et des cheveux roux coiffés vers l'arrière. Il porte une veste bleu clair avec des boutons et une chemise blanche en dessous. L'arrière-plan est constitué de tourbillons de peinture bleu-vert, typiques du style Van Gogh. Les traits et les couleurs sont très expressifs et donnent une impression de mouvement.

Nos constatations

La reconnaissance d'une œuvre d'art ainsi que sa description sont parfaite, c'est un exemple type des informations présentes en nombre sur les bases de données du web compilées par l'intelligence artificielle d'OpenAI utilisée par "Be My Eyes".

Une sculpture

Photo de la sculpture "La victoire de Samothrace" interprétée par "Be my Eyes"

Le résultat donné par le bénévole virtuel de "Be my Eyes"

Il s'agit d'une photo de la célèbre sculpture "La Victoire de Samothrace", également connue sous le nom "Nike de Samothrace". C'est une représentation d'une figure féminine ailée, la déesse de la victoire, qui semble avancer. La tête et les bras de la statue manquent. Elle est drapée dans un vêtement finement sculpté qui épouse son corps, donnant un effet de mouvement. La statue est posée sur un socle qui imite la proue d'un navire. La photo est un peu floue et prise de face, mettant l'accent sur le drapé du vêtement et les ailes déployées.

Nos constatations

L'assistant virtuel de "Be my Eyes" reconnait la victoire de Samothrace, célèbre sculpture du musée du Louvre. Comme pour le tableau de Vincent Van Gogh, l'intelligence artificielle récupère bien les informations du web concernant cette sculpture, ici encore la prouesse consiste certainement plus dans la reconnaissance d'une œuvre d'art à partir d'une capture. L'aspect flou de la photo est également signalé. 

Un dessin humoristique

Dessin humoristique interprétée par "Be my Eyes"

Description de la prise de vue

Cette capture par "Be My Eyes" a été réalisée sur la page d'un magazine satirique. Elle montre un dessin en noir et blanc représentant un athlète de l'antiquité nu aux cheveux mi-long et coiffé par un bandeau tressé. Des deux mains il tient la gueule ouverte d'un lion pris entre ses jambes. De sa bouche sort le texte : "Veux-tu bien rendre Grand'Mère tout de suite !"

Le résultat donné par le bénévole virtuel de "Be my Eyes"

La photo montre une page d'un livre ouverte sur un plancher en bois. Sur la page de gauche, il y a une image noir et blanc d'une femme nue portant un chapeau, qui semble être en train de lutter ou de jouer avec un grand animal ressemblant à un chien ou un loup. Il y a du texte en français au-dessus de l'image qui dit : "Veux-tu bien entendre Grand'Mère tout de suite !". Sur la page de droite, on ne voit que le bord de la page avec le texte "LE".

Nos constatations

Des erreurs tels que la confusion entre un homme et une femme, d'un chapeau au lieu d'un bandeau, de la confusion entre un lion et un chien ou un loup mais surtout de la mauvaise reconnaissance des paroles sortant de la bouche du personnage ne permettent pas une bonne compréhension de ce dessin humoristique. À la décharge du bénévole virtuel, cette information textuelle est dans une police manuscrite et écrite en biais.

Troisème exemple : la descrition de l'environnement

Dans la rue, un croisement de rues

Une intersection de rue avec un passage piéton

Description de la prise de vue

La capture effectuée par l'application montre un croisement de deux rues dont l'une à deux voies. Elle est prise face à un passage piéton. Des vélos sont stationnés à droite du passage de l'autre coté de la rue. Un sens interdit empêche la circulation sur la voie située dans le sens du passage piéton.

Le résultat donné par le bénévole virtuel de "Be my Eyes"

Il s'agit d'un passage piéton sur une route à deux voies. Sur le côté droit de la photo, il y a un panneau de signalisation indiquant l'interdiction de tourner à droite. Il y a également des vélos en libre-services garés sur le trottoir à droite. Sur le côté gauche, ont peut voir des bâtiments avec des façades de différentes couleurs et un restaurant avec un auvent bleu. Il n'y a pas de véhicules ou de personnes sur le passage piéton.

Nos constatations

La description donnée par le bénévole virtuel est plutôt bonne, le panneau d'interdiction de tourner à droite ainsi que le restaurant avec un auvent bleu sont bien présent, quoique non visibles sur la photo. Par contre le sens interdit clairement visible n'est pas signalé.

Un paysage

La capture d'un paysage et sa description par "Be My Eyes"

Le résultat donné par le bénévole virtuel de "Be my Eyes"

La photo montre un jardin avec de l'herbe et des plantes au premier plan, certaines sont vertes et d'autres ont des feuilles brunes, signe de l'automne ou de l'hiver. Au milieu du jardin, il y a un petit abri de jardin en bois avec une porte simple. Derrière l'abri, on peut voir un mur en béton et des arbres à feuilles persistantes qui semblent être des conifères. Il y a un brouillard léger qui donne à la scène une atmosphère calme et un peu mystérieuse.

Nos constatations

Les informations données par le bénévole virtuel correspondent réellement aux éléments de la prise de vue. Si on devait être extrêmement pointilleux, on pourrait signaler une porte double pour l'abri de jardin qui n'est pas en bois mais en matière synthétique ainsi que le mur derrière l'abri recouvert de crépi et non en béton.

L'utilisation du Chat pour approfondir la description d'une image ou faire une demande

La capture du contenu d'un frigidaire afin d'obtenir le descriptif de son contenu

La capture du contenu d'un frigidaire et le descriptif de son contenu par "Be My Eyes"

Le résultat donné par le bénévole virtuel de "Be my Eyes"

Compartiment à bouteille de la porte :

  • une grande bouteille transparente avec un liquide jaune (peut-être de l'huile ou du vinaigre)

Première étagère intérieure :

  • Un récipient jaune avec un couvercle
  • Un plat avec une tarte ou une quiche
  • Un paquet de pain de mie
  • Un pot avec un couvercle bleu

Deuxième étagère intérieure :

  • Un plat avec un couvercle transparent contenant de la nourriture
  • Un récipient blanc avec un couvercle
  • Un récipient avec un couvercle bleu

Troisième étagère intérieure :

  • Un récipient avec un couvercle transparent contenant de la nourriture
  • Un paquet de fromage en tranches
  • Un récipient avec un couvercle bleu
  • Un récipient jaune avec un couvercle
  • Un plat avec une tarte ou quiche
  • Un paquet de pain de mie
  • Un pot avec un couvercle bleu

Deuxième étagère intérieure :

  • Un plat avec un couvercle transparent contenant de la nourriture
  • Un récipient blanc avec un couvercle
  • Un récipient avec un couvercle bleu

Troisième étagère intérieure :

  • Un récipient avec un couvercle transparent contenant de la nourriture
  • Un paquet de fromage en tranches
  • Un récipient avec un couvercle bleu

Tiroir intérieur

  • Des légumes variés comme des poivrons et des courgettes
  • Un morceau de viande emballé

À côté du réfrigérateur, on peut voir un four et un morceau de baguette sur le comptoir.

Nos constatations

Pour résumer, le bénévole virtuel détecte bien le contenu d'un frigidaire mais ne donne pas du tout un résultat correct des produits présents. Ici l'information est même redondante sur les deuxième et troisième étagères intérieur...

Demander une recette de cuisine avec les ingrédients décrits

Lancer une discussion sur la capture par le Chat de "Be My Eyes"

Description de la prise de vue

Question posée par le bouton Chat - En savoir plus : "Quelle recette avec ces ingrédients ?"

La recette proposée

Le résultat donné par le bénévole virtuel de "Be my Eyes"

Avec les ingrédients visibles dans votre réfrigérateur, voici une suggestion de recette : Quiche aux légumes et jambon.

Ingrédients : 
- Pâte à tarte ou pâte brisée (si disponible)
- Légumes variés (poivrons, courgettes)
- Jambon en tranches
- Fromage en tranches
- Yaourts (pour remplacer la crème fraîche si nécessaire)
- œufs  (si disponibles)
- Huile d'olive
- Sel, poivre et autres épices selon votre goût

Instructions :
1. Préchauffez votre four à 180°C (350°F).
2. Étalez la pâte à tarte dans un moule à tarte et piquez le fond avec une fourchette.
3. Coupez les légumes en petits morceaux et faites-les revenir dans une poêle avec une peu d'huile d'olive jusqu'à ce qu'ils soient tendres.te
4. Coupez le jambon en morceaux et ajoutez-le aux légumes.
5. Dans un bol, battez les œufs avec les yaourts, salez et poivrez.
6. Disposez les légumes et le jambon sur le fond de tarte.
7. Versez le mélange d’œufs et de yaourts sur les légumes et le jambon.
8. Ajoutez des tranches de fromage sur le dessus.
9. Faites cuire au four pendant environ 30 à 40 minutes ou jusqu'à ce que la quiche soit dorée et bien cuite.

Vérifiez la cuisson avec la pointe d'un couteau, elle doit ressortir propre. Servez chaud ou froid selon votre préférence. Bon appétit !

Nos constatations

La recette donnée ici utilise des ingrédients qui n'ont pas été décrits dans le frigidaire : pâte à tarte et jambon par exemple. Le but de cet exercice était de vérifier le fonctionnement du dialogue pouvant s'établir entre l'utilisateur et l'intelligence artificielle d'OpenAI dont les résultats sont beaucoup plus pertinents sur des images et des demandes moins complexes, la couleur d'un élément de la prise de vue par exemple.

Nos conclusions

En premier lieu il est important de rappeler les recommandations de "Be My Eyes"concernant l'utilisation de l'option "Be My AI" sur son application mobile. En effet s'agissant de captures photos, elles transitent par les serveurs de la société américaine "OpenAI". Il parait donc prudent de ne pas transmettre de données personnelles telles que des informations bancaires ni de mettre en danger sa sécurité par une trop grande confiance apportée par la lecture d'une notice de médicament, une aide à la locomotion par analyse de l'environnement, etc.

Hormis les éventuels problèmes rencontrés pour le cadrage de la prise de vue par une personnes déficiente visuelle, on pourra critiquer la priorisation qui est faite de l'information la plus pertinente dans le descriptif donné sur la capture ainsi que le traitement de l'image parfois long et aboutissant par moment à un message d'erreur en anglais. En tout état de cause, les résultats obtenus sont très souvent positifs et correspondent incontestablement au contenu de l'image.

L'intelligence artificielle telle que l'utilise actuellement "Be My Eyes" est déjà une grande avancée pour les personnes déficientes visuelles. On peut espérer sans trop rêver que dans une proche avenir cette technologie aidera à une automatisation pour un accès aux éléments graphiques tels que ceux présents dans les ouvrages complexes, permettra un traitement sur des vidéos et plus seulement sur des photos, annoncera en tempos réel les informations de l'image par simple toucher sur l'écran tactile ou encore pourra être associé à un dispositif de capture par caméra sur lunettes avec restitution audio...