April 2, 2026 / Projets
Julien Otis

IA De Sous-Titrage d’Image En Python

L’IA est plus populaire que jamais, générative ou non elle est faite parti du quotidien de beaucoup de personnes et est inclus dans une grande quantité d’appareil ou d’application sans quand s’en rendre compte, tel que: Apple Face ID, les voitures autonomes et les PNG des jeux vidéos RPG pour en nommer quelques-uns. Tout ça pour dire que l’intelligence artificielle à un grand nombre d’utilités autres que générer des images de chats qui font du breakdance. Un bon exemple est les IA de sous-titrage d’image qui peuvent avoir des utilités, telles que l’analyse d’imagerie médicale pour détecter des anomalies et diagnostiquer des conditions plus facilement. Le modèle que j’ai entrainé est plus général, mais tout autant pratique!

 

Le modèle que j’ai entrainé marche sur l’architecture “Show, Attend and Tell” qui permet de générer des descriptions textuelles d’images. Les librairies utilisées sont PyTorch, TorchVision, Numpy, Pillow et Matplotlib. Le modèle a été entrainer sur ma machine locale munie d’une RTX 3060 avec 12 GB de VRAM, avec 120 epochs et des batch_size de 128 l’entrainement (qui avec mes tests était le plus optimal pour un entrainement le plus rapide possible) a pris un plus de 2h. Il est entrainé sur le jeu de données “COCO” de 2014 et continent au total pour la validation, l’entrainement et le test plus de 110 000 images pour proche de 40 G de données. Ce jeu de données est divisé en deux grosses catégories : “things” (ex.: une personne, un vélo, une voiture, une fourchette, etc.) et “stuff” (ex.: le ciel, des arbres, une autoroute, etc.) Voici une liste complète des 80 classes que COCO prend en charge:

 

COCO Dataset: All You Need to Know to Get Started

Exemples de résultats satisfaisant:

 

 

Créateur de l’IA de sous-titrage d’image: https://github.com/sgrvinod/a-PyTorch-Tutorial-to-Image-Captioning