Pour qui ? Ma méthode Compétences Réalisations Avis Contact

Clip & Blip

Des pixels au paragraphe

Plongée dans les coulisses de deux modèles d’IA qui voient vos images mieux que vous.

Imaginez :

Vous avez des centaines de milliers d’images de vêtements. Rien d’autre. Pas un titre, pas une étiquette. Et pourtant, vous rêvez d’une interface où l’on tape : "montre-moi toutes les robes rouges avec un motif printanier", et bam, magie opérée.

Spoiler : un code python pour lister les images d'un dossier est stocker le résultat dans un .txt à la fin.
CLIP and BLIP Architecture

Le Duo Choc : CLIP & BLIP

CLIP

OpenAI

Contrastive Language-Image Pre-training. C'est un modèle qui associe une image à du texte. Il transforme les visuels en vecteurs (traducteur vision/langage).

Super-pouvoir : Recherche visuelle, tri, recommandation.

BLIP

Salesforce

Bootstrapped Language-Image Pretraining. Il génère directement des descriptions textuelles d'une image. Une phrase précise et fluide, presque humaine.

Super-pouvoir : Captioning, description riche, accessibilité.

Petit scénario illustratif

Image : un homme marche dans une rue pavée, en trench beige, avec une valise.

  • C CLIP : « Je transforme ça en vecteur. C'est proche de "gens marchant", "vêtements beiges", "scènes urbaines". »
  • B BLIP : « a man walking down a cobbled street in a beige trench coat holding a suitcase. »

Et la concurrence dans tout ça ?

DINOv2 (Meta)

Extraction de caractéristiques visuelles.

ImageBind (Meta)

Fusion texte, image, audio.

Flamingo (DeepMind)

Compréhension du contexte multimodal.

BLIP-2 (Salesforce)

Évolution pour tâches plus complexes.

GIT (Microsoft)

Optimisé pour la qualité des descriptions.

ViT-GPT2

Vision Transformer + GPT-2. Simple.

LLaVA

Assistants multimodaux.

UForm

Léger et open-source.

Mais ce qui distingue CLIP et BLIP, c’est leur complémentarité immédiate, leur finesse descriptive, et leur simplicité de déploiement.

Gimme gimme more...

BLIP peut être réglé comme une boîte à outils :

  • max_length Augmente la longueur des descriptions (50+ pour la richesse).
  • num_beams Recherche par faisceaux. 5 ou 10 pour plus de variations qualitatives.
  • temperature, top_p, top_k Ajustent la créativité. Utile pour capter des nuances vestimentaires subtiles.

Derrière les modèles

Si CLIP et BLIP impressionnent, ils reposent sur des montagnes de données annotées à la main. Les coulisses sont moins reluisantes : sous-traitance dans des pays à faibles revenus (ex: Kenya, < 2$/h), filtrage de contenus choquants.

Ces pratiques soulèvent des questions éthiques majeures sur la valorisation de ce travail essentiel.

Mais pour qui ? Et pour quoi faire ?

E-commerce Musées & Archives Moteurs de recherche Architectes de données

Et pour le RAG (Retrieval-Augmented Generation) ?

Si CLIP et BLIP sont indépendants, leur complémentarité est précieuse pour bâtir un système RAG :

  • CLIP retrouve les images proches (vectorisation).
  • BLIP génère une description fine de l'image sélectionnée.

Ce duo est idéal pour créer un assistant visuel intelligent.

Un peu de code ! car on adore ça...

Script exécuté dans un environnement Docker, optimisé GPU. Bibliothèques : Transformers, PyTorch, scikit-learn.

Python Script for CLIP and BLIP

Partager cet article

L'oeil du CTO

" Ces modèles sont des briques puissantes pour tout pipeline de traitement d'image à grande échelle. Leurs embedding (représentation numérique compacte d’une image ou d’un texte)s s'intègrent dans des systèmes de recherche, d'analyse ou de filtrage. OpenAI et Salesforce proposent des intégrations via Hugging Face, facilitant le prototypage et la mise en production. À l'heure où la donnée visuelle explose, savoir l'interpréter automatiquement n'est plus une option : c'est une stratégie. "