Analyse d'image , Comment l'IA interprète le poids des références visuelles
Image reference, style reference, ControlNet : comprendre comment le moteur combine ton image et ton texte pour ne plus avoir de surprises.
Tu envoies une photo de référence + un prompt. Parfois l’IA suit la composition à la lettre. Parfois elle n’en fait qu’à sa tête. La différence tient à comment le moteur pèse l’image par rapport au texte : référence de style (couleurs, grain, ambiance), référence de contenu (sujet, pose), référence de structure (esquisse, depth map). Selon l’outil et le mode, le « poids » de la référence change. Comprendre ça, c’est éviter des heures de régénération et des briefs client flous. On décortique ici comment l’IA interprète le poids des références visuelles et comment en tirer parti en pub, série ou film.
Référence visuelle : les trois rôles possibles
1. Style reference (esthétique).
L’image sert à copier un look : palette, grain, contraste, type de lumière. Le sujet ou la composition peuvent changer ; on garde l’ambiance. Ex. : une photo de film des années 70 en référence pour générer une pub actuelle « vintage ». Midjourney --sref, Flux « style from image », Stable Diffusion « style transfer » : le moteur extrait des statistiques de couleur et de texture et les réapplique. Le poids : souvent fort sur la couleur et le rendu, plus faible sur le sujet. Pour verrouiller une direction artistique sur une série, la style reference Midjourney et le moodboard pro s’appuient sur ce principe.
2. Content / character reference (sujet ou personnage).
L’image sert à reproduire un sujet : visage, vêtement, pose. On veut « la même personne » ou « le même objet » dans une nouvelle scène. Le moteur tente d’extraire des traits (visage, silhouette) et de les réinjecter. Le poids : fort sur le sujet, moins sur le fond ou la lumière. Midjourney --cref, Flux character consistency, LoRAs dans Stable Diffusion : c’est ce type de référence. Limite connue : la cohérence du visage sur plusieurs images reste difficile ; les outils progressent mais ne garantissent pas l’identité parfaite.
3. Structure reference (composition, pose, profondeur).
L’image sert de squelette : esquisse, depth map, pose skeleton, canny edges. Le texte décrit le contenu (qui, quoi, quelle lumière) ; l’image impose où et comment c’est disposé. Le poids : très fort sur la géométrie, le moteur « remplit » avec le style et le sujet du prompt. ControlNet (Stable Diffusion), Runway ou d’autres avec « structure from image » : c’est ce workflow. Pour aller du croquis au rendu final, le workflow ControlNet expliqué détaille les types de préprocesseurs et comment les doser.
Comment le « poids » est appliqué (en pratique)
Les modèles ne te montrent pas un curseur « 50 % image / 50 % texte ». Mais tu peux raisonner ainsi :
- Plus de détails dans le prompt = le texte pèse plus. Une référence + un prompt vague (« beautiful scene ») laisse le moteur s’appuyer surtout sur l’image. Un prompt très précis (« woman in red dress, medium close-up, soft key left, 85mm ») réduit la marge d’interprétation et « pilote » davantage le résultat.
- Type de référence : une référence de style (--sref) influence surtout couleur et texture ; une référence de structure (ControlNet) influence surtout la composition et la pose. Une content reference (--cref) pousse vers « même personne / même objet ».
- Force du préprocesseur (ControlNet). Sur Stable Diffusion + ControlNet, un paramètre « strength » ou « weight » (souvent 0.5 à 1.0) règle à quel point la structure de l’image d’entrée est respectée. À 1.0, la sortie colle très fort à l’esquisse ; à 0.5, le texte et le modèle prennent plus de liberté.
Donc : référence + prompt vague = la référence domine. Référence + prompt détaillé = partage plus équilibré. Pour des rendus prévisibles, on structure le prompt (sujet, cadrage, lumière, style) et on choisit le type de référence en fonction de ce qu’on veut garder (look vs sujet vs composition).
Scénarios concrets
Scénario 1 , Garder le style d’une campagne sur 10 visuels.
Tu as une image validée (lumière, couleurs, grain). Tu veux 10 nouvelles images (sujets différents) dans le même style. Action : Utiliser une style reference (--sref ou équivalent). Prompts : sujet + action + cadrage différents à chaque fois, mais pas besoin de répéter toute la description lumière/couleur , la référence porte le look. Le poids de la référence est fort sur l’esthétique, faible sur le contenu. Résultat : série cohérente sans réécrire 10 fois la même phrase lumière. Voir visuels publicitaires cohérents.
Scénario 2 , Reproduire une pose exacte avec un nouveau personnage.
Tu as une photo de référence (pose, cadrage) et tu veux « la même pose » avec un autre visage ou un autre costume. Action : Utiliser une structure reference (pose skeleton ou openpose dans ControlNet, ou « pose from image »). Prompt : décrire le nouveau sujet et la scène ; l’image impose la pose. Le poids de la structure est élevé (0.7–0.9) pour ne pas déformer la pose. Pour aller plus loin, ControlNet en détail explique quels préprocesseurs utiliser (openpose, depth, canny).
Scénario 3 , Même personnage dans 5 décors différents.
Tu veux un personnage reconnaissable dans plusieurs plans. Action : Content / character reference (--cref ou LoRA du visage). Chaque prompt décrit le décor et l’action ; la référence apporte l’identité du personnage. Le poids du texte reste important pour le décor et la lumière, sinon tout ressemble au même plan. Limite : la régularité du visage et du character design varient encore ; prévoir des itérations ou du retouche.
Ce que les débutants se trompent
Mettre une référence sans préciser ce qu’on en veut.
Une image + « make it better » : le moteur ne sait pas s’il doit copier le style, le sujet ou la composition. Correction : Choisir le mode (style / content / structure) et écrire un prompt qui dit clairement ce qui change (ex. « same style, new subject: woman in blue dress »).
Croire que la référence « écrase » toujours le prompt.
Selon l’outil et la force, le texte peut encore beaucoup influencer. Correction : Pour que le prompt pèse, être précis (sujet, cadrage, lumière). Pour que la référence pèse, réduire les détails contradictoires dans le prompt.
Mélanger plusieurs références sans hiérarchie.
Style ref + character ref + structure ref en même temps : selon les outils, ça peut se battre. Correction : Une priorité claire. Ex. : structure ref (pose) + prompt détaillé pour le reste ; ou style ref + prompt pour le sujet uniquement.
Ne pas itérer sur la « force ».
Avec ControlNet, laisser la force à 1.0 peut figer des défauts de l’esquisse. Correction : Tester 0.6, 0.8, 1.0 et comparer. Ajuster selon que tu veux plus de fidélité à la ref ou plus de liberté au modèle.
| Objectif | Type de référence | Poids conseillé (si réglable) | Prompt |
|---|---|---|---|
| Même look, sujets différents | Style | Fort | Sujet + action + cadrage par image |
| Même pose, nouveau sujet | Structure (pose) | Fort (0.7–0.9) | Nouveau sujet, même composition |
| Même personnage, nouveaux décors | Content / character | Moyen à fort | Décors et actions différents |
| Esquisse → rendu final | Structure (canny/depth) | Fort puis affaiblir si trop rigide | Style, couleurs, éclairage |
La référence n’est pas « une image en plus ». C’est un levier : style, contenu ou structure. Choisis lequel tu veux piloter.

Workflow rapide : choisir et doser la référence
- Définir l’objectif. Tu veux garder le look (style), le sujet (personnage/objet) ou la composition (pose, esquisse) ?
- Choisir le type de référence. Style ref pour campagne cohérente ; content ref pour personnage récurrent ; structure ref pour pose ou esquisse.
- Rédiger le prompt en conséquence. Pour une style ref : décris surtout le sujet et l’action. Pour une structure ref : décris le rendu (lumière, couleurs, sujet). Pour une content ref : décris le décor et l’action.
- Ajuster la force si l’outil le permet. Trop de référence = rendu trop collé à l’image. Pas assez = la ref est ignorée. Itérer entre 0.5 et 1.0 (ou équivalent).
- Vérifier la cohérence sur une série. Si tu utilises la même style ref pour 10 images, garde le même prompt de structure (ordre, types de termes) et varie seulement le sujet. Voir structurer un prompt et éviter le style Midjourney générique pour des rendus plus maîtrisés.
Ressource vidéo : Pour voir l’impact du poids d’une image reference (style vs content) en temps réel, cherchez sur YouTube « Midjourney style reference vs character reference » ou « ControlNet strength weight ».
Questions fréquentes (FAQ)
Pourquoi mon image reference ne semble pas prise en compte ?
Vérifier que tu utilises le bon mode (style / content / structure). Si le prompt est très long et très détaillé, il peut « noyer » la référence. Simplifier le prompt ou augmenter le poids de la référence si l’outil le permet.
Peut-on combiner deux références (style + pose) ?
Selon l’outil : oui sur certains (ex. ControlNet avec deux modules). Sur Midjourney, --sref et --cref peuvent être utilisés ensemble, mais les résultats sont moins prévisibles. En général, une référence principale + un prompt très clair donnent de meilleurs résultats.
Comment faire pour que la référence pèse moins ?
Réduire la « strength » ou le « weight » de la référence (ControlNet, etc.). Ou écrire un prompt très détaillé qui décrit autre chose que la référence, pour que le modèle mélange les deux.
Style reference : faut-il une seule image ou plusieurs ?
Une image suffit souvent. Plusieurs images (2–4) peuvent renforcer la cohérence du style sur certains outils (Midjourney --sref accepte plusieurs URLs). Tester avec une, puis ajouter si le style n’est pas assez marqué.
La référence peut-elle être une image IA ?
Oui. Beaucoup utilisent une image IA validée comme style reference pour la série suivante. Assure-toi qu’elle est cohérente (pas de mélange de styles) pour que l’extraction de style soit propre.
Référence et droits d’auteur : en pratique ?
Pour un usage pro, privilégie tes propres visuels ou des références libres de droits. L’utilisation d’une image protégée comme référence peut poser des questions de droit dérivé. Pour la commercialisation des images IA et le droit d’auteur, on en parle dans des articles dédiés.


Frank Houbre - expert IA vidéo et Image
Frank Houbre est un expert en IA vidéo et image, artiste IA et filmmaker récompensé aux Seoul International AI Film Festival et aux Mondial Chroma Awards. Avec plus de 10 ans d'expérience en entrepreneuriat digital, il crée des courts-métrages et animés entièrement générés par IA (Midjourney, Kling, Adobe Firefly). Co-Fondateur de Screenweaver et de la communauté #AIStudios, il partage des tutoriels gratuits et avis d'outils sur Business Dynamite pour aider les créateurs à automatiser leur production.
Continuer la lecture
- Génération d'images par lots (Batch prompting) pour les agences de publicité
Produire des dizaines de visuels cohérents pour une campagne : structure des prompts, variables, style reference et pipelines pour les agences.
- Forcer la composition mathématique (Nombre d'or, Tiers) dans l'IA visuelle
Imposer la règle des tiers, le nombre d’or ou une composition précise en prompt : ce qui marche, ce qui ne marche pas, et les contournements.
- Éviter le "style Midjourney" , Techniques pour des rendus authentiques
Le rendu « typique Midjourney » (lisse, surréaliste, répétitif) se repère à des kilomètres. Comment s’en écarter pour des images qui sonnent pro et humaines.
