Vidéo IA24 février 2026· 13 min de lecture

Montage Vidéo IA sur CapCut , Intégrer Voix Off Google, Bruitages et Keyframes

Montage vidéo IA sur CapCut : intégrer voix off (Google Studio), bruitages, keyframes pour zooms et transitions. Workflow post-production accessible.

Note

4,82 / 5

Montage Vidéo IA sur CapCut , Intégrer Voix Off Google, Bruitages et Keyframes

Tu as une pile de plans générés par Runway, Kling ou Luma. Ils sont beaux mais statiques. Pas de mouvement de caméra, pas de voix, pas d’ambiance sonore. Le montage vidéo IA sur CapCut permet d’assembler ces séquences, d’ajouter des voix off (Google Studio, ElevenLabs), des bruitages et des keyframes (zooms, transitions) pour un rendu pro sans logiciel lourd. Ce guide décrit un workflow concret : où cliquer, dans quel ordre, et ce que les débutants se trompent. Pour la génération des plans, voir créer un mini-film de A à Z et upscaling 4K TensorPix.

Pourquoi CapCut pour le montage vidéo IA ?

CapCut est gratuit (avec options payantes), disponible sur desktop et mobile, et propose : timeline multi-pistes, keyframes, bibliothèque de sons, sous-titres automatiques, et intégration possible avec des voix IA. Idéal pour les créateurs qui veulent monter des clips IA sans passer par DaVinci ou Premiere. Voila pourquoi c'est important, un mini-film ou une série de shorts ne demande pas toujours un logiciel de post-pro hollywoodien. CapCut couvre l’essentiel : couper, caler la voix, ajouter du mouvement (keyframes), poser des bruitages et de la musique, exporter en 1080p ou 4K. Pour un workflow plus avancé (color grading poussé, VFX, multicam), voir post-production vidéo IA DaVinci Resolve. Pour la plupart des projets « plans IA + voix + son », CapCut suffit. Pour un avis détaillé sur CapCut Pro et les formats courts, voir avis CapCut Pro 2026.

Workflow pas à pas : de l’import à l’export

1. Importer les séquences

Ouvre CapCut (desktop ou mobile). Crée un nouveau projet. Importe tes clips générés (Runway, Kling, Luma, etc.) depuis ton dossier. Glisse-les sur la timeline dans l’ordre voulu. Vérifie que la résolution et le framerate sont cohérents (ex. tous en 1080p 24fps). Si un plan est en 720p et les autres en 1080p, CapCut peut le mettre à l’échelle ; pour un rendu homogène, upscale les 720p avant ou accepte un léger recadrage. Pour monter plus vite avec l’IA, les raccourcis et l’organisation des pistes font gagner du temps.

2. Keyframes : zooms et mouvements en post

Les images générées par l’IA sont souvent statiques. Les keyframes permettent d’ajouter un zoom (scale), un léger pan ou une transition en douceur. Dans CapCut : sélectionne un clip sur la timeline. Ouvre le panneau des propriétés du clip (souvent en cliquant sur le clip ou via un onglet « Animation » / « Keyframe »). Tu verras des propriétés comme Scale (échelle) et Position. Place la tête de lecture au début du plan, ajoute une keyframe sur Scale (ex. 100 %). Place la tête de lecture à la fin du plan, ajoute une autre keyframe sur Scale (ex. 110 %). CapCut interpole entre les deux : tu obtiens un zoom lent de 100 % à 110 %. Un zoom très léger (105 % → 100 % ou 100 % → 108 %) donne du dynamisme sans dégrader l’image. Pour un pan (mouvement latéral), utilise Position avec deux keyframes (début : X=0, fin : X=-50 par exemple). Répète sur les plans statiques qui durent plus de 2–3 secondes pour éviter l’effet « diapo ». Voir mouvements de caméra en IA pour la grammaire des mouvements (travelling, pan, tilt) et comment les simuler en post.

3. Voix off : Google Studio et ElevenLabs

Google Studio (ou Google Text-to-Speech, selon l’interface) : Rédige ton script. Lance la synthèse vocale, exporte le fichier audio (WAV ou MP3). Dans CapCut, importe ce fichier et place-le sur une piste dédiée (souvent la piste 2, au-dessus des vidéos). Cale le début de la voix sur le premier plan où elle doit commencer. Ajuste la longueur des plans vidéo (coupe ou étire) pour que les images suivent le rythme de la voix, ou l’inverse. Si la voix est trop longue pour un plan, coupe le plan ou ajoute un plan de coupe (B-roll). Si la voix est trop courte, étire un peu le plan (ralenti léger) ou ajoute un silence.
ElevenLabs : Même principe. Génère l’audio depuis ElevenLabs (colle le script, choisis la voix, exporte). Importe dans CapCut sur une piste dédiée. Cale. Pour la voix off réaliste en français, voir voix off réaliste sans micro. Pour le lip-sync (faire parler un avatar), lip-sync IA vidéo.

Pro tip : Garde toujours la voix sur une piste séparée des bruitages et de la musique. Tu pourras ajuster le volume de chaque couche (ducking : baisser la musique quand la voix parle) et exporter des versions différentes (avec ou sans musique) sans tout refaire.

4. Bruitages et sound design

CapCut propose une bibliothèque de sons (ambiances, impacts, musiques). Ouvre l’onglet Audio / Sound library, cherche par mot-clé (ex. « ambient room », « whoosh », « impact »). Glisse le son sur une piste audio dédiée (en dessous de la voix). Ajuste le volume : la voix doit rester au premier plan ; les bruitages et la musique en fond. Tu peux aussi importer des pistes générées par IA (Udio, Suno pour la musique) ou des banques libres de droits (Epidemic Sound, Artlist, ou fichiers MP3 que tu as les droits d’utiliser). Place les bruitages aux moments clés (changement de plan, action à l’écran). Pour un guide dédié, voir sound design et bruitages pour vidéo IA.

5. Sous-titres

CapCut propose des sous-titres automatiques (reconnaissance vocale). Sélectionne la piste voix, lance la génération des sous-titres. Vérifie et corrige les erreurs de transcription. Ajuste la position et le style des sous-titres (police, taille, couleur) pour qu’ils soient lisibles et cohérents avec ta charte. Pour sous-titres automatiques vidéo IA, les options et les bonnes pratiques sont détaillées.

6. Exporter

Une fois le montage terminé, exporte en 1080p ou 4K selon ton projet. Vérifie le débit (bitrate) : pour YouTube, 1080p peut tourner autour de 12–20 Mbps ; 4K plus haut. Choisis le format (MP4 H.264 ou H.265). Lance l’export. Pour upscaler ensuite en 4K si tes plans sont en 1080p, voir upscaling vidéo IA TensorPix.

Tableau : pistes et rôles

| Piste | Rôle typique | |-------|----------------| | Piste 1 (vidéo) | Clips générés IA, ordonnés | | Piste 2 (audio) | Voix off (Google Studio, ElevenLabs) | | Piste 3 (audio) | Bruitages, ambiances | | Piste 4 (audio) | Musique de fond |

Tu peux fusionner bruitages et musique sur une même piste si tu préfères ; l’important est de pouvoir baisser la musique quand la voix parle (ducking).

Scénarios réels

Scénario 1 : Mini-film 2 min pour YouTube. Thomas a 15 plans générés par Runway (1080p). Il les importe dans CapCut, les ordonne, et ajoute des keyframes de zoom (100 % → 108 %) sur les plans de plus de 4 secondes. Il génère sa voix off avec ElevenLabs (script déjà rédigé), l’importe, la cale. Il ajoute une musique de fond (bibliothèque CapCut) et baisse son volume sous la voix. Il génère les sous-titres auto, corrige les fautes, exporte en 1080p. Livraison en une demi-journée. Sans keyframes, les plans auraient semblé statiques ; sans voix et musique, le film aurait semblé brut.

Scénario 2 : Série de 5 shorts pour TikTok. Sophie a 5 scripts courts. Pour chaque short, elle a 3 à 5 plans générés par Kling. Elle monte chaque short dans CapCut : ordre des plans, keyframes légers, voix off (Google Studio, voix rapide et dynamique), musique tendance. Elle utilise les sous-titres auto pour l’accessibilité et l’engagement. Elle exporte en 9:16 (format vertical). Les 5 shorts sont prêts en une journée. Pour vidéo TikTok et Shorts avec l’IA, le format et le rythme sont détaillés.

Scénario 3 : Présentation produit avec voix off. Marc a 8 plans produit (objet, packaging, contexte). Il n’a pas de tournage. Il rédige un script de 1 min, génère la voix avec ElevenLabs (ton pro), importe tout dans CapCut. Il cale la voix sur les plans, ajoute des transitions douces et des keyframes de zoom sur les plans produit. Il ajoute une musique corporate discrète. Export 1080p pour le site et les réseaux. Pour publicités vidéo haute conversion, la voix et le rythme sont des leviers clés ; CapCut permet de les gérer sans équipe.

Ce que les débutants se trompent (et comment corriger)

Erreur 1 : Pas de keyframes sur les plans statiques. Les plans restent figés, l’œil s’ennuie. Correction : Ajoute au minimum un léger zoom (100 % → 108 % ou 105 % → 100 %) sur les plans de plus de 2–3 secondes. Ça coûte 30 secondes par plan et ça change la perception. Pour des mouvements de caméra en IA, tu peux aussi simuler un pan ou un tilt avec les keyframes Position.

Erreur 2 : Voix et musique sur la même piste. Tu ne peux pas baisser la musique quand la voix parle sans couper la piste. Correction : Piste dédiée pour la voix, piste dédiée pour la musique (et une pour les bruitages si besoin). Ajuste le volume de la musique à la baisse pendant les passages parlés (ducking manuel ou automatique si CapCut le propose).

Erreur 3 : Exporter sans vérifier les niveaux audio. La voix est trop basse ou la musique couvre tout. Correction : Écoute l’export avant de livrer. Ajuste les volumes : la voix doit être claire et au premier plan ; la musique et les bruitages en support. Utilise les courbes de volume ou les points clés sur les pistes audio si besoin.

Erreur 4 : Sous-titres non relus. Les sous-titres auto font des erreurs (noms, chiffres, accents). Correction : Relis et corrige les sous-titres avant export. Une faute reste en ligne des années. Pour sous-titres automatiques vidéo, les bonnes pratiques limitent les erreurs.

Erreur 5 : Plans trop longs sans coupe. Un plan de 15 secondes sans mouvement ni coupe fatigue. Correction : Coupe le plan (insère un B-roll, un insert) ou ajoute un keyframe de mouvement. Garde un rythme : 3–6 secondes par plan en moyenne pour du contenu dynamique. Pour créer un mini-film de A à Z, le rythme et la variété des plans sont détaillés.

Problème	Piste de solution
Plans statiques ennuyeux	Keyframes zoom/pan sur chaque plan long
Voix et musique mélangées	Séparer en pistes ; ducking sous la voix
Export lourd ou pixelisé	Ajuster le débit et le format (H.264/H.265) ; 1080p suffit pour le web
Sous-titres faux	Relire et corriger après génération auto

Image corps – Timeline CapCut avec pistes voix, musique et keyframes

Limites de CapCut

CapCut n’est pas un logiciel de compositing avancé (masques complexes, tracking, VFX lourds). Pour des effets très poussés ou un color grading de niveau long-métrage, DaVinci Resolve (gratuit ou Studio) reste plus adapté. Pour la plupart des mini-films, contenus réseaux et présentations à base de plans IA, CapCut suffit. Si tu atteins les limites (nombre de pistes, effets), tu peux exporter une prévision depuis CapCut et finaliser dans DaVinci pour la colorimétrie ou le son. Pour workflow post-production vidéo IA DaVinci Resolve, la chaîne complète est décrite.

Image corps – Réglage volume et ducking voix / musique

Pour voir CapCut et les outils IA (sous-titres, coupes, keyframes) en action, un tutoriel créateur ou la chaîne officielle aide.

VIBE CODING : Mon chat crée une APP WEB en parlant, en 5 minutes - Google AI Studio

Tu y verras le flux import, captions, export pour les formats courts. Une ressource externe sur les bonnes pratiques d’export vidéo : CapCut Help Center (lien externe, non sponsorisé). Tu y trouveras les formats et résolutions recommandés selon la plateforme.

Foire aux questions

CapCut est-il vraiment gratuit ?

Oui pour l’essentiel : timeline, keyframes, import/export, sous-titres auto, bibliothèque de sons de base. Des options payantes existent (musiques premium, effets, pas de watermark selon les versions). Pour un montage vidéo IA basique (plans + voix + musique + keyframes), la version gratuite suffit souvent. Voir avis CapCut Pro 2026 pour ce qui change en payant.

Puis-je utiliser une autre voix IA que Google et ElevenLabs ?

Oui. Dès que tu as un fichier audio (WAV, MP3), tu peux l’importer dans CapCut. Tu peux donc utiliser Murf, Play.ht, Synthesia (voix seule), ou toute synthèse vocale qui exporte en fichier. Pour voix off réaliste en français, on compare plusieurs options.

Comment faire un ducking automatique (baisser la musique quand la voix parle) ?

Selon la version de CapCut, une option « ducking » ou « auto volume » peut exister dans les réglages audio. Sinon, place des keyframes de volume sur la piste musique : baisse le volume aux moments où la voix parle, remonte entre les phrases. C’est manuel mais précis. Pour sound design vidéo IA, le ducking et le mix sont détaillés.

Keyframes : scale 100 % à 110 %, c’est suffisant ?

Oui pour un effet discret et pro. Un zoom trop fort (100 % → 150 %) peut dégrader la qualité perçue (upscale visible) et sembler agressif. Reste entre 95 % et 115 % pour un mouvement doux. Tu peux aussi faire un « reverse zoom » (110 % → 100 %) pour donner une impression d’éloignement.

CapCut peut-il lire les projets DaVinci ou Premiere ?

Non. Chaque logiciel a son format de projet. Tu peux exporter depuis un logiciel en vidéo (MP4, etc.) et réimporter dans CapCut pour continuer le montage, mais tu perds les pistes et les effets natifs. Pour un workflow 100 % CapCut, reste dans CapCut de l’import à l’export. Pour un workflow avancé, commence dans CapCut pour le rough cut puis exporte les rushes et finalise dans DaVinci si besoin.

Quel format d’export pour YouTube et TikTok ?

YouTube : 1080p ou 4K, 16:9, MP4 H.264 ou H.265. TikTok / Reels / Shorts : 9:16, 1080×1920, MP4. CapCut propose des presets par plateforme ; vérifie les recommandations à jour de chaque réseau. Pour vidéo TikTok et Shorts IA, les formats et le rythme sont détaillés.

Les keyframes ralentissent-elles l’export ?

Très peu. Les keyframes sont des calculs simples (interpolation). L’export dépend surtout de la résolution, du débit et de la longueur de la vidéo. Tu peux activer l’accélération GPU si ton PC le permet (paramètres CapCut) pour des exports plus rapides.

Puis-je monter des plans IA et des plans tournés (vrais tournage) dans le même projet ?

Oui. Importe les deux types de clips sur la timeline. Assure-toi que la résolution et le framerate sont cohérents (ou laisse CapCut les adapter). Tu peux mélanger plans générés et plans réels dans la même séquence. Pour la colorimétrie, applique une correction globale pour homogénéiser si les sources ont des rendus très différents. Pour raccord montage entre scènes générées IA, les bonnes pratiques limitent les ruptures visuelles.

Votre avis

Chargement…