Bildtextgenerator för AI

Kommersiell användning OK 380+ modeller Inget vattenmärke Ingen registrering behövs
Förlaga:
+ GPT-5, Claude, Gemini
Bränn viral TikTok-stil bildtexter i din video — stor fet text med ord för ord highlight animation (ASS karaoke timing). Föredrar vanligt SRT / VTT sidvagn filer? Undertextsverktygistället — denna är stil-först och alltid brinner in.

Dra en video här eller klicka för att ladda upp

MP4, MOV, WebM upp till 200MB – 99 språk som stöds via Whisper

Ord för ord highlight färg (karaoke effekt).
Token uppskattning för ditt klipp
Ladda upp en video för att se den exakta kostnaden för ditt klipp.

Där virala bildtexter tjänar sitt uppehälle

TikTok / Rullar / Shorts

Kortfattad kompletteringshastighet hoppar 30-40% med ord-för-ord-texter. TikTok Neon-förinställningen är den som de bästa skaparna använder.

YouTube- virusklipp

MrBeast-stil fet text överlägg om reaktion / kommentarsbilder. YouTube Nedre tredje förinställd med en genomskinlig låda.

Podcast klipp för sociala

Ljud-först visar återklippt för IG Reels / TikTok. Podcast förinställda håller bildtexter läsbara över den talande-huvud ram.

4-stegs metod för att

  1. Ladda upp din video. Vi drar ljud, kör Whisper STT, och läsa timing för varje talat segment.
  2. Välj en förinställd stil — TikTok Neon är det säkra virala valet. Teckensnitt / markera färg / position överskrider förinställda standardvärden.
  3. Vi bygger en ASS textfil med ord för ord karaoke timing (effekten där ord ändrar färg som de talas).
  4. ffmpeg bränner bildtexterna i videon. Bearbetning tar 30-90 sekunder — stäng fliken; vi mailar dig när det är klart.

mot CapCut, Submagic, Opus Clip, Captions.AI

CapCut auto-captions är gratis och bra, men du behöver CapCut editor installerat och du kan inte batch dem. Submagic är $20/mo för obegränsad. Opus Clip är $30/mo för lång form → kort form med auto-captions bunted. Captions.AI (App Store) är $10/mo. Detta verktyg körs Whisper stor-v3 + en ffmpeg ASS karaoke burn-in - samma två primitiva alla betalda verktyg – inne i din symboliska poolen. För engångs-och batch social export, det är den snabbaste vägen.

Bildtexter vs textning — vad är skillnaden?

Undertexter (se /video/subtitle/) är ett verktyg: SRT/VTT sidvagnsfiler tittarens spelare kan växla på/av, avsedd för tillgänglighet och uppladdning till YouTube Studio. Bildtexter (detta verktyg) är en stil: stor fet text bränd i varje ram med karaoke animation, utformad för att tjäna slutförande hastighet på TikTok / Reels / Shorts där 85% av tittarna hålla ljud utanför. Använd undertext för YouTube CCs; använda bildtext för viral kort form.

När inte till rubrik

  • Videor som redan har inbrända bildtexter — texten kommer att fördubblas och se trasig ut.
  • Långformiga YouTube-uppladdningar — använd sidvagnens SRT från /video/subtitle/ istället så att tittarna kan växla CC.
  • Videor med noll dialog — det finns inget att texta. Bara musikklipp bör lägga till text overlays manuellt.
Avancerade alternativ
Resultat
Tokens börjar ta slut. Hämta fler tokener
Vill du ha bättre resultat? Premiemodeller (GPT-5, Claude, Gemini) levererar högre kvalitet. Visa Planer

❤️ Love this tool? Share it!

< a href="/signup/" style="color:#16A34A">Registrera dig för att få en referenslänk och tjäna 25 000 polletter per vän.

Vill du ha mer? Registrera dig gratis för 30K tokens/dag + 10K bonus
Registrera dig gratis

Bearbetning av din begäran...

Bränn viral TikTok-stil bildtexter i alla video - ord för ord karaoke highlight, 7 stil förinställningar, 8 teckensnitt, 99-språk Whisper STT. Alltid bränna in.

Hur du använder Bildtextgenerator för AI

1
Ange din inmatning

Skriv text, ladda upp en fil eller beskriv vad du vill. Inget konto behövs.

2
Klicka på generera

Vår AI behandlar din begäran på några sekunder med hjälp av de bästa open-source modellerna.

3
Ladda ner & resurs

Ladda ner, kopiera eller dela ditt resultat. Gratis för personligt och kommersiellt bruk.

Använd det här verktyget via API

Automatisera detta verktyg från din egen kod. OpenAI-kompatibel REST endpoint, Bearer-token auth, ingen extra SDK krävs. Token kostnader matchar webbgränssnittet.

curl -X POST https://api.free.ai/v1/video/generate/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"prompt": "A cat playing piano", "duration": 4}'

Bildtextgenerator för AI — FAQ

Bränner viral-stil bildtexter i alla video med ord-för-ord karaoke-timing animation. Olika från /video / subtitle /: textning utgångar SRT / VTT sidvagnsfiler som spelare växla på / av. Bildtext är alltid bränna-in, stil-först, och stämda för TikTok / rullar / Shorts där bildtexter måste hårdkodas in i varje ram.

Fyra steg: (1) extrahera mono 16kHz ljud från din video, (2) transkribera med Whisper large-v3 för 99 språk ord timing, (3) bygga en ASS textfil med ordnivå \kf karaoke timing taggar, (4) ffmpeg bränner ASS i varje ram med libass för ren anti-aliased text.

50 polletter per sekund (2000-token minimum). En 30-sekunders klipp är ~2000 tokens (golvet sparkar in); en 60-sekunders klipp är ~3,000; en 3-minuters klipp är ~9,000. STT kör det mesta av kostnaden; burn-in lägger till ca 25% på toppen.

Sju: TikTok Neon (gul Montserrat, ord för ord highlight), YouTube Lowertree (vit Roboto i en genomskinlig låda), Meme (vit Impact med en svart kontur), Podcast (Poppins i en mörk rundad låda), Keynote (Arial Black i toppen), Cinematic (italic Oswald i botten), och TED (vänster-aligned Roboto).

Ja. Font dropdown överskrider förinställda med Impact, Montserrat, Bebas Neue, Arial Black, Oswald, Poppins, Anton eller Roboto. Highlight Color-väljaren styr ord för ord- highlight (alla hex). Position låter dig överskrida top / center / botten oavsett förinställd.

Ja — 99 språk via Whisper. Auto-detekt fungerar på 99% av klipp. Du kan tvinga ett språk om Whisper fel-detekterar (vanligt på korta klipp under 5 sekunder eller blandad språk ljud).

Nej. Om det inte finns någon talad dialog, Viskaren returnerar inga segment och vi visar ett tydligt "Inget tal upptäckt" fel så att du inte bränner polletter på ett omöjligt jobb.

CapCut är gratis, fungerar offline efter installation, och har stora auto-captions — om CapCut redan är din redaktör, använda det där. Bildtextgenerator för AI hoppar över installationen och ger dig batch-vänlig webbläsaråtkomst. Den underliggande Whisper + libass kedja är samma primitiva.

Submagic är $20/mo för obegränsad bildtext med dussintals stil förpackningar. Opus Clip är $30/mo med viral lång form-till-kort AI klippning buntad. Captions.AI är $10/mo på mobilen. Alla tre använda Whisper under; deras verkliga värde är stil bibliotek och clip-detektion. För engångs och mindre volymer Bildtextgenerator för AI är gratis inne i din token pool.

Whisper ger tidstampar på segmentnivå – vi distribuerar segmentets varaktighet jämnt över dess ord för att härleda timing per ord. På snabbpoken-segment kan uppskattningen glida med ~0.1 sekunder. För frame-accurate timing, använd den nedladdningsbara.ass-filen och redigera i Aegisub.

Ja. Efter export, både bildtext MP4 och rå.ass fil är nedladdningsbara - redigera.ass i Aegisub om du vill pixel-perfect ord timing, sedan bränna om lokalt med ffmpeg -vf textning=file.ass.

Ja. POST multipart till /v1/video/caption/ with `file`, `stil` (tiktok-neon / youtube-lower / meme / podcast / keynote / cinematic / ted), valfritt `font`, `highlight_color` (hex), `position`, `språk`. Förflygning: GET /v1/video/caption-quote/?duration=SECS. Snippets at /api/.

Registrera dig gratis för 30 000 polletter

Skapa gratis konto

Inget kreditkort krävs

Hur skulle du värdera det här verktyget?

Love this tool? Share it!