Fal Speech-to-Text

Free.ai · stt · ~500 ટોકન પ્રતિ minute

ઓડિયો અથવા વિડિયો ફાઈલ મૂકો, અથવા નીચે URL ને ચોંટાડો

~500 ટોકન પ્રતિ minute
અમારા GPUs પર મુક્ત રીતે ચાલે છે. માટે સુધારો Fal Speech-to-Text →

Fal Speech-to-Text એ a દ્રશ્ય-થી-લખાણ મોડેલ છે. બાહ્ય મોડેલો મારફતે માર્ગદર્શિત — ~500 ટોકન્સ મિનિટ (ઉપરના ખર્ચ પર 50% માર્કઅપ).

API મારફતે વાપરો

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
API દસ્તાવેજ API કી મેળવો

વારંવાર પૂછાતા પ્રશ્નો

Fal Speech-to-Text બોલાયેલ ઓડિયો લખાણમાં રૂપાંતરિત કરે છે. MP3, WAV, M4A, અથવા વિડિયો ફાઈલ અપલોડ કરો અને Fal Speech-to-Text સમયમુદ્રાઓ સાથે વૈકલ્પિક SRT/VTT ઉપશીર્ષકો સાથે સંપૂર્ણ રૂપાંતરણ બરાબર પાછું આપે છે.

Fal Speech-to-Text ભાષાઓની ડઝનોને સંભાળે છે - Whisper-પરિવાર મોડેલો 90+, Parakeet ~25 ને કવર કરે છે, બીજાઓ બદલાય છે. "આપમેળે-શોધ" પસંદ કરો અથવા ઊંચી ચોકસાઈ માટે ભાષા સ્પષ્ટ કરો.

શબ્દ-ક્ષતિ દર સાફ અંગ્રેજી ઓડિયો પર 5–10% છે, ધુમાડાવાળા અથવા ભારિત ઓડિયો પર 10–20%. એ જ આર્કિટેક્ચરના મોટાં પ્રકારો કઠિન કેસોમાં અર્થપૂર્ણ રીતે સારાં કરે છે - જ્યારે ઓડિયો કઠિન હોય ત્યારે મોટું પસંદ કરો.

હા — દરેક સેગમેન્ટ શરૂઆત/અંત સમયસમાપ્તિઓ સમાવે છે. SRT અથવા VTT તરીકે નિકાસ કરો અને સમય નકશા સીધા તમારા વિડિયો પર.

Fal Speech-to-Text એ પ્રીમિયમ ટ્રાન્સક્રિપ્શન એન્જિન છે. ઓડિયોનાં મિનિટમાં ~500–1,500 ટોકન વિશે. $1 = 750,000 ટોકન.

MP3, WAV, M4A, FLAC, OGG, અને વીડિયો (MP4, MOV, WebM) — અમે ઓડિયો કાઢી નાંખીએ છીએ. મહત્તમ ૫૦૦ MB પ્રતિ અપલોડ. લાંબી ફાઈલો? /audio/cut/ સાથે વિભાજીત કરો અથવા /v1/stt/batch/ વાપરો.

સ્પીકર ડાયરીકરણ અલગ પાસવર્ડ છે - /transcribe/ પર "diarize" બદલો. Fal Speech-to-Text લખાણને સંભાળે છે; ડાયરીકરણ સ્પીકર ૧ / સ્પીકર ૨ / વગેરે સાથે દરેક સેગમેન્ટને લેબલ કરે છે.

હા — /batch/ ઓડિયો ફાઈલોનું ફોલ્ડર સ્વીકારે છે. દરેક ટ્રાન્સક્રિપ્ટ મૂળભૂત ફાઈલનામ સાથે /account/?tab=history માં સ્થિત થાય છે. ફોલ્ડર-ટ્રિ સંગ્રહ માટે API વાપરો.

હા — મોડેલ="Fal Speech-to-Text" સાથે /v1/stt/transcribe/ પર તમારું ઓડિયો POST કરો. લખાણ + સેગમેન્ટ્સ + શબ્દ-સ્તર સમયસૂચક સાથે JSON ને પાછું આપે છે. /api/ એ સંપૂર્ણ સંદર્ભ છે.

સ્વયં-હોસ્ટ થયેલ મોડેલો અમારા GPUs પર ઓડિયો રાખે છે; પ્રીમિયમ DPA સાથે પસાર થાય છે. ઓડિયો વહેંચણી-વિન્ડો પછી કાઢી નાંખવામાં આવે છે (24h ano, 7d પ્રવેશ-માં). અમે તમારા ઇનપુટ્સ પર તાલીમ આપતા નથી.

Yes — Free.ai grants commercial use of transcripts. You need rights to the audio you uploaded (your own recording, licensed material, or content with consent).

વાસ્તવિક સમય ઘટક લગભગ ૦.૦૫–૦.૨× છે — ૬૦-મિનિટની પોડકાસ્ટ ૩–૧૨ મિનિટમાં રૂપાંતરિત કરે છે. પ્રીમિયમ મોડેલો ઘણીવાર ઝડપથી સમાપ્ત થાય છે. ટેબને બંધ કરવા માટે કતાર બટનનો ઉપયોગ કરો.

Free.ai ને પ્રેમ છે? તમારા મિત્રોને કહો!

આ પાનાંને દર આપો