Fal Speech-to-Text
Free.ai
·
stt
·
~500 ટોકન પ્રતિ minute
Fal Speech-to-Text એ a દ્રશ્ય-થી-લખાણ મોડેલ છે. બાહ્ય મોડેલો મારફતે માર્ગદર્શિત — ~500 ટોકન્સ મિનિટ (ઉપરના ખર્ચ પર 50% માર્કઅપ).
API મારફતે વાપરો
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
API દસ્તાવેજ
API કી મેળવો
વારંવાર પૂછાતા પ્રશ્નો
Fal Speech-to-Text બોલાયેલ ઓડિયો લખાણમાં રૂપાંતરિત કરે છે. MP3, WAV, M4A, અથવા વિડિયો ફાઈલ અપલોડ કરો અને Fal Speech-to-Text સમયમુદ્રાઓ સાથે વૈકલ્પિક SRT/VTT ઉપશીર્ષકો સાથે સંપૂર્ણ રૂપાંતરણ બરાબર પાછું આપે છે.
Fal Speech-to-Text ભાષાઓની ડઝનોને સંભાળે છે - Whisper-પરિવાર મોડેલો 90+, Parakeet ~25 ને કવર કરે છે, બીજાઓ બદલાય છે. "આપમેળે-શોધ" પસંદ કરો અથવા ઊંચી ચોકસાઈ માટે ભાષા સ્પષ્ટ કરો.
શબ્દ-ક્ષતિ દર સાફ અંગ્રેજી ઓડિયો પર 5–10% છે, ધુમાડાવાળા અથવા ભારિત ઓડિયો પર 10–20%. એ જ આર્કિટેક્ચરના મોટાં પ્રકારો કઠિન કેસોમાં અર્થપૂર્ણ રીતે સારાં કરે છે - જ્યારે ઓડિયો કઠિન હોય ત્યારે મોટું પસંદ કરો.
હા — દરેક સેગમેન્ટ શરૂઆત/અંત સમયસમાપ્તિઓ સમાવે છે. SRT અથવા VTT તરીકે નિકાસ કરો અને સમય નકશા સીધા તમારા વિડિયો પર.
Fal Speech-to-Text એ પ્રીમિયમ ટ્રાન્સક્રિપ્શન એન્જિન છે. ઓડિયોનાં મિનિટમાં ~500–1,500 ટોકન વિશે. $1 = 750,000 ટોકન.
MP3, WAV, M4A, FLAC, OGG, અને વીડિયો (MP4, MOV, WebM) — અમે ઓડિયો કાઢી નાંખીએ છીએ. મહત્તમ ૫૦૦ MB પ્રતિ અપલોડ. લાંબી ફાઈલો? /audio/cut/ સાથે વિભાજીત કરો અથવા /v1/stt/batch/ વાપરો.
સ્પીકર ડાયરીકરણ અલગ પાસવર્ડ છે - /transcribe/ પર "diarize" બદલો. Fal Speech-to-Text લખાણને સંભાળે છે; ડાયરીકરણ સ્પીકર ૧ / સ્પીકર ૨ / વગેરે સાથે દરેક સેગમેન્ટને લેબલ કરે છે.
હા — /batch/ ઓડિયો ફાઈલોનું ફોલ્ડર સ્વીકારે છે. દરેક ટ્રાન્સક્રિપ્ટ મૂળભૂત ફાઈલનામ સાથે /account/?tab=history માં સ્થિત થાય છે. ફોલ્ડર-ટ્રિ સંગ્રહ માટે API વાપરો.
હા — મોડેલ="Fal Speech-to-Text" સાથે /v1/stt/transcribe/ પર તમારું ઓડિયો POST કરો. લખાણ + સેગમેન્ટ્સ + શબ્દ-સ્તર સમયસૂચક સાથે JSON ને પાછું આપે છે. /api/ એ સંપૂર્ણ સંદર્ભ છે.
સ્વયં-હોસ્ટ થયેલ મોડેલો અમારા GPUs પર ઓડિયો રાખે છે; પ્રીમિયમ DPA સાથે પસાર થાય છે. ઓડિયો વહેંચણી-વિન્ડો પછી કાઢી નાંખવામાં આવે છે (24h ano, 7d પ્રવેશ-માં). અમે તમારા ઇનપુટ્સ પર તાલીમ આપતા નથી.
Yes — Free.ai grants commercial use of transcripts. You need rights to the audio you uploaded (your own recording, licensed material, or content with consent).
વાસ્તવિક સમય ઘટક લગભગ ૦.૦૫–૦.૨× છે — ૬૦-મિનિટની પોડકાસ્ટ ૩–૧૨ મિનિટમાં રૂપાંતરિત કરે છે. પ્રીમિયમ મોડેલો ઘણીવાર ઝડપથી સમાપ્ત થાય છે. ટેબને બંધ કરવા માટે કતાર બટનનો ઉપયોગ કરો.