Fal Speech-to-Text
Free.ai
·
stt
·
~500 टोकन प्रति minute
Fal Speech-to-Text हे a आहे वार्ता- ते- पाठ्य मॉडेल. Routed through external models — ~500 tokens प्रति मिनिट (50% markup over upstream cost).
API द्वारे वापरा
OpenAI-compatible REST API. Generate a key and call this model in seconds.
curl -X POST https://api.free.ai/v1/stt/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"premium/speech-to-text","audio_url":"https://..."}'
API दस्तऐवजीकरण
API कि प्राप्त करा
वारंवार विचारले जाणारे प्रश्न
Fal Speech-to-Text बोलल्या गेलेल्या ऑडिओला पाठ्य मध्ये रूपांतरित करते. MP3, WAV, M4A, किंवा व्हिडीओ फाइल अपलोड करा आणि Fal Speech-to-Text पूर्ण रूपांतरित आणि वैकल्पिक SRT/VTT उपशीर्षक वेळचिन्हांसह परत करतो.
Fal Speech-to-Text अनेक भाषा हाताळते - Whisper-परिवारातील मॉडेल 90+, Parakeet ~25, इतर बदलतात. "स्व-शोध" निवडा किंवा उच्चतम अचूकतेसाठी भाषा निर्देशित करा.
शब्द-त्रुटी दर स्वच्छ इंग्रजी ऑडिओवर 5-10% आहे, 10-20% गडबड किंवा उच्चारलेल्या ऑडिओवर.
होय — प्रत्येक खंडात प्रारंभ/अंत वेळ चिन्ह समाविष्टीत आहे. SRT किंवा VTT प्रमाणे एक्सपोर्ट करा व वेळेस थेट व्हिडीओवर दर्शवा.
Fal Speech-to-Text हे एक प्रीमियम ट्रांसक्रिप्शन इंजिन आहे. ~५००-१५०० ऑडिओ टोकन प्रति मिनिट.
MP3, WAV, M4A, FLAC, OGG, प्लस व्हिडीओ (MP4, MOV, WebM) — आम्ही ऑडिओ काढतो. प्रति अपलोड जास्तीत जास्त 500 MB. मोठे फाइल? /audio/cut/ सह विभाजित करा किंवा /v1/stt/batch/ वापरा.
Speaker diarization is a separate pass — toggle "diarize" on /transcribe/. Fal Speech-to-Text handles the transcription; diarization labels each segment with Speaker 1 / Speaker 2 / etc.
होय — /batch/ ऑडिओ फाइलचे संचयीका स्वीकारते. प्रत्येक ट्रान्सक्रिप्ट /account/?tab=history मध्ये मूळ फाइलनावाच्या बरोबर येतो. फोल्डर-ट्री संवर्धनासाठी API चा वापर करा.
Yes — POST your audio to /v1/stt/transcribe/ with model="Fal Speech-to-Text". Returns JSON with text + segments + word-level timestamps. /api/ has the full reference.
स्वतः-होस्ट मॉडेल ऑडिओ आपल्या GPU वर ठेवतात; प्रीमियम DPA द्वारे पार पडतात. ऑडिओ शेअर-विंडो नंतर काढून टाकले जाते (24 तास अननॉन, 7d दाखलन-इन). आम्ही तुमच्या इनपुटवर प्रशिक्षण देत नाही.
होय — Free.ai मुद्रणाच्या व्यावसायिक वापरास परवानगी देते. तुम्ही अपलोड केलेल्या ऑडिओचे अधिकार तुम्हाला हवे आहेत (तुमचे स्वतःचे रेकॉर्डिंग, परवानाधारक सामग्री, किंवा परवानगीसह अनुक्रम).
वास्तविक वेळ घटक सुमारे 0.05–0.2× आहे — 60 मिनिटांचे पॉडकास्ट3– 12 मिनिटांमध्ये transcribes. प्रीमियम मॉडेल बहुधा लवकर पूर्ण होते. टॅब बंद करण्यासाठी क्यु बटण वापरा.