Fal Speech-to-Text

Free.ai · stt · ~500 टोकन प्रति minute

ऑडिओ अपलोड करा

ऑडिओ किंवा व्हिडीओ फाइल टाकून द्या, किंवा URL खाली चिकटवा

~500 टोकन प्रति minute

याचे मूळ नाव फ्रान्सिस दिब्रिटो होते. साठी अद्ययावत करा Fal Speech-to-Text →

Fal Speech-to-Text हे a आहे वार्ता- ते- पाठ्य मॉडेल. Routed through external models — ~500 tokens प्रति मिनिट (50% markup over upstream cost).

API द्वारे वापरा

OpenAI-compatible REST API. Generate a key and call this model in seconds.

curl -X POST https://api.free.ai/v1/stt/ \
  -H "Authorization: Bearer sk-free-..." \
  -H "Content-Type: application/json" \
  -d '{"model":"premium/speech-to-text","audio_url":"https://..."}'

API दस्तऐवजीकरण API कि प्राप्त करा

Similar models

ElevenLabs STT

Wizper (Whisper v3)

Browse all models →

वारंवार विचारले जाणारे प्रश्न

Fal Speech-to-Text बोलल्या गेलेल्या ऑडिओला पाठ्य मध्ये रूपांतरित करते. MP3, WAV, M4A, किंवा व्हिडीओ फाइल अपलोड करा आणि Fal Speech-to-Text पूर्ण रूपांतरित आणि वैकल्पिक SRT/VTT उपशीर्षक वेळचिन्हांसह परत करतो.

Fal Speech-to-Text अनेक भाषा हाताळते - Whisper-परिवारातील मॉडेल 90+, Parakeet ~25, इतर बदलतात. "स्व-शोध" निवडा किंवा उच्चतम अचूकतेसाठी भाषा निर्देशित करा.

शब्द-त्रुटी दर स्वच्छ इंग्रजी ऑडिओवर 5-10% आहे, 10-20% गडबड किंवा उच्चारलेल्या ऑडिओवर.

होय — प्रत्येक खंडात प्रारंभ/अंत वेळ चिन्ह समाविष्टीत आहे. SRT किंवा VTT प्रमाणे एक्सपोर्ट करा व वेळेस थेट व्हिडीओवर दर्शवा.

Fal Speech-to-Text हे एक प्रीमियम ट्रांसक्रिप्शन इंजिन आहे. ~५००-१५०० ऑडिओ टोकन प्रति मिनिट.

MP3, WAV, M4A, FLAC, OGG, प्लस व्हिडीओ (MP4, MOV, WebM) — आम्ही ऑडिओ काढतो. प्रति अपलोड जास्तीत जास्त 500 MB. मोठे फाइल? /audio/cut/ सह विभाजित करा किंवा /v1/stt/batch/ वापरा.

Speaker diarization is a separate pass — toggle "diarize" on /transcribe/. Fal Speech-to-Text handles the transcription; diarization labels each segment with Speaker 1 / Speaker 2 / etc.

होय — /batch/ ऑडिओ फाइलचे संचयीका स्वीकारते. प्रत्येक ट्रान्सक्रिप्ट /account/?tab=history मध्ये मूळ फाइलनावाच्या बरोबर येतो. फोल्डर-ट्री संवर्धनासाठी API चा वापर करा.

Yes — POST your audio to /v1/stt/transcribe/ with model="Fal Speech-to-Text". Returns JSON with text + segments + word-level timestamps. /api/ has the full reference.

स्वतः-होस्ट मॉडेल ऑडिओ आपल्या GPU वर ठेवतात; प्रीमियम DPA द्वारे पार पडतात. ऑडिओ शेअर-विंडो नंतर काढून टाकले जाते (24 तास अननॉन, 7d दाखलन-इन). आम्ही तुमच्या इनपुटवर प्रशिक्षण देत नाही.

होय — Free.ai मुद्रणाच्या व्यावसायिक वापरास परवानगी देते. तुम्ही अपलोड केलेल्या ऑडिओचे अधिकार तुम्हाला हवे आहेत (तुमचे स्वतःचे रेकॉर्डिंग, परवानाधारक सामग्री, किंवा परवानगीसह अनुक्रम).

वास्तविक वेळ घटक सुमारे 0.05–0.2× आहे — 60 मिनिटांचे पॉडकास्ट3– 12 मिनिटांमध्ये transcribes. प्रीमियम मॉडेल बहुधा लवकर पूर्ण होते. टॅब बंद करण्यासाठी क्यु बटण वापरा.

Fal Speech-to-Text

API द्वारे वापरा

Similar models

वारंवार विचारले जाणारे प्रश्न

Fal Speech-to-Text काय करते?

Fal Speech-to-Text किती भाषांना समर्थन देते?

Fal Speech-to-Text किती अचूक आहे?

Fal Speech-to-Text मध्ये टाइमस्टॅम्प समाविष्ट आहे का?

Fal Speech-to-Text चा दर मिनिट किती आहे?

Fal Speech-to-Text वर मी कोणते ऑडिओ स्वरूप अपलोड करू शकतो?

Fal Speech-to-Text ने वेगवेगळ्या वक्त्यांची ओळख पटवू शकते का?

मी Fal Speech-to-Text सोबत बॅच ट्रान्सक्रिप्शन करू शकतो का?

Fal Speech-to-Text साठी एक API आहे का?

मी Fal Speech-to-Text सोबत लिहिल्यावर गोपनीयतेबद्दल काय?

Fal Speech-to-Text आऊटपुट व्यावसायिक वापरासाठी सुरक्षित आहे का?

Fal Speech-to-Text किती वेळ लागतो?

10,000 मोफत टोकन मिळवा

Wait — 30K free tokens/day!

आणखी हवं का?