GOT-OCR v2
Free.ai
·
ocr
·
~500 1個あたりのトークン数 page
GOT-OCR v2はan,OCRモデルである。 外部モデルを経由してルーティングされる - ~500トークン ページ当たりの (アップストリームコストの50%マークアップ)。
よくある質問
GOT-OCR v2は画像やPDFからテキストを抽出します。スキャンしたページ、スクリーンショット、または文書の写真をアップロードすると、GOT-OCR v2はテキストを返します。行切りや(対応するエンジンでは)表、式、構造を保存します。
GOT-OCR v2は数十のスクリプトを扱います。ラテン文字、キリル文字、CJK、アラビア文字、デヴァナガリなど。 /ocr/ はエンジンごとの完全な言語リストを持っています。
TrOCRと現代のトランスフォーマーベースのエンジンは、手書きにおいて、古いテッセラクトよりも著しく優れている。
レイアウトに注意するエンジン (GOT-OCR, Marker, Florence-2) は Markdown/HTML テーブルと公式の LaTeX を返します。 単純テキストエンジンは構造なしのテキストを返します。 このモデルの出力モードをチェックしてください。
GOT-OCR v2はプレミアムOCRエンジンです。ページ当たり約500~1,500トークン。$1 = 750,000トークン。
PNG, JPG, WebP, HEIC, BMP, 50MBまでの単ページと複数ページのPDFをサポートします。スキップしたページや回転したページは、抽出前に自動的に修正されます。
文字の正確度は、清潔な印刷ページ、低解像度の写真、非常に歪んだスキャン、または異常なフォントで98%以上です。正確性が重要な場合は、 /ocr/compare/ でエンジンを比較してください。
はい — /batch/ は画像/PDF のフォルダを受け入れます。抽出されたファイルは /account/?tab=history に保存されます。フォルダのツリー保存には API を使用してください。
はい — ファイルを /v1/ocr/ に POST します。 model="GOT-OCR v2" を使用します。 テキスト + (サポートされている場合) レイアウト + ワードレベルのボウンドボックスを含む JSON を返します。 /api/ には完全なリファレンスがあります。
自己ホストモデルはファイルをGPUに保存します。プレミアムモデルはDPAを通して通過します。文書は共有ウィンドウが終わった後に削除されます。私たちはあなたの入力を訓練しません。
はい — Free.ai は抽出されたテキストの商用利用を許可します。ソース文書の権利が必要です。
ページごとに1-5秒。レイアウトに注意するエンジン(テーブル、数学)はより長くかかります。多ページのPDFは大体線形にスケールします。