BGE-M3
Free.ai (self-hosted)
·
embeddings
·
~100 จำนวนของชิ้นส่วนต่อหน่วย call
BGE-M3 เป็น a แบบจำลองการฝังตัว สร้างโดย BAAI แข็งแกร่งที่สุดที่ Text embeddings, semantic search จัดเก็บข้อมูลด้วยตนเองบน Free.ai GPUs — ทำงานฟรีกับสระของโต๊ะประจำวันของคุณ (100 โต๊ะ ต่อการโทร) ปล่อยออกมาภายใต้ MIT — อนุญาตให้ใช้ในเชิงพาณิชย์บน Free.ai
ใช้ผ่าน API
REST API รองรับ OpenAI สร้างกุญแจและเรียกโมเดลนี้ในไม่กี่วินาที
curl -X POST https://api.free.ai/v1/image/generate/ \
-H "Authorization: Bearer sk-free-..." \
-H "Content-Type: application/json" \
-d '{"model":"bge-m3","prompt":"your prompt here"}'
เอกสาร API
เอากุญแจ API มา
คำถามที่ถามบ่อย
BGE-M3 เปลี่ยนข้อความเป็นเวกเตอร์ที่หนาแน่น (รายการของตัวเลขลอย) ที่บันทึกความหมาย ใช้สำหรับค้นหาความหมาย การจัดกลุ่ม การแนะนำ การสร้างแบบเพิ่มประสิทธิภาพการค้นหา (RAG) และงานใด ๆ ที่ "ข้อความนี้คล้ายกับข้อความนั้น" มีความสำคัญ
ค่ามิติทั่วไปคือ 384, 768, 1024 หรือ 1536 ขึ้นอยู่กับรุ่น BGE-M3 จะส่งออกเป็น 1024-dim; OpenAI Ada จะส่งออกเป็น 1536 การตอบรับของ API จะรวมถึงมิติ ดังนั้น ฐานข้อมูลเวกเตอร์ของคุณจะเลือกดัชนีที่ถูกต้อง
โมเดลการฝังแบบทันสมัย (รวมถึงตัวเลือกส่วนใหญ่บน Free.ai) ถูกฝึกให้ใช้ภาษามากกว่า 100 ภาษา การค้นหาภาษาต่างๆ ทำงานได้ — ค้นหาในภาษาอังกฤษ, ตรงกับเอกสารในภาษาสเปน
512 ถึง 8, 192 ตัวอักษรขึ้นอยู่กับรุ่น ข้อมูลที่ยาวกว่าจะถูกตัดออก — เอกสารที่ยาวกว่าจะถูกแยกออกเป็นย่อหน้าก่อนที่จะฝังเข้าไป
BGE-M3 ทำงานบน GPU ของพวกเราเอง และเป็นหนึ่งในเครื่องมือที่ถูกที่สุด - ประมาณ ~100 โต๊กเกอร์ต่อการเรียกใช้ที่ดึงมาจากสระฟรีของคุณทุกวัน $5 = 200K โต๊กเกอร์
ใช่ — POST รายการสตริงไปยัง /v1/embeddings/ และ BGE-M3 จะคืนกลับมาเป็นรายการเวกเตอร์ในลำดับเดียวกัน ขนาดแบตสูงสุด 2,048 ต่อคำร้อง
ปรับค่าเป็นค่าปกติ L2 โดยปริยาย - ความคล้ายคลึงของโคไซน = ผลิตผลของจุด ส่งค่า 'normalize=false' หากต้องการใช้เวกเตอร์ raw สำหรับระยะทางที่แตกต่างกัน
ทุกอย่าง — Pinecone, Weaviate, Qdrant, Chroma, pgvector, FAISS, LanceDB. BGE-M3 จะคืนค่า JSON แบบ float ธรรมดา; DB จะไม่เคยเห็นโมเดล
ใช่ — POST to /v1/embeddings/ with model="BGE-M3". รูปแบบการตอบสนองที่เข้ากันได้กับ OpenAI, ดังนั้นไลบรารีของไคลเอนต์ที่ใช้อยู่จะทำงานโดยไม่เปลี่ยนแปลง /api/ มีอ้างอิงเต็ม
โมเดลที่ใช้ตัวมันเองเก็บข้อความของคุณไว้บน GPU และทิ้งมันไปหลังจากที่โทรกลับมา Premium ผ่านผ่านด้วย DPA เราจะไม่ฝึกการเข้ารหัสของคุณ
ใต้ 100 มิลลิวินาทีสำหรับข้อความสั้นบนโฮสต์ตัวเดียว 100-500 มิลลิวินาทีบนแพ็คเกจพิเศษ การเรียกใช้แบตจะปรับขนาดได้โดยตรง — 1,000 ชิ้นเสร็จใน 2-10 วินาที
ใช่ Free.ai อนุมัติให้ใช้ในเชิงพาณิชย์ สร้างการค้นหาผลิตภัณฑ์ RAG ท่อระบายน้ำ ระบบแนะนำโดยไม่มีค่าใช้จ่ายต่อเวกเตอร์