อ้างอิงทวีตอย่างเป็นทางการของ Ollama วันที่ 27 เมษายน โมเดลเรือธง DeepSeek V4 Pro ที่บริษัท AI ของจีน DeepSeek เปิดตัวเมื่อวันที่ 24 เมษายน ได้เข้าสู่รายการอย่างเป็นทางการของ Ollama ในโหมดคลาวด์อย่างเป็นทางการ ผู้ใช้เพียงคำสั่งบรรทัดเดียวก็สามารถเรียกใช้โมเดลดังกล่าวผ่านเครื่องมือเอเจนต์ยอดนิยมอย่าง Claude Code, Hermes Agent, OpenClaw, Codex, OpenCode และอื่น ๆ นี่คือการซิงก์ที่เร็วที่สุดครั้งหนึ่งของ Ollama ในการรวมโมเดลขนาดใหญ่ยอดนิยม—จากการเผยแพร่น้ำหนักของ DeepSeek ไปจนถึงการเปิดใช้งาน Ollama Cloud ใช้เวลาเพียงสามวัน
DeepSeek V4 Pro: 1.6T พารามิเตอร์, 1M context
V4 Pro ใช้สถาปัตยกรรม Mixture-of-Experts ขนาดพารามิเตอร์รวม 1.6 ล้านล้าน (49 พันล้านพารามิเตอร์ที่ใช้งานจริง) โดยมีหน้าต่างบริบท 1M token จากเกณฑ์มาตรฐานของ Artificial Analysis บุคคลที่สาม ระบุว่า V4 Pro ทำผลงานในเกณฑ์การเขียนโปรแกรมเช่น SWE-bench (80.6%), LiveCodeBench (93.5%), Terminal-Bench (67.9%) และอื่น ๆ ได้เทียบเคียงกับโมเดลโอเพนซอร์สรุ่นแนวหน้า Kimi K2.6 โดยรวมแล้ว Intelligence Index ตามหลัง Kimi K2.6 อยู่หนึ่งก้าว
ในเวลาเดียวกัน DeepSeek ก็ปล่อยโมเดล V4 Flash ที่มีน้ำหนักเบากว่า ทั้งสองรุ่นได้รับการเปิดซอร์สภายใต้ลิขสิทธิ์ MIT และสามารถดาวน์โหลดน้ำหนักได้จาก Hugging Face
Ollama Cloud ทำการอนุมานบนคลาวด์ ไม่ดาวน์โหลดน้ำหนักลงเครื่อง
deepseek-v4-pro:cloud คือโมเดลของ Ollama Cloud—การอนุมานทำบนคลาวด์ของ Ollama และจะไม่ดาวน์โหลดน้ำหนักไปยังเครื่องของผู้ใช้ นี่คือวิธีมาตรฐานที่ Ollama ใช้จัดการกับโมเดลขนาดใหญ่มาก ก่อนหน้านี้ Kimi K2.6 ก็ใช้วิธีการจัดเก็บแบบเดียวกันเช่นกัน สำหรับผู้ใช้ ข้อได้เปรียบสูงสุดคือไม่จำเป็นต้องมี GPU จำนวนหลายสิบใบเพื่อเรียกใช้โมเดลระดับเรือธง ข้อเสียคือยังต้องเชื่อมต่ออินเทอร์เน็ต และต้องอาศัยการจัดสรรทรัพยากรการประมวลผลตามภาระงานของ Ollama Cloud
หากต้องการรันแบบโลคอลทั้งหมด จำเป็นต้องได้รับน้ำหนัก deepseek-ai/DeepSeek-V4-Pro จาก Hugging Face พร้อมกับเวอร์ชันการควอนไทซ์ INT4 (เช่น GGUF ที่ Unsloth เผยแพร่) และการกำหนดค่าด้วย GPU หลายการ์ดจึงจะมีความเป็นไปได้ โดยฮาร์ดแวร์สำหรับผู้บริโภคทั่วไปไม่เพียงพอที่จะรองรับโมเดลเต็มรูปแบบ
เชื่อม Claude Code, Hermes Agent, OpenClaw ด้วยคำสั่งบรรทัดเดียว
Ollama ซิงก์และออกคำสั่ง launcher สำหรับการรวมเข้ากับเครื่องมือเอเจนต์ยอดนิยม:
ความหมายคือ: ในอดีต หากนักพัฒนาต้องการเปลี่ยนไปใช้ DeepSeek ใน Claude Code จะต้องเชื่อมต่อผ่าน OpenAI ที่รองรับ API เอง จัดการ endpoint และการรับรองความถูกต้องเอง ตอนนี้ทำได้ด้วยคำสั่งบรรทัดเดียวผ่าน Ollama สำหรับผู้ใช้ที่ใช้งาน Claude Code อย่างหนัก นี่มอบเส้นทางที่รวดเร็วในการเปลี่ยนโมเดลจาก Anthropic ไปเป็น DeepSeek (หรือเปลี่ยน Kimi แบบเดียวกัน) เพื่อลดต้นทุน
เสียงตอบรับจากผู้ทดลองระยะแรก: ความเร็วจาก 30 tok/s ไปถึงจุดพุ่ง 1.1 tok/s
จากการพูดคุยในชุมชนใต้ทวีต แสดงให้เห็นว่าความเร็วของการอนุมานบนคลาวด์ขึ้นอยู่กับภาระงานของคลาวด์ของ Ollama หลายรายงานจากผู้ทดลองระยะแรกว่าในช่วงพีคความเร็วช้าลง จาก 30 tokens/s แบบปกติ ลดลงสู่ระดับ 1.1 tokens/s ผู้ใช้ @benvargas ติดภาพหน้าจอเพื่อบ่นโดยตรงว่า “Need More Compute” ในอีกคำตอบหนึ่ง Ollama ยอมรับอย่างตรงไปตรงมาว่า ทีมทางการ “ก็ยังเล่นโมเดลนี้อยู่” ซึ่งหมายถึงว่าปริมาณทราฟฟิกยังอยู่ในช่วงสำรวจ และยังไม่ได้วางแผนขีดความสามารถอย่างครบถ้วน
สำหรับนักพัฒนาที่มุ่งเน้นความเร็วแบบคงที่ในไลน์การผลิต คำแนะนำในตอนนี้คือ: ใช้โหมดคลาวด์เป็นการทดสอบต้นแบบและประเมินต้นทุน ส่วนผลิตภัณฑ์จริงยังต้องสร้างระบบอนุมานบน GPU เอง หรือเลือกใช้ API เชิงพาณิชย์แล้ว แต่ Ollama ได้อัปเดตบทสอนแบบเต็ม พร้อมเพิ่มหมวดของ V4 Pro และคำอธิบายเกี่ยวกับทางเลือกระหว่างคลาวด์/โลคอล
บทความนี้ DeepSeek V4 Pro บน Ollama Cloud: Claude Code เชื่อมด้วยปุ่มเดียว ถูกเผยแพร่ครั้งแรกใน 鏈新聞 ABMedia。