สรุปข่าว AI ประจำวัน: AI Labs แข่งซื้อ Developer Tools, Cursor Composer 2 เขย่าวงการ, MiniMax M2.7 ท้าชิงตลาด Agent

ยุคใหม่ของ AI Labs: แข่งกันซื้อ Developer Tools สร้างอาณาจักรเครื่องมือนักพัฒนา

เหตุการณ์สำคัญที่สุดของวันนี้คือการที่ OpenAI ประกาศเข้าซื้อกิจการ Astral ทีมพัฒนาเครื่องมือยอดนิยมในโลก Python อย่าง uv (package manager), ruff (linter) และ ty (type checker) โดย Charlie Marsh ผู้ก่อตั้ง Astral ประกาศว่าทีมจะเข้าร่วมกับ Codex team ของ OpenAI ขณะที่ Greg Brockman ยืนยันดีลจากฝั่ง OpenAI

การเข้าซื้อครั้งนี้ถือเป็นการปิดวงจรที่เริ่มต้นตั้งแต่กลางปี 2568 เมื่อ Google DeepMind ซื้อทีม Antigravity เมื่อเดือนกรกฎาคม ตามด้วย Anthropic เข้าซื้อ Bun (JavaScript runtime) เมื่อเดือนธันวาคม และล่าสุด OpenAI กับ Astral ในวันนี้ ภาพรวมชัดเจนว่า AI Labs ทุกรายที่จริงจังกับนักพัฒนาซอฟต์แวร์ต่างเลือกที่จะ "เป็นเจ้าของ" เครื่องมือพัฒนาหลักมากกว่าแค่ให้บริการ API

สำหรับ OpenAI นั้น Astral เข้ามาเสริมทัพโปรเจกต์โอเพนซอร์สระดับแนวหน้าที่มีอยู่แล้วอย่าง OpenClaw, gpt-oss และ Whisper ขณะเดียวกัน Fidji Simo ซีอีโอของ OpenAI ก็ประกาศชัดว่าจะตัด "side quests" อย่างฟีเจอร์ Shopping ออก หลังจากพาร์ตเนอร์อย่าง Walmart รายงาน conversion ที่แย่มาก ราว 1 ใน 3 ของ click-outs เพื่อมุ่งเน้นไปที่ Enterprise (ผ่านโครงการ Frontier Alliances) และ Coding (ผ่าน Astral) พร้อมทั้งรวม ChatGPT กับ Codex เข้าด้วยกันเป็น superapp ตัวเดียว

Cursor เปิดตัว Composer 2: โมเดลเขียนโค้ดระดับ Frontier ในราคาประหยัด

Cursor ปล่อย Composer 2 ซึ่งถูกวางตำแหน่งเป็นโมเดลเขียนโค้ดระดับ frontier ที่ลดต้นทุนอย่างมีนัยสำคัญ จุดเด่นของ Composer 2 คือการใช้เทคนิค continued pretraining ก่อนเข้าสู่กระบวนการ Reinforcement Learning โดยป้อน base model ที่แข็งแกร่งกว่าเดิมเข้าไป ทำให้ได้คุณภาพที่ดีขึ้นอย่างชัดเจน

ด้านราคา Composer 2 ตั้งไว้ที่ $0.50 ต่อล้าน input tokens และ $2.50 ต่อล้าน output tokens พร้อมผลคะแนนที่น่าประทับใจ: 61.3 บน CursorBench, 61.7 บน Terminal-Bench 2.0 และ 73.7 บน SWE-bench Multilingual ทีมงาน Cursor ราว 40 คนทุ่มเทให้กับงาน software engineering โดยเฉพาะ โดยกระบวนการ RL ถูกกระจายไปยัง 3-4 คลัสเตอร์ทั่วโลก

ยังมีการเปิดตัว UI แบบ alpha ในชื่อ Glass ซึ่งหลายคนมองว่าอุตสาหกรรมจะค่อยๆ เคลื่อนไปสู่ UX แบบ agent-native ที่คล้ายกันในอนาคต Michael Truell ผู้ร่วมก่อตั้ง Cursor วางตำแหน่งบริษัทในฐานะ "บริษัทรูปแบบใหม่" ที่ผสมผสานโมเดล API จากภายนอกเข้ากับโมเดลเฉพาะทางที่พัฒนาภายใน

Anthropic ขยาย Claude Code ด้วย Channels: เขียนโค้ดผ่านแอปแชท

Anthropic เปิดตัวฟีเจอร์ Claude Code Channels ในรูปแบบ research preview ที่ให้นักพัฒนาสามารถโต้ตอบกับ Claude Code ผ่านแอปส่งข้อความต่างๆ ได้ ทิศทางผลิตภัณฑ์นี้สะท้อนให้เห็นว่าทั้ง OpenAI และ Anthropic กำลังผลักดันตัวเองออกจากกรอบ "model API" ไปสู่ persistent developer workflows และการเข้าถึง agent แบบ ambient ที่อยู่รอบตัวนักพัฒนาตลอดเวลา

แนวคิดนี้สอดคล้องกับการที่ OpenAI ซื้อ Astral เพื่อครอบครอง developer tooling ขณะที่ Anthropic เลือกเส้นทางการขยาย surface area ของ Claude Code ให้เข้าถึงได้จากทุกช่องทาง ทั้งสองบริษัทมีเป้าหมายเดียวกันคือการสร้าง persistent developer experience ที่ลึกกว่าแค่หน้าต่างแชท

LangChain เปิดตัว LangSmith Fleet: ระบบจัดการกองทัพ Agent สำหรับองค์กร

จุดศูนย์ถ่วงของวงการ AI กำลังเปลี่ยนจาก agent เดี่ยวไปสู่การบริหารจัดการ agent แบบเป็นกองทัพ LangChain เปิดตัว LangSmith Fleet ซึ่งเป็น enterprise workspace สำหรับสร้างและจัดการกลุ่ม agent ที่มาพร้อม memory, tools, permissions, channel integrations และระบบ audit trail

ธีมหลักของการเปิดตัวครั้งนี้คือ agent identity, credential management, sharing controls, การเชื่อมต่อกับ Slack และความสามารถในการตรวจสอบย้อนกลับ สิ่งนี้สะท้อนวาทกรรมที่กว้างขึ้นในวงการว่าคำว่า "agent" เพียงอย่างเดียวไม่ใช่ abstraction ที่มีประโยชน์อีกต่อไป สิ่งที่ถูกต้องกว่าคือ AI Operating System ที่จัดสรรงาน ทรัพยากร และ execution contexts

ระบบ Multi-Agent ก้าวหน้า: Cognition เปิดทีม Devins ทำงานคู่ขนาน

Cognition เปิดตัวฟีเจอร์ Teams of Devins ที่ Devin สามารถแตกงานออกเป็นส่วนย่อยแล้วมอบหมายให้ Devin ตัวอื่นทำงานคู่ขนานใน VM แยกกัน ซึ่งถือเป็นก้าวสำคัญของแนวคิด multi-agent ที่ agent หนึ่งทำหน้าที่เป็นผู้จัดการ แบ่งงานให้ agent ลูกน้องทำพร้อมกัน

ในทิศทางเดียวกัน AgentUI จาก Leandro von Werra ถูกปล่อยออกมาเป็น multi-agent interface ที่ประสานงานระหว่าง agent เฉพาะทางด้าน code, search และ multimodal ขณะที่นักพัฒนารายอื่นโต้แย้งว่างาน agentic ระยะยาวต้องการ dedicated runtime ที่มี checkpointing, rollback, provider-specific harness switching และ execution repair

ความปลอดภัยของ Agent กลายเป็นเงื่อนไขระดับ First-Class

หัวข้อที่ปรากฏซ้ำในทุกการเปิดตัวผลิตภัณฑ์คือเรื่อง security และ permissions ของ agent systems ปัญหาคอขวดของการนำ agent ไปใช้งานจริงในองค์กรไม่ใช่เรื่อง "โมเดลทำได้หรือเปล่า" แต่เป็นเรื่อง permissions, blast radius control และ observability

แนวคิดที่กำลังเป็นฉันทามติคือ identity-based authorization สำหรับ AI security ขณะที่ Baseten อธิบายว่า NemoClaw ของ NVIDIA คือคำตอบสำหรับข้อกังวลด้านความปลอดภัยแบบ OpenClaw-style ด้วยหลักการ zero permissions by default, sandboxed subagents และ infra-enforced private inference แนวทางรวมคือ agent stacks กำลังวิวัฒนาการไปสู่สิ่งที่ใกล้เคียงกับ enterprise software infrastructure มากกว่า chatbot wrappers

MiniMax M2.7: โมเดล Agent ที่เน้นใช้งานจริงมากกว่าไล่ Benchmark

MiniMax เปิดตัว M2.7 ซึ่งถูกวางตำแหน่งเป็นโมเดลที่เน้นการใช้งาน agent จริงมากกว่าการเป็น frontier model ยักษ์ใหญ่ โมเดลนี้มีจุดเด่นด้าน autonomous iteration ที่สามารถปรับปรุงประสิทธิภาพของตัวเองผ่านวงจรซ้ำของการวิเคราะห์ วางแผน แก้ไข และประเมินผล ทำให้ได้ประสิทธิภาพดีขึ้น 30% บนชุดประเมินผลภายใน

การประเมินจากฝ่ายที่สามโดย ZhihuFrontier ระบุว่า M2.7 รักษาระดับประสิทธิภาพโดยรวมใกล้เคียงกับรุ่นก่อน แต่อัปเกรดด้าน instruction following, การจัดการ context hallucination และพฤติกรรมในการทำงานกับโค้ดขนาดใหญ่และบทสนทนาหลายรอบ แม้จะมี hard reasoning ที่แย่ลงเล็กน้อยและใช้ token มากขึ้น

MiniMax ยังเตรียมจัด technical livestream ร่วมกับ OpenClaw เกี่ยวกับ self-evolution และ infrastructure สำหรับ 1 แสนคลัสเตอร์ที่ทำงานอยู่ ผู้ใช้หลายรายรายงานว่า M2.7 มีพฤติกรรม agent ระยะยาวที่ดีกว่า OpenClaw ในบาง workflow

Qwen 3.5 Max Preview ขยับขึ้นบนลีดเดอร์บอร์ด

Qwen 3.5 Max Preview จาก Alibaba ทำผลงานโดดเด่นบน Arena leaderboard โดยขึ้นไปอยู่ อันดับ 3 ในหมวด Math, Top 10 ใน Arena Expert และ Top 15 โดยรวม พร้อมการปรับปรุงอย่างมากเมื่อเทียบกับ Max รุ่นก่อนหน้าในด้าน text, writing และ math ทีม Alibaba Qwen ยืนยันว่ายังมี optimization เพิ่มเติมอีกที่กำลังจะมา

ผลลัพธ์นี้แสดงให้เห็นว่า Alibaba ยังคงเดินหน้าพัฒนาโมเดลอย่างจริงจัง แม้จะมีข่าวเรื่องการเปลี่ยนแปลงกลยุทธ์ด้านโอเพนซอร์สก็ตาม Qwen 3.5 Max กำลังสร้างแรงกดดันให้กับคู่แข่งในหลายหมวดหมู่

Late Interaction Retrieval ทำลายสถิติ: โมเดล 150M พารามิเตอร์เอาชนะระบบใหญ่กว่า 54 เท่า

หนึ่งในผลลัพธ์ทางเทคนิคที่น่าสนใจที่สุดของวันคือเรื่อง late interaction retrieval โดย Antoine Chaffin อ้างว่า BrowseComp-Plus ถูก solve ได้เกือบ 90% แล้วด้วย Reason-ModernColBERT ซึ่งเป็นโมเดลขนาดเพียง 150 ล้านพารามิเตอร์ แต่สามารถเอาชนะระบบที่ใหญ่กว่าถึง 54 เท่า

หลายคนในวงการโต้แย้งว่านี่ไม่ใช่ผลลัพธ์ครั้งเดียว แต่เป็นสัญญาณที่ชัดเจนอีกครั้งว่า multi-vector / late-interaction retrieval เอาชนะวิธี dense single-vector แบบดั้งเดิมอย่างเป็นระบบในงาน search ที่ต้องใช้ reasoning อย่างเข้มข้น นี่อาจเป็นจุดเปลี่ยนสำคัญสำหรับสถาปัตยกรรม retrieval ในอนาคต

เครื่องมือ OCR และ Document Parsing รุ่นใหม่ทยอยเปิดตัว

มีเครื่องมือ OCR และ document parsing ใหม่หลายตัวถูกปล่อยออกมาพร้อมกัน ครอบคลุมทั้งแนวทางที่ใช้โมเดลและไม่ใช้โมเดล

Chandra OCR 2 — OCR ตัวใหม่ที่อ้างว่าเป็น SOTA ด้วยคะแนน 85.9% บน olmOCR bench, รองรับกว่า 90 ภาษา, ขนาดโมเดล 4 พันล้านพารามิเตอร์ พร้อมรองรับลายมือเขียน สมการคณิตศาสตร์ ฟอร์ม ตาราง และการ extract คำอธิบายภาพ
GLM-OCR 0.9B — โมเดล OCR ขนาดเล็กเพียง 900 ล้านพารามิเตอร์ ที่รายงานว่าเอาชนะ Gemini ในเกณฑ์วัด OCR
LlamaIndex LiteParse — parser แบบ local, layout-aware สำหรับ PDF, เอกสาร Office และรูปภาพ ไม่ต้องพึ่ง Python dependencies, มี OCR ในตัว, รักษา spatial layout และออกแบบมาโดยเฉพาะสำหรับ agent pipelines

การแบ่งแยกใน stack นี้ชัดเจน: OCR/VLM ระดับสูงสำหรับหน้าเอกสารที่ยาก และ parser แบบ lightweight สำหรับกรณีทั่วไป

Google AI Studio อัปเกรด Vibe Coding ครั้งใหญ่

Google ปล่อยอัปเกรดครั้งสำคัญให้กับ AI Studio ด้วยประสบการณ์ "vibe coding" ที่ปรับปรุงใหม่ มาพร้อม Antigravity coding agent ตัวใหม่และการผสานรวมกับ Firebase ทำให้สามารถสร้าง multiplayer apps, backend services, ระบบ auth และ persistent builds ได้

การอัปเดตนี้ขยายขีดความสามารถของ AI Studio จาก prototype generator ไปสู่เครื่องมือสร้างแอปแบบ full-stack ที่จริงจังมากขึ้น โดยเฉพาะความสามารถในการสร้าง backend และ auth ซึ่งเป็นส่วนที่เครื่องมือ AI coding ส่วนใหญ่ยังทำได้ไม่ดี

Microsoft เปิดตัว MAI-Image-2 ขึ้น Top 5 บน Image Arena

Microsoft เปิดตัว MAI-Image-2 ซึ่งเข้ามาอยู่ที่ อันดับ 5 บน Image Arena ทันทีที่เปิดตัว พร้อมการปรับปรุงอย่างมากในหลายหมวดหมู่เมื่อเทียบกับ MAI-Image-1 โดยเฉพาะด้าน text rendering และ portraits

ในด้าน vision/video understanding ก็มีความก้าวหน้าเช่นกัน MolmoPoint สาธิตการ tracking วัตถุหลายชิ้นแบบ point-based โดยตรงจาก VLM ซึ่งแตกต่างจากวิธี segmentation-first แบบ SAM และมีข้อสังเกตเชิงระบบที่สำคัญว่า ลูปการสร้างเนื้อหาที่ใช้เวลาต่ำกว่า 100 มิลลิวินาที จาก prompt ถึง output อาจสำคัญกว่าคุณภาพโมเดลดิบสำหรับ workflow การผลิตจริง

Continued Pretraining และ RL กลับมาเป็นอาวุธหลักของการแข่งขัน

เทคนิค continued pretraining ก่อนเข้าสู่ RL กำลังกลับมาเป็นเครื่องมือแข่งขันที่สำคัญ ทีม Composer 2 ระบุชัดว่าผลลัพธ์ที่ดีขึ้นมาจากการทำ continued pretraining ก่อน RL และนักวิจัยหลายรายคาดว่ารูปแบบนี้จะแพร่หลายมากขึ้นสำหรับโมเดลเฉพาะทาง

ในแง่ที่เกี่ยวข้อง Pratyush Maini นำเสนอแนวคิด "Finetuner's Fallacy" ซึ่งพบว่าข้อมูลฝึกช่วงแรกทิ้งรอยประทับที่คงทนบน representations ของโมเดล ซึ่ง finetuning ในภายหลังแทบจะแก้ไขไม่ได้ ด้านโครงสร้างพื้นฐาน SkyPilot แสดงให้เห็นการ scale autoresearch แบบ Karpathy บน K8s GPU cluster โดยรันการทดลอง 910 ครั้งใน 8 ชั่วโมง แทนที่จะต้องรันแบบลำดับ 96 ชั่วโมง

สำรวจสถาปัตยกรรมใหม่: M²RNN และ Nemotron 3

การสำรวจสถาปัตยกรรมที่อยู่นอกกรอบ Transformer มาตรฐานยังคงคึกคัก M²RNN ถูกปล่อยออกมาเป็นการทบทวน non-linear recurrence ด้วย matrix-valued states สำหรับ language modeling ที่ขยายขนาดได้ โดย Tri Dao สังเกตว่า nonlinear RNN layers ดูเหมือนจะเพิ่มบางสิ่งที่แตกต่างจาก attention และ linear SSMs

NVIDIA ดึงดูดความสนใจด้วย Nemotron 3 stack ที่ผสมผสาน Transformer + Mamba 2, MoE/LatentMoE, multi-token prediction และ NVFP4 precision เพื่อลดต้นทุน inference และรองรับ long-context agent workloads ด้าน infrastructure TurboAPI รายงานว่าทำได้ 1.5 แสน requests ต่อวินาที อ้างว่าเร็วกว่า FastAPI ถึง 22 เท่า ขณะที่ Baseten เปิดตัว Delivery Network เพื่อลด cold starts ของโมเดลขนาดใหญ่ลง 2-3 เท่า

Harmonic เปิดตัว Aristotle: Agent นักคณิตศาสตร์ตัวแรกของโลกที่ใช้ได้ฟรี

Harmonic ปล่อย Aristotle Agent ซึ่งอ้างว่าเป็น autonomous mathematician agent ตัวแรกของโลก และเปิดให้ใช้งานฟรี สิ่งที่ทำให้ Aristotle แตกต่างจากเครื่องมือคณิตศาสตร์ AI อื่นคือความสามารถในการ formal verification ของ proofs

แทนที่จะสร้าง proof ด้วยภาษาธรรมชาติแบบ LLM ทั่วไปที่อาจผิดพลาดได้ Aristotle ใช้ Lean proofs ที่รับประกันความถูกต้องโดยโครงสร้าง ไม่ต้องพึ่งการตรวจสอบจากมนุษย์ ต่างจาก AlphaProof ของ DeepMind ที่ยังเป็นระบบปิด Aristotle เปิดให้ทุกคนใช้งาน โดยเครื่องมือนี้ถูกเชื่อมโยงกับความพยายามล่าสุดในการแก้ปัญหา Erdős

Google Gemini อัปเดตฟีเจอร์ Personal Intelligence สำหรับผู้ใช้ทั่วไป

แอป Google Gemini เปิดตัวเวอร์ชันใหม่ 1.2026.1062300 ที่นำเสนอฟีเจอร์ "Personal Intelligence" สำหรับผู้ใช้ฟรีในสหรัฐฯ ฟีเจอร์นี้เพิ่มความสามารถในการเชื่อมต่อข้ามแอป Google เพื่อให้คำตอบที่ปรับแต่งเฉพาะบุคคล

ตัวอย่างการใช้งานรวมถึงการสร้างนัดหมายปฏิทินจากเนื้อหาอีเมล การค้นหาธุรกรรมทางการเงินเฉพาะรายการ และการดึงข้อมูลจาก Google Drive แต่ผู้ใช้หลายรายแสดงความกังวลเรื่อง privacy โดยเฉพาะเกี่ยวกับโอกาสที่รัฐบาลจะเข้าถึงข้อมูลส่วนบุคคลผ่านฟีเจอร์นี้

Qwen Image 2.0 ปิดซอร์ส: Alibaba เปลี่ยนกลยุทธ์จากโอเพนซอร์ส

Alibaba ประกาศเปิดตัว Qwen-Image-2.0 โมเดลสร้างภาพรุ่นใหม่ที่มาพร้อมฟีเจอร์ professional typography rendering, รองรับ prompt ยาวถึง 1,000 tokens และความละเอียดระดับ native 2K แต่สิ่งที่สร้างความผิดหวังคือการเปลี่ยนสถานะจาก "Open-Source" เป็น "Release" ซึ่งหมายความว่าจะ ไม่เปิดซอร์สโค้ด

การเปลี่ยนแปลงนี้สอดคล้องกับทิศทางภายในของ Alibaba ที่ CEO แสดงความไม่พอใจต่อรายได้ที่น้อยจากโมเดลโอเพนซอร์ส นำไปสู่การลาออกของวิศวกรคนสำคัญหลายราย ผู้ใช้หลายคนตั้งคำถามว่า Qwen Image 2.0 แบบปิดซอร์สจะแข่งขันกับ Midjourney หรือโมเดลโอเพนซอร์สอื่นได้อย่างไร เมื่อข้อได้เปรียบหลักของ Qwen มาจากการเป็นระบบเปิดมาโดยตลอด

นักวิจัย ML ใช้ ChatGPT และ AlphaFold สร้างวัคซีนรักษามะเร็งสุนัข สำเร็จ

เรื่องราวที่สร้างแรงกระเพื่อมอย่างมากคือกรณีของ Paul Conyngham นักวิจัย machine learning ชาวออสเตรเลีย ที่ใช้ ChatGPT และ AlphaFold ในการพัฒนาวัคซีน mRNA เฉพาะบุคคลสำหรับสุนัขของเขาที่ชื่อ Rosie ซึ่งป่วยเป็นเนื้องอก mast cell ที่คุกคามชีวิต

Conyngham ทำการ sequencing DNA ของเนื้องอกด้วยงบประมาณราว 2,000 ดอลลาร์ จากนั้นใช้ ChatGPT ระบุ neoantigens และ AlphaFold ทำนายโครงสร้างโปรตีน ร่วมมือกับผู้เชี่ยวชาญจาก UNSW และนักเคมีสำหรับการสังเคราะห์ mRNA ผลลัพธ์คือ เนื้องอกหดตัวลง 75% ภายในสองเดือน ทั้งที่เขาไม่มีพื้นฐานด้านชีววิทยาหรือการแพทย์โดยตรง กรณีนี้จุดประเด็นถกเถียงเรื่องการ democratize การแพทย์เฉพาะบุคคลและบทบาทของกฎระเบียบ

สำนักพิมพ์พจนานุกรมฟ้อง OpenAI ข้อหาละเมิดลิขสิทธิ์ขนาดใหญ่

Britannica และ Merriam-Webster ยื่นฟ้อง OpenAI ที่ศาลแขวง Southern District of New York โดยกล่าวหาว่า ChatGPT ใช้เนื้อหาที่ผ่านการวิจัยของพวกเขาโดยไม่ได้รับอนุญาต คดีนี้อ้างว่า ChatGPT ที่สามารถให้คำตอบตรงจากเนื้อหาที่ดูดซับไป กำลังทำให้สำนักพิมพ์สูญเสีย web traffic และรายได้จากโฆษณา ซึ่งเป็นหัวใจสำคัญของการอยู่รอด

คดีนี้เพิ่มความร้อนแรงให้กับการอภิปรายเรื่องการใช้เนื้อหาออนไลน์โดย AI และเส้นแบ่งระหว่างความรู้สาธารณะกับข้อมูลที่มีเจ้าของ

CEO ใช้ ChatGPT แทนทนายเพื่อยกเลิกสัญญา 8.75 พันล้านบาท แพ้คดีอย่างราบคาบ

ในกรณีที่เป็นทั้งบทเรียนและเรื่องตลกร้าย Changhan Kim ซีอีโอของ Krafton พยายามยกเลิกสัญญามูลค่า 250 ล้านดอลลาร์ (ราว 8.75 พันล้านบาท) กับ Unknown Worlds Entertainment โดยปรึกษา ChatGPT แทนทีมกฎหมายของตัวเอง ศาลตัดสินให้แพ้อย่างชัดเจน

กรณีนี้ตอกย้ำว่า AI สามารถช่วยเตรียมงานกฎหมายได้ เช่น stress-testing ข้อโต้แย้งและสรุป precedents แต่ขาดความรับผิดชอบทางกฎหมายและความเข้าใจบริบทเฉพาะที่จำเป็นสำหรับการดำเนินคดีโดยตรง AI ทั่วไปอาจไม่เข้าใจกฎหมายเฉพาะทางที่มีผลต่อเงื่อนไขสัญญา ต่างจาก legal LLM เฉพาะทางที่ให้คำตอบที่มีความละเอียดมากกว่า

เลือกโมเดลอย่างไรบนเครื่อง H200 คู่: คำแนะนำจากชุมชน LocalLlama

โพสต์ยอดนิยมบน Reddit มาจากผู้ใช้ที่ได้รับเครื่องเซิร์ฟเวอร์ที่ติดตั้ง 2x NVIDIA H200 รวม VRAM 282 GB สำหรับงานเขียนโค้ด ชุมชนแนะนำให้ใช้ Qwen 3.5 397B กับ vLLM ที่ quantization Q4 เพื่อรองรับ context window ขนาดใหญ่

คำแนะนำสำคัญคือ หลีกเลี่ยง ollama หรือ llama.cpp สำหรับระบบที่ต้องการ batched inference เนื่องจากมีปัญหาความเสถียรเมื่อรับ requests พร้อมกัน ควรใช้ vLLM หรือ sglang แทนที่มีความเสถียรดีกว่าสำหรับสภาพแวดล้อมที่มีผู้ใช้หลายคน พร้อมเตือนว่าอย่าเลือกโมเดลที่ใช้ VRAM จนเต็มเพราะจะไม่เหลือพื้นที่สำหรับ context window

เครื่องมือโอเพนซอร์สเด่นประจำวัน

นอกจากข่าวใหญ่แล้ว ยังมีเครื่องมือโอเพนซอร์สที่น่าสนใจหลายตัวที่ถูกเปิดตัว:

3D Model Generator — แอปเดสก์ท็อปโอเพนซอร์สสำหรับสร้าง 3D mesh จากรูปภาพ รองรับโมเดล Hunyuan3D 2 Mini พร้อมระบบ extension แบบ modular ชุมชนเสนอให้เพิ่ม multi-image input, text-based editing, checkpoint saving และรองรับ Trellis 2
Prompt-Master — Claude skill ที่ช่วยสร้าง prompt ที่ถูกต้องสำหรับเครื่องมือ AI แต่ละตัว มีกว่า 600 stars บน GitHub จุดเด่นคือ tool-specific routing ที่เข้าใจว่า Midjourney, Claude Code และ ChatGPT ต้องการโครงสร้าง prompt ที่แตกต่างกัน
Synesthesia — แอปโอเพนซอร์สสำหรับสร้าง AI music video อัตโนมัติ ผสาน LLM กับ LTX Video เพื่อสร้าง shot list จาก vocals, band performance และ lyrics สามารถ render วิดีโอ 3 นาทีได้ภายในไม่ถึงชั่วโมงบน GPU 5090
Netryx — เครื่องมือโอเพนซอร์สสำหรับหาพิกัดภูมิศาสตร์จากรูปถ่ายระดับถนน พัฒนาโดยนักศึกษาโดยใช้ visual clues และ ML pipeline เฉพาะทาง