สรุปข่าว AI ประจำสัปดาห์: Dreamer ถูก Meta ดึงตัว, Claude ควบคุมเดสก์ท็อป, จีนปล่อยโมเดลถล่มทลาย
Dreamer ถูก Meta Superintelligence Labs ดึงตัวแบบ Execuhire ปิดดีลใน 10 วัน
ข่าวใหญ่ที่สุดในวงการ AI agent สัปดาห์นี้คือการที่ Meta Superintelligence Labs (MSL) ซึ่งนำโดย Nat Friedman และ Alex ได้ทำดีลแบบ "execuhire" กับ Dreamer สำเร็จภายในเวลาเพียง 10 วัน โดยเป็นการซื้อสิทธิ์ใช้งานเทคโนโลยีพร้อมดึงทีมงานเข้ามาทั้งหมด ถือเป็นรูปแบบการเข้าซื้อกิจการที่ Meta ใช้ได้ผลดีมาก่อนหน้านี้แล้ว
Dreamer เป็นที่รู้จักจากผลิตภัณฑ์ Sidekick ซึ่งวางตำแหน่งเป็น personal intelligent agent-of-agents หรือตัวแทน AI ที่สามารถควบคุมและประสานงาน agent ตัวอื่นได้อีกทอดหนึ่ง จุดเด่นของ Dreamer อยู่ที่แนวคิดเชิง "ระบบปฏิบัติการ" และการสร้าง ecosystem รอบตัว agent มากกว่าจะเป็นแค่ตัว agent เดี่ยว
การเข้าซื้อครั้งนี้มาต่อจากดีล Manus มูลค่า 2 พันล้านดอลลาร์ ที่ Meta ปิดได้ในเดือนธันวาคม 2568 ซึ่งใช้เวลาเพียง 10 วันเช่นกัน เมื่อรวมทีม Dreamer และ Manus เข้าด้วยกันแล้ว MSL กลายเป็นหนึ่งในห้องปฏิบัติการด้าน consumer agent ที่ทรงพลังที่สุดในอุตสาหกรรม โดย Manus เน้นไปที่ตัว agent โดยตรง ขณะที่ Dreamer เสริมในมิติของ OS layer และระบบนิเวศรอบข้าง การผนึกกำลังนี้ทำให้ Meta มีทั้งชิ้นส่วนระดับ agent และระดับ platform ครบถ้วน
Claude Computer Use — เมื่อ AI ควบคุมเดสก์ท็อปได้จริง
Anthropic เปิดตัว Claude computer use ซึ่งหลายฝ่ายมองว่าเป็นการเปิดตัวผลิตภัณฑ์ที่ส่งผลกระทบมากที่สุดในรอบหลายสัปดาห์ ฟีเจอร์นี้ให้ Claude สามารถควบคุมเมาส์ คีย์บอร์ด และหน้าจอบน macOS ได้โดยตรง ใช้งานผ่าน Claude Cowork และ Claude Code ในรูปแบบ research preview
ความสำคัญอยู่ตรงที่ agent ไม่จำเป็นต้องพึ่งพา API หรือ browser sandbox อีกต่อไป แต่สามารถเปิดและใช้งานแอปพลิเคชันใดก็ได้บนเครื่อง เหมือนผู้ใช้งานจริงนั่งอยู่หน้าจอ นี่คือการข้ามขีดจำกัดสำคัญที่ทำให้ agent สามารถทำงานกับซอฟต์แวร์ที่ไม่มี API ได้ ไม่ว่าจะเป็นโปรแกรมตัดต่อวิดีโอ แอปบัญชี หรือซอฟต์แวร์เฉพาะทาง
อย่างไรก็ตาม ในทางปฏิบัติผู้ใช้งานจริงรายงานว่ายังมีปัญหาเรื่องความเสถียร โดยเฉพาะเมื่อ agent ต้องจัดการกับ UI ที่ซับซ้อนหรือเปลี่ยนแปลงบ่อย ซึ่งเป็นส่วนหนึ่งของปัญหาใหญ่กว่าที่กำลังเกิดขึ้นทั่วทั้งวงการ agent
Agent Stack กำลังบรรจบกัน — จาก Hermes ถึง Command Center
สัปดาห์นี้เห็นสัญญาณชัดเจนว่า agent stack ต่าง ๆ กำลังเคลื่อนเข้าหากันในทิศทางเดียว คือ long-running, parallel, tool-rich workflows
- Hermes Agent มีแรงส่งเพิ่มขึ้นอย่างต่อเนื่อง พร้อมกับการ curate ecosystem ผ่านโปรเจกต์ awesome-hermes-agent ที่รวบรวมเครื่องมือและทรัพยากรที่เกี่ยวข้อง
- T3 Code เพิ่มความสามารถ integrated browser และ terminal เข้ามาในตัว โดย Theo ประกาศจะ open-source โปรเจกต์นี้
- Command Center เน้นเรื่อง orchestration สำหรับการรัน agent หลายตัวพร้อมกันแบบ parallel execution
- Parchi นำเสนอ BYOK (Bring Your Own Key) workflows สำหรับงานอัตโนมัติที่ต้องรันเป็นเวลานาน
แนวโน้มร่วมที่เห็นได้ชัดคือทุกเครื่องมือกำลังมุ่งไปที่ agent ที่ทำงานได้นาน เรียกเครื่องมือได้หลากหลาย และรันหลายงานพร้อมกัน ไม่ใช่แค่ chatbot ที่ตอบทีละคำถามอีกต่อไป
ความจริงในสนามรบ — Agent ที่ "กระตือรือร้นเกินไป" กลายเป็นคอขวด
ขณะที่บริษัทใหญ่แข่งกันเปิดตัว agent ใหม่ นักพัฒนาที่ใช้งานจริงกลับบ่นว่าโมเดลรุ่นใหม่มีปัญหาเรื่อง "ความกระตือรือร้นเกินเหตุ" โมเดลมักพยายามทำทุกอย่างเองแม้ในสถานการณ์ที่ไม่ควรทำ และมีพฤติกรรม over-agentic ที่สร้างปัญหามากกว่าแก้ปัญหา
ตัวอย่างที่ชัดเจนคือ GPT-5.2 Pro ที่มีการมอบหมายงานให้ subagent ซึ่งเป็นโมเดลที่อ่อนกว่า ผลลัพธ์คือคุณภาพงานตกลงเพราะ subagent ไม่มีความสามารถเพียงพอ ด้าน Claude browser และ computer use ก็มีรายงานเรื่องความเปราะบางในการใช้งานจริง
ปัญหาที่ลึกกว่าคือสิ่งที่ถูกเรียกว่า "slop theater" — การทำ parallelization แบบผิวเผินที่ดูเหมือนว่า agent ทำงานหลายอย่างพร้อมกัน แต่จริง ๆ แล้วไม่ได้เพิ่ม throughput จริง เป็นเพียงการแสดงว่ากำลังทำงาน ผู้เชี่ยวชาญในวงการชี้ว่าผลิตภัณฑ์ที่จะชนะในตลาดจริง ๆ คือตัวที่สามารถปิด feedback loop ได้ครบ ตั้งแต่ traces, evals, incidents ไปจนถึง production feedback ไม่ใช่แค่ทำให้ agent ดูฉลาดในเดโม
Hyperagents (DGM-H) — Agent ที่ปรับปรุงตัวเองได้ทั้งวิธีการ
Meta เผยแพร่งานวิจัยเรื่อง DGM-H (Darwin Gödel Machine - Hyperagents) ซึ่งเป็นการต่อยอดแนวคิด Darwin Gödel Machine ให้ก้าวหน้าขึ้นอีกขั้น จุดเปลี่ยนสำคัญคือ agent เหล่านี้ไม่ได้แค่ปรับปรุงพฤติกรรมในการทำงาน (task behavior) แต่สามารถปรับปรุง "กระบวนการปรับปรุงตัวเอง" ได้ด้วย พูดง่าย ๆ คือ agent เรียนรู้วิธีเรียนรู้ที่ดีขึ้น
ผลการทดลองแสดงให้เห็นว่าการปรับปรุงระดับ meta นี้สามารถ transfer ข้ามโดเมนได้ ไม่ว่าจะเป็นงาน coding, การ review paper วิชาการ, robotics หรือแม้แต่การตรวจข้อสอบ Olympiad สิ่งนี้แก้ไขข้อจำกัดสำคัญของระบบ self-improving รุ่นก่อนหน้า ที่มักติดอยู่กับการปรับปรุงในโดเมนเดียวและไม่สามารถนำความรู้ไปใช้กับงานอื่นได้
RLLM — เมื่อ Reward Model เป็น Language Model เอง
อีกหนึ่งงานวิจัยจาก Meta ที่น่าสนใจคือ RLLM ซึ่งรวม Reinforcement Learning เข้ากับ Language Model ที่ทำหน้าที่เป็น Reward Model (LM-as-RM) โดยฝึก reward model จาก output ของ policy โมเดลเอง (on-policy training)
ข้อดีที่สำคัญคือ RLLM รวมกระบวนการ post-training เข้าด้วยกันได้ทั้งหมด ครอบคลุมทั้งงานที่ตรวจสอบง่าย (easy-to-verify) งานที่ตรวจสอบยาก (hard-to-verify) และงานที่ไม่สามารถตรวจสอบได้เลย (non-verifiable) ทั้งหมดอยู่ภายใต้กรอบเดียวกัน generative LM reward model ให้คุณภาพของ reward ที่ดีกว่าการสร้าง reward model แบบเฉพาะทางสำหรับแต่ละประเภทงาน ซึ่งลดความซับซ้อนในการ train โมเดลลงอย่างมาก
WebArena-Infinity — สร้าง Benchmark สำหรับ Browser Agent ได้ถูกและเร็ว
WebArena-Infinity แก้ปัญหาใหญ่ในวงการ browser agent คือต้นทุนการสร้าง benchmark environment ที่สูงมาก จากเดิมที่ต้องใช้เวลาหลายเดือนในการสร้าง browser environment สำหรับทดสอบ agent ตอนนี้ลดเหลือ ไม่ถึง 10 ชั่วโมง ด้วยงบไม่ถึง 100 ดอลลาร์
Task ที่สร้างขึ้นมายากกว่าเดิมมากและสามารถตรวจสอบได้อัตโนมัติ ผลทดสอบเบื้องต้นพบว่าแม้แต่ open-source model ที่แข็งแกร่งก็ทำคะแนนได้ไม่ถึง 50% บน benchmark ใหม่ สิ่งนี้ตอกย้ำว่า browser agent ยังมีทางต้องพัฒนาอีกมาก และการฝึก RL สำหรับ agent ต้องการ environment ที่สร้างได้อัตโนมัติและมีความสมจริงสูง
LeWorldModel — JEPA Training ที่เสถียรโดยไม่ต้องพึ่งเทคนิคหลอก
งานวิจัยที่ทำให้วงการ world model ตื่นเต้นคือ LeWorldModel ซึ่งสาธิตว่าสามารถฝึก JEPA (Joint Embedding Predictive Architecture) แบบ end-to-end จากพิกเซลโดยตรงได้อย่างเสถียร โดยไม่ต้องใช้เทคนิคที่เคยจำเป็นมาก่อน ไม่มี teacher-student tricks ไม่มี EMA (Exponential Moving Average) ไม่มี heavy heuristics
ตัวเลขที่น่าทึ่งคือ:
- ใช้พารามิเตอร์เพียง 15 ล้านตัว
- ฝึกบน GPU เดียว
- ใช้เวลา planning ไม่ถึง 1 วินาที
- เร็วกว่า baseline ประมาณ 48-50 เท่า ในด้าน planning speed
- ประสิทธิภาพเทียบเคียงกับ world-model baseline รุ่นก่อนหน้า
เหตุผลที่เรื่องนี้สำคัญคือ JEPA methods เคยถูกมองว่าเปราะบางและต้องพึ่งเทคนิคจำนวนมากเพื่อให้ training เสถียร LeWorldModel แสดงให้เห็นว่าสามารถทำได้แบบตรงไปตรงมา ซึ่งเปิดทางให้นักวิจัยที่มีทรัพยากรจำกัดสามารถทดลองกับ world model ได้
Anthropic เจาะลึก "ชีววิทยา" ของ LLM
Anthropic เผยแพร่งานวิจัยชิ้นสำคัญในชื่อ "On the Biology of a Large Language Model" ซึ่งเปิดเผย circuits และ internal features ภายในโมเดลภาษาขนาดใหญ่ด้วยความเฉพาะเจาะจงที่ไม่เคยทำได้มาก่อน งาน mechanistic interpretability นี้พยายามทำความเข้าใจว่าโมเดล "คิด" อย่างไรจริง ๆ ในระดับ neuron และ circuit
สิ่งที่ค้นพบมีความละเอียดสูงมาก สามารถระบุได้ว่า circuit ไหนรับผิดชอบพฤติกรรมแบบไหน แต่มีข้อควรระวังสำคัญที่นักวิจัยเน้นย้ำ — circuit ที่ตรวจพบไม่จำเป็นต้องสอดคล้องกับสิ่งที่โมเดลสามารถ "อธิบาย" ได้เกี่ยวกับกระบวนการคิดของตัวเอง กล่าวคือ โมเดลอาจใช้ circuit หนึ่งในการประมวลผลจริง แต่เมื่อถูกถามว่าคิดอย่างไร กลับอ้างถึงกระบวนการที่ต่างออกไป ช่องว่างระหว่าง "สิ่งที่โมเดลทำจริง" กับ "สิ่งที่โมเดลบอกว่าทำ" ยังคงเป็นความท้าทายใหญ่ของสาขานี้
ทฤษฎี Optimizer Scaling — ลดการทดลองแบบสุ่มสี่สุ่มห้า
Antonio Orvieto นำเสนองานด้าน optimization theory ที่อธิบายว่าทำไม hyperparameter ของ LLM ถึง scale ในลักษณะที่เป็นอยู่ โดยใช้ทฤษฎีของ adaptive optimization methods เป็นพื้นฐาน สิ่งที่น่าสนใจคืองานนี้เสนอ transfer rules ที่ทำให้สามารถคาดเดา hyperparameter ที่เหมาะสมสำหรับโมเดลขนาดใหญ่ได้ โดยไม่ต้องทำ brute-force sweep ซึ่งเป็นกระบวนการที่ใช้ compute มหาศาล
มีการถกเถียงเรื่อง optimizer dependence และ Muon-style setup ที่เริ่มได้รับความสนใจมากขึ้น แนวทางนี้พยายามแทนที่ "ภูมิปัญญาชาวบ้าน" ในการ scale LLM ที่อาศัยการทดลองเป็นหลัก ด้วยการ derivation ทางคณิตศาสตร์ที่มีรากฐานชัดเจน ถ้าทำสำเร็จจะช่วยประหยัดทั้งเวลาและค่า compute ในการฝึกโมเดลรุ่นถัดไปได้มาก
Document Parsing ก้าวกระโดด — LlamaParse และ LiteParse
การแปลงเอกสารเป็นข้อมูลที่ AI ใช้ได้เป็นปัญหาที่ดูธรรมดาแต่สำคัญมากในทางปฏิบัติ สัปดาห์นี้มีความก้าวหน้าสองด้าน
LlamaParse ร่วมกับ Gemini 3.1 Pro รายงานว่าได้ความแม่นยำเพิ่มขึ้นราว 15% บนเอกสารการเงิน PDF และ brokerage statements ซึ่งเป็นเอกสารที่มี layout ซับซ้อน มีตาราง กราฟ และข้อมูลที่ต้องการความถูกต้องสูง
อีกด้านหนึ่ง LiteParse นำเสนอแนวทางที่เบากว่า รองรับ URL และ stream โดยตรง ไม่พึ่งพา VLM (Vision Language Model) และเรียกใช้จาก agent ได้ทันที เหมาะสำหรับ workflow ที่ต้องการ parse เอกสารจำนวนมากอย่างรวดเร็วโดยไม่ต้องเสียค่า compute สำหรับ vision model
Cursor Instant Grep — ค้นหาโค้ดนับล้านไฟล์ใน Milliseconds
Cursor เปิดตัวฟีเจอร์ Instant Grep ที่สามารถค้นหาด้วย regex ข้ามไฟล์นับล้านได้ภายในไม่กี่ milliseconds พร้อมเผยแพร่ technical writeup ที่อธิบาย tradeoff ในการออกแบบ indexing และ algorithm
ทำไมเรื่องนี้ถึงสำคัญสำหรับ agentic coding? เพราะ search latency เป็นตัวกำหนด iteration speed ของ agent โดยตรง เมื่อ coding agent ต้องค้นหาโค้ดทุกครั้งก่อนแก้ไข ถ้าการค้นหาใช้เวลาหลายวินาที agent จะช้าลงทั้งกระบวนการ การลด latency ลงเหลือระดับ millisecond ทำให้ agent สามารถ iterate ได้เร็วขึ้นอย่างมีนัยสำคัญ ส่งผลโดยตรงต่อคุณภาพและความเร็วของผลลัพธ์
Late Interaction Retrieval — Multi-Vector ที่ใช้งานจริงได้แล้ว
การสนทนาระหว่าง Weaviate และ LightOn เปิดเผยว่า late interaction retrieval ซึ่งเคยถูกมองว่าแพงเกินไปสำหรับ production ตอนนี้ใช้งานได้จริงแล้ว เทคนิคนี้ใช้ token-level multi-vector representations ซึ่งให้คุณภาพการค้นหาที่ดีกว่า single-vector embedding แบบปกติ แต่ถูกกว่า full cross-encoder มาก
สิ่งนี้มีผลกระทบโดยตรงต่อ agentic workloads โดยเฉพาะในงานที่เกี่ยวกับ code และ reasoning ซึ่ง recall และ ranking ที่ดีขึ้นหมายถึง agent หาข้อมูลที่ต้องการได้ถูกต้องกว่าเดิม ลดความผิดพลาดจากการได้ context ที่ไม่เกี่ยวข้อง
Sakana Chat และ Namazu Alpha — AI ที่เข้าใจบริบทญี่ปุ่น
Sakana AI เปิดตัว Sakana Chat สำหรับผู้ใช้ภาษาญี่ปุ่น ขับเคลื่อนด้วยตระกูลโมเดล Namazu Alpha ซึ่งเป็น open model ที่ผ่านการ post-train เพื่อลด bias ที่ติดมาจากข้อมูลฝึก upstream ผลคือโมเดลสะท้อนบริบทและค่านิยมของญี่ปุ่นได้ดีกว่าโมเดลทั่วไปที่ฝึกจากข้อมูลภาษาอังกฤษเป็นหลัก
ที่น่าสนใจไม่แพ้กันคือ Sakana ยังทำงานร่วมกับหนังสือพิมพ์ Yomiuri ในโปรเจกต์วิเคราะห์ information operations โดยใช้ OSINT workflow ที่รวม ensemble models กับ novelty search เพื่อดึง narratives ออกมาจากโพสต์โซเชียลมีเดียกว่า 1.1 ล้านโพสต์ แสดงให้เห็นการประยุกต์ใช้ AI กับงานข่าวเชิงสืบสวนในระดับที่มนุษย์ทำไม่ไหว
MiniMax Token Plan — สมัครสมาชิกรายเดือนครอบคลุมทุก Modality
MiniMax เปิดตัวรูปแบบราคาใหม่ที่น่าจับตา เป็น flat-rate subscription ที่ครอบคลุม API ทั้ง text, speech, music, video และ image ในราคาคงที่ ไม่ต้องคิดเรื่อง token ต่อ modality แยกกัน
นี่เป็นความพยายามใช้ pricing model เป็นจุดขาย ในยุคที่ API ของแต่ละค่ายมีราคาและวิธีคิดค่าบริการที่ซับซ้อนจนนักพัฒนาปวดหัว MiniMax เลือกทำให้ง่ายด้วยค่าบริการที่คาดเดาได้ ซึ่งเป็นสิ่งที่ธุรกิจต้องการเมื่อจะนำ multimodal AI ไป deploy ในสเกลใหญ่
Luma Uni-1 — คิดและสร้างภาพในจังหวะเดียว
Luma เปิดตัว Uni-1 โมเดลที่ "คิดและสร้างพิกเซลไปพร้อมกัน" แทนที่จะแยกขั้นตอน reasoning และ image generation ออกจากกันเหมือนระบบทั่วไป Uni-1 ยุบทั้งสองกระบวนการเข้าเป็นพื้นผิวเดียว
แนวคิดนี้ต่างจากระบบที่ใช้ LLM คิดก่อนแล้วส่งคำสั่งไปยัง image generator เพราะการรวมทั้งสองขั้นตอนเข้าด้วยกันทำให้โมเดลสามารถปรับการสร้างภาพตาม reasoning ได้อย่างละเอียดและต่อเนื่อง โมเดลนี้ได้รับ engagement สูงมากจากชุมชนนักพัฒนา แม้รายละเอียดทางเทคนิคเต็มรูปแบบยังไม่ถูกเปิดเผย
NVIDIA Kimodo — สั่งท่าทางเคลื่อนไหวด้วย Prompt
NVIDIA เปิดตัว Kimodo โมเดล motion/timeline ที่สั่งงานด้วย prompt ได้ ฝึกจากข้อมูล motion capture กว่า 700 ชั่วโมง รองรับทั้งโครงกระดูกมนุษย์และหุ่นยนต์ เผยแพร่บน Hugging Face ให้ดาวน์โหลดใช้งานได้
ความสำคัญอยู่ที่ Kimodo เป็น promptable โมเดล หมายความว่านักพัฒนาสามารถอธิบายท่าทางที่ต้องการเป็นข้อความ แล้วโมเดลจะสร้าง motion ให้โดยไม่ต้องมีข้อมูล mocap สำหรับท่านั้นโดยเฉพาะ สิ่งนี้มีประโยชน์ทั้งในงาน animation, game development และ robotics ที่ต้องการ motion ที่หลากหลายอย่างรวดเร็ว
ภูมิทัศน์ LLM จีน — ปล่อยโมเดลถี่กว่าและเร็วกว่าค่ายอเมริกัน
สัปดาห์นี้ตอกย้ำว่าบริษัท AI จีนกำลังปล่อย open weights ในอัตราที่เร็วกว่าค่ายอเมริกันอย่างเห็นได้ชัด ภาพรวมมีดังนี้:
ByteDance เปิดตัวหลายโมเดลพร้อมกัน ทั้ง dola-seed (proprietary), Seed OSS 36B ซึ่งเป็น dense model ขนาด 3.6 หมื่นล้านพารามิเตอร์ และ Seedance สำหรับ text-to-video
Alibaba มี Qwen Max เป็น proprietary flagship พร้อมประกาศยืนยันว่าจะ open-source ทั้งตระกูล Qwen และ Wan ต่อไป แสดงจุดยืนชัดเจนเรื่องการเปิดเผยโมเดล
Tencent เน้นด้าน 3D และ animation ด้วย Hunyuan 3D ที่ทำผลงาน SOTA ในการสร้าง 3D mesh และ HY-Motion สำหรับ text-to-animation
Ant Group เปิดตัว Ling 2.5 1T ที่ใช้ Lightning LinearAttention แม้จะถูก Kimi K2.5 แซงในการทดสอบ ส่วน Meituan มาพร้อม LongCat-Flash-Chat ที่ใช้ dynamic MoE architecture โดย activate พารามิเตอร์ตั้งแต่ 1.86 หมื่นล้านถึง 3.13 หมื่นล้านตัวตามความซับซ้อนของ input
DeepSeek ยังคงสร้างสรรค์นวัตกรรมด้านสถาปัตยกรรมอย่างต่อเนื่องด้วย MLA, DSA และ GRPO ขณะที่กลุ่ม "Six AI Small Tigers" อย่าง Zhipu และ MiniMax ก็ไม่น้อยหน้า โดย MiniMax 2.5 เป็น MoE ขนาด 2.29 แสนล้านพารามิเตอร์ที่ activate เพียง 1 หมื่นล้านในแต่ละครั้ง
ตัวเลขที่สะท้อนภาพได้ดีคือ Xiaomi MiMo-V2-Pro ที่นำ leaderboard ของ OpenRouter ด้วยปริมาณการใช้งาน 1.77 ล้านล้าน tokens แสดงให้เห็นว่าโมเดลจีนไม่ได้แค่เยอะ แต่มีคนใช้จริงในปริมาณมหาศาล
Kimi K2.5 — ผู้ท้าชิงตำแหน่ง Open Source ที่แข็งแกร่งที่สุด
Aman Sanger จาก Cursor ออกมาระบุว่า Kimi K2.5 เป็น open-source model ที่แข็งแกร่งที่สุดในขณะนี้ โดยอ้างอิงจากผลการประเมินด้วย perplexity ความแข็งแกร่งของ K2.5 มาจากการทำ continued pre-training ที่ยาวนานและการฝึก RL ด้วย compute สูง
อย่างไรก็ตาม มีเสียงตั้งคำถามเรื่อง methodology ของการประเมินโดยใช้ perplexity ว่าเป็นตัวชี้วัดที่ดีพอหรือไม่ เพราะ perplexity ต่ำไม่ได้แปลว่าโมเดลจะทำงานได้ดีในทุกงานจริง นอกจากนี้ Workshop Labs ยังชี้ว่า training code ของ K2 จาก Fireworks ไม่ได้ถูก optimize สำหรับ hyperscaled training ซึ่งหมายความว่ายังมีช่องว่างให้ปรับปรุงอีกมากถ้าได้ infrastructure ที่ดีกว่า
วิ่ง LLM บนเครื่องตัวเอง — บทเรียนจาก 9x RTX 3090
การรัน LLM ขนาดใหญ่บนเครื่อง local ยังคงเป็นหัวข้อที่ชุมชนให้ความสนใจสูง สัปดาห์นี้มีการแบ่งปันประสบการณ์การใช้ RTX 3090 จำนวน 9 ตัว ที่เผยให้เห็นข้อจำกัดสำคัญ
- เมื่อใส่ GPU มากกว่า 6 ตัว จะเจอปัญหา PCIe lane limitations อย่างรุนแรง
- Token generation ช้าลงเรื่อย ๆ เพราะ latency และ bandwidth constraints ระหว่าง GPU
- RTX 3090 ยังคงเป็นตัวเลือกที่คุ้มค่าที่สุดที่ราคาราว 750 ดอลลาร์ต่อตัว สำหรับ VRAM 24GB
- ต้องใช้ P2P patched Nvidia drivers เพื่อหลีกเลี่ยง CPU bottleneck ในการสื่อสารระหว่าง GPU
- Setup ที่ดีที่สุดคือ 4x RTX 3090 ซึ่งสามารถเข้าใกล้ประสิทธิภาพ frontier model ได้หากเลือกโมเดลที่เหมาะสม
บทเรียนคือ "ยิ่งเยอะยิ่งดี" ไม่เป็นจริงเสมอ การเพิ่ม GPU เกิน sweet spot กลับทำให้ประสิทธิภาพแย่ลงเพราะ overhead ในการสื่อสารมากกว่า compute ที่ได้เพิ่ม
LLM ขนาด 7MB วิ่งในเบราว์เซอร์ — Binary Weight ทำได้จริง
โปรเจกต์ที่ทำให้หลายคนทึ่งสัปดาห์นี้คือ LLM ขนาดเพียง 7 เมกะไบต์ ที่รันได้ในเบราว์เซอร์ มีพารามิเตอร์ 57 ล้านตัว โดย 99.9% ของ weights เป็น binary คือมีค่าเพียง -1 หรือ +1 เท่านั้น
ตัวเลขที่น่าสนใจ:
- รันผ่าน WebAssembly ได้ราว 12 tokens ต่อวินาที
- ไม่ต้องใช้ FPU (Floating Point Unit) เพราะ weight เป็น binary ใช้แค่การบวกลบ
- ขนาดเล็กพอที่จะอยู่ใน L1 cache ของ CPU ได้
- สร้างข้อความภาษาอังกฤษที่อ่านรู้เรื่องได้ ระดับนิทานเด็กอย่างง่าย
โปรเจกต์นี้ได้แรงบันดาลใจจากงาน BitNet 1.5-bit quantization ของ Microsoft แม้จะยังห่างไกลจากการใช้งานจริงในเชิงคุณภาพ แต่เป็นการสาธิตที่ทรงพลังว่า binary weight LLM สามารถสร้างข้อความที่สอดคล้องกันได้จริง และเปิดจินตนาการเรื่อง on-device AI ที่ไม่ต้องพึ่งพา GPU เลย
Hugging Face Kernels และ TRL 1.0 — เครื่องมือฝึกโมเดลก้าวสำคัญ
Hugging Face Kernels 0.12.3 เพิ่มการรองรับ Flash-Attention 4 ผ่าน cutlass.cute kernels ซึ่งจะเพิ่มความเร็วในการฝึกและ inference สำหรับโมเดลที่ใช้ attention mechanism
ที่สำคัญกว่าคือการเปิดตัว TRL v1.0.0 (Transformer Reinforcement Learning) ซึ่งรายงานว่าประหยัด VRAM ได้ถึง 44 เท่า สำหรับการฝึกด้วย sequence ยาว นี่เป็นตัวเลขที่มีผลกระทบมากในทางปฏิบัติ เพราะ long-sequence training เป็นคอขวดสำคัญที่ทำให้หลายทีมต้องใช้ GPU จำนวนมาก การลด VRAM 44 เท่าหมายความว่างานที่เคยต้องใช้ GPU หลายสิบตัวอาจทำได้ด้วย GPU เพียงไม่กี่ตัว นอกจากนี้ยังประกาศว่า AsyncGRPO กำลังจะมาเร็ว ๆ นี้ ซึ่งจะเพิ่มประสิทธิภาพการฝึก RL อีกขั้น
AI2 MolmoPoint GUI — VLM ควบคุมหน้าจออัตโนมัติ
AI2 (Allen Institute for AI) เปิดตัว MolmoPoint GUI ระบบ GUI automation ที่ขับเคลื่อนด้วย VLM (Vision Language Model) ทำคะแนนได้ 61.1 บน ScreenSpotPro ซึ่งเป็น benchmark สำหรับวัดความสามารถในการระบุตำแหน่งบนหน้าจอ
MolmoPoint ใช้วิธีการที่ต่างจาก Claude computer use ตรงที่เน้น VLM-based approach มากกว่า ใช้ vision model ในการทำความเข้าใจหน้าจอและระบุตำแหน่งที่ต้องคลิกหรือพิมพ์ คะแนน 61.1 บน ScreenSpotPro แม้จะยังไม่สมบูรณ์แบบ แต่แสดงให้เห็นว่า open-source alternative ก็สามารถแข่งขันในพื้นที่นี้ได้
ถกเถียง NVIDIA 5090 — ซื้อตอนนี้หรือรอราคาลง
ชุมชน AI hardware มีการถกเถียงอย่างดุเดือดเรื่อง NVIDIA RTX 5090 ว่าควรซื้อตอนนี้หรือรอราคาลง ฝ่ายที่สนับสนุนการซื้อชี้ว่า VRAM 32GB และ performance ที่เพิ่มขึ้นจะช่วยให้รันโมเดลรุ่นใหม่ได้ดีกว่า ฝ่ายที่แนะนำให้รอมองว่าราคาปัจจุบันสูงเกินไปและจะลดลงเมื่อ supply เข้าสู่ตลาดมากขึ้น
สำหรับคนที่ใช้งาน local LLM เป็นหลัก คำถามที่แท้จริงคือ VRAM ต่อบาทคุ้มค่าแค่ไหน เมื่อเทียบกับ RTX 3090 มือสองที่ราคาถูกกว่ามากแต่ได้ VRAM 24GB เท่ากัน ท้ายที่สุดคำตอบขึ้นอยู่กับว่าต้องการ compute speed หรือ VRAM capacity มากกว่ากัน
แนวโน้มรวม — จากโมเดลสู่ระบบปฏิบัติการ
ภาพรวมของสัปดาห์นี้ชี้ไปในทิศทางเดียวกัน คือวงการ AI กำลังเคลื่อนจากยุค "โมเดลเดี่ยว" สู่ยุค "ระบบ agent ที่ซับซ้อน" Meta กำลังสร้าง agent platform ผ่านการซื้อกิจการอย่างรวดเร็ว Anthropic เปิดให้ Claude ควบคุมเดสก์ท็อป ขณะที่ agent stack ต่าง ๆ บรรจบกันที่ long-running parallel workflows
แต่สิ่งที่น่าจับตาไม่แพ้กันคือความตึงเครียดระหว่าง "ความสามารถในเดโม" กับ "ความเสถียรในการใช้งานจริง" ปัญหา slop theater และ agent ที่กระตือรือร้นเกินไปเป็นสัญญาณว่าเทคโนโลยียังต้องพัฒนาอีกมากก่อนจะไว้วางใจได้ในงาน production
ด้านงานวิจัย ทั้ง DGM-H, RLLM, LeWorldModel และงาน mechanistic interpretability ของ Anthropic ล้วนผลักดันความเข้าใจพื้นฐานให้ลึกขึ้น ขณะที่ฝั่งจีนยังคงปล่อยโมเดลในอัตราที่น่าตกใจ ด้วย Kimi K2.5 ที่อาจเป็น open-source model ที่แข็งแกร่งที่สุดในขณะนี้ และ Xiaomi MiMo-V2-Pro ที่นำการใช้งานจริงบน OpenRouter
ส่วนเรื่องที่ดูเล็กแต่อาจมีผลกระทบยาวไกลคือ LLM 7MB ที่วิ่งในเบราว์เซอร์ด้วย binary weights เพราะถ้า approach นี้ scale ขึ้นได้ จะเปลี่ยนสมการเรื่อง on-device AI อย่างสิ้นเชิง ไม่ต้อง GPU ไม่ต้อง cloud แค่เบราว์เซอร์ก็พอ
