Replit Agent 4 พลิกโฉม, Nemotron 3 Super แรงกว่าเดิม: AI Agent ขึ้นแท่นเทรนด์หลัก
Replit Agent 4: ยกระดับจากแพลตฟอร์มโค้ดดิ้ง สู่ AI Agent งานความรู้เต็มตัว
Replit เพิ่งทำมูลค่าเพิ่มขึ้นสามเท่าเป็น $9B ในช่วง 6 เดือนที่ผ่านมา Amjad Masad และทีมมีเซนส์ที่ยอดเยี่ยมต่อ "กระแสหลักปัจจุบัน" ในวงการเทค
Replit ในปัจจุบันแทบจำไม่ได้จากแพลตฟอร์ม "coding with some AI tacked on" เมื่อเพียง 2 ปีก่อน ตอนนี้ software engineering ได้รับการแก้ไขเกือบสมบูรณ์แล้ว แพลตฟอร์มโค้ดดิ้งจะไปทางไหน? Replit มองว่าคำตอบคือการ "ขึ้นไปบน stack" กลายเป็นชุดผลิตภาพแบบ fully integrated ที่มีทั้ง canvas, apps, sites, slides, videos และอื่นๆ
นี่คือการเปลี่ยนทิศทางที่ชาญฉลาดและสอดคล้องกับธีมที่โดดเด่นที่สุดของปี 2026 — เมื่อตัวแทน AI สามารถเขียนโค้ดแก้ปัญหาได้แล้ว ผู้สร้างตัวแทน AI เขียนโค้ดจึงขยายขอบเขตไปยังงานที่ใช้ความรู้มากขึ้น รวมถึง Pi → OpenClaw, Claude Code → Cowork, model labs ทุกแห่งที่ทำ Excel/PowerPoint integrations และ Notion ที่สร้าง Custom Agents สำหรับงานที่ใช้ความรู้ทั้งหมด
AI Trend ปี 2026: จาก AI เขียนโค้ดสู่ World Models
- The Coding/Reasoning Discontinuity — ของเดือนธันวาคม 2025
- ตัวแทน AI เขียนโค้ด → Agent งานที่ใช้ความรู้ — หัวข้อของวันนี้
- Death of IDE → "Dark" Software Factories — ไม่ต้อง code review อีกต่อไป
- AI research automation — หรือ RSI, บางทีเรียก "AI Scientist"
- World Models — AMI, Adversarial
- Memory Shortage และ Custom ASIC stack — รวมถึง Taalas
- The Great AI vs SaaS Rebundling
- "AI for Science" finally working
- Scaling without Slop
NVIDIA เปิดตัว Nemotron 3 Super: โมเดล 120B/12B-active แรงกว่า GPT-OSS-120B ถึง 2.2 เท่า
Nemotron 3 Super เป็นการเปิดตัวทางเทคนิคที่ชัดเจนที่สุดของวัน: โมเดลเปิดขนาด 120B parameter / ~12B active พร้อม 1M context, สถาปัตยกรรม hybrid Mamba-Transformer / SSM Latent MoE และรองรับ agentic workloads ได้อย่างชัดเจน
NVIDIA ระบุว่าเป็นการเปิดตัวที่ผิดปกติ ด้วยการเผยแพร่น้ำหนักโมเดล ข้อมูล สูตรการพัฒนา และรายละเอียดโครงสร้างพื้นฐานอย่างครบถ้วน โดยเน้นย้ำประสิทธิภาพสำหรับการใช้งานในยุค Blackwell อ้างว่าการอนุมานเร็วกว่า GPT-OSS-120B ถึง 2.2 เท่าใน FP4
Artificial Analysis ให้คะแนน 36 บน AA Intelligence Index นำหน้า gpt-oss-120b (33) แต่ตามหลัง Qwen3.5-122B-A10B (42) พร้อมปริมาณงานสูงกว่า GPT-OSS-120B ราว ~10% ต่อ GPU และ serving speed วันเปิดตัวสูงถึง 484 tok/s
การสนับสนุนจากระบบนิเวศมาทันที: vLLM, llama.cpp, Ollama, Together, Baseten, W&B Inference, LangChain และ Unsloth GGUFs
เบื้องหลังความเร็ว Nemotron 3 Super: Multi-Token Prediction และ KV-cache ที่เบากว่าสามเท่า
การอภิปรายทางเทคนิคที่น่าสนใจที่สุดคือ ทำไมมันถึงเร็ว:
- Native multi-token prediction (MTP) — เดา token หลายตัวพร้อมกันแล้วตรวจสอบใน pass ถัดไป ใช้ประโยชน์จาก GPU compute ที่ไม่ได้ใช้ที่ batch sizes เล็ก
- ความได้เปรียบครั้งใหญ่ของ KV-cache — ซึ่งอยู่ที่ประมาณ 8,192 bytes/token ใน BF16 สำหรับ Attention KV ของ Nemotron เทียบกับ 24,576 bytes/token ของ Qwen3.5-122B ทำให้ long-context serving เบาลงอย่างมาก
โครงสร้างพื้นฐาน Agent: ยุคแห่ง Agent Runtime ถาวร แทนการ "แชทกับโมเดล"
เทรนด์ผลิตภัณฑ์ที่แข็งแกร่งที่สุดคือการเปลี่ยนจาก "chat with a model" ไปสู่ persistent agent runtimes และ orchestration layers
Karpathy เสนอว่าแนวคิดที่ว่า "ยุคของ IDE ได้สิ้นสุดลงแล้ว" นั้นผิด — จริงๆ แล้ว "เราจะต้องมี IDE ที่ใหญ่ขึ้น" ที่หน่วยของงานกลายเป็น agent แทนที่จะเป็นไฟล์ และขยายไปถึงแนวคิดขององค์กรที่ขับเคลื่อนด้วย agent ซึ่งเข้าใจได้, สามารถแยกย่อยได้ และมีการตรวจสอบและการควบคุมแบบเรียลไทม์
Perplexity เปิดตัว Personal Computer: Agent บน Mac mini ทำงานตลอดเวลา
Perplexity ประกาศ Personal Computer — ระบบไฮบริดแบบ local/cloud ที่ทำงานตลอดเวลาบน Mac mini ทำงานข้ามไฟล์/แอป/เซสชันในเครื่อง และควบคุมจากระยะไกลได้
ยังขยาย Computer for Enterprise — การประสานงานข้าม 20 specialized models และ 400+ apps
Replit Agent 4 และ Base44: เวิร์กโฟลว์แบบ Canvas และ "ครบวงจร" สำหรับผู้ไม่เชี่ยวชาญเทคนิค
- Replit Agent 4 — เวิร์กโฟลว์แบบ collaborative, canvas-like พร้อม parallel agents สำหรับ apps, sites และ slides
- Base44 Superagents — เน้นการรวม "batteries included" กับ Gmail, Slack, Stripe, CRM และอื่นๆ สำหรับผู้ใช้งานที่ไม่เชี่ยวชาญด้านเทคนิค
วิศวกรรมโครงร่างควบคุมสำคัญไม่แพ้โมเดล: วงจรปรับปรุงตัวเองสู่การแก้ไขอัตโนมัติ
การอภิปรายเชิงวิศวกรรมเน้นย้ำว่า โครงร่างควบคุมไม่ได้เป็นเพียงโมเดลอีกต่อไป — โมเดลที่ดีขึ้นจะปลดล็อกประสบการณ์ผลิตภัณฑ์ที่เคยบอบบางเกินไป พร้อมด้วยวงจรปรับปรุงตัวเองของ การประเมิน/metrics → autonomous โครงร่างควบคุม edits → hill climbing
- LangChain — เพิ่ม autonomous context compression เข้าสู่ Deep Agents ให้โมเดล compact ที่ task boundaries แทน hard token thresholds
- OpenAI DevRel — เผยแพร่ technical writeup เรื่อง computer access สำหรับ agents ครอบคลุม execution loops, filesystem context, network access และ guardrails
Anthropic ตั้ง The Anthropic Institute: Jack Clark นำทีมเพื่อประโยชน์สาธารณะ
Anthropic เปิดตัว The Anthropic Institute นำโดย Jack Clark ในบทบาท Head of Public Benefit ใหม่ ครอบคลุม ML engineering, economics และ social science เพื่อกำหนดทิศทางการสนทนาสาธารณะเรื่อง advanced AI
Anthropic เผยสัญญาณการปรับปรุงตัวเอง: Claude เขียนโค้ด 70-90% เพื่อพัฒนาโมเดลถัดไป
มีหลายทวีตที่แสดงความกังวลว่า Anthropic อาจกำลังเห็น 'พลวัตของการปรับปรุงตัวเองแบบวนซ้ำ' ภายในองค์กร โดยบทความของ TIME ชี้ว่า:
- 70-90% ของโค้ดที่ใช้พัฒนาโมเดลรุ่นถัดไปถูกเขียนโดย Claude
- รอบการปล่อยโมเดลถูกบีบจากหลายเดือนเหลือหลายสัปดาห์
- นักวิจัยบางคนคิดว่า fully automated AI research อาจเกิดขึ้นภายใน 1 ปี
- Claude เร็วกว่า human overseers 427 เท่าในบาง internal tasks โดยมี nested parallel usage patterns ที่พบเห็นทั่วไปแล้ว
Claude Code ล่ม: เกิด "intelligence brownout" ทำซิลิคอนวัลเลย์หยุดชะงัก
อย่างไรก็ตาม Narrative นี้ก็มีประเด็นโต้แย้งในทางปฏิบัติทันที: Claude Code login/auth outage ซึ่งสร้างความไม่พอใจอย่างมากให้กับนักพัฒนา — มีการกล่าวติดตลกกันว่า "ผลิตภาพของ Silicon Valley ลดลง 90%"
Karpathy ระบุว่า autoresearch labs ของเขาพังจาก OAuth outage และมองว่าการหยุดให้บริการโมเดลระดับแนวหน้าในอนาคตจะเป็นเสมือน "intelligence brownouts"
วิจัยประเมิน Agent: จาก PostTrainBench สู่ EvoSkill และ AgentIR
งานวิจัยหลายชิ้นเน้นที่คอขวดถัดไป: การวัดและปรับปรุงระบบ agent ไม่ใช่แค่คุณภาพ base-model
- PostTrainBench v1.0 — มาตรฐานทดสอบว่า agent ระดับแนวหน้าสามารถ post-train language models ได้หรือไม่ มุ่งติดตาม progress ไปสู่ AI R&D automation / การปรับปรุงตัวเอง มี ablation ที่น่าสนใจ: ในกรณีของ GPT-5.1 Codex Max นั้น medium reasoning effort ชนะ high เพราะ tokens มากเกินไปทำให้เกิด context compaction
- EvoSkill — executor/proposer/skill-builder triad ที่ค้นพบและปรับแต่ง reusable skills จาก failures ปรับปรุง Claude Code + Opus 4.5 จาก 60.6% เป็น 67.9% exact match บน OfficeQA
- AgentIR — ตัวค้นคืนแบบ reasoning-aware ที่ jointly embed reasoning trace ของ agent กับ query รายงานความแม่นยำ 68% บน BrowseComp-Plus เทียบกับ 52% ของ conventional embedding models และ 37% ของ BM25
มีการเน้นย้ำด้วยว่า agent reliability เป็นปัญหาด้าน security แม้ไม่มี adversaries — ความล้มเหลวของ AI-agent หลายกรณีเกิดจาก unreliability ไม่ใช่ explicit attacks
Gemini Embedding 2: ราคาข้อความสูง แต่เหมาะกับการค้นคืนแบบ Multimodal
Google Gemini Embedding 2 ดึงดูดการวิเคราะห์ pricing เชิงปฏิบัติมากกว่ามาตรฐานทดสอบ — รองรับ embeddings สำหรับข้อความ รูปภาพ วิดีโอ เสียง และ PDF พร้อม Matryoshka embeddings สำหรับการจัดเก็บในมิติที่ต่ำกว่า
deployment note ที่มีประโยชน์ที่สุด: text pricing ดูสูงเมื่อเทียบกับคู่แข่ง จึงเหมาะอย่างยิ่งสำหรับการค้นคืนแบบ multimodal โดยเฉพาะ ค่า video embedding อาจพุ่งถ้าไม่ลด FPS ก่อน upload
เจาะลึกสถาปัตยกรรม Qwen3.5: Hybrid Attention, GDN และ MoE 397B
สถาปัตยกรรม multimodal ของ Qwen3.5 ได้รับการวิเคราะห์จากชุมชนอย่างละเอียด:
- Hybrid attention stack — ผสม Gated DeltaNet linear attention กับ Gated full attention
- 397B A17B MoE variant — และ 27B dense variant
- 262k native context — ขยายไปทาง 1M ได้
- MTP in training — multi-token prediction
เป็น survey ที่กระชับว่า attention innovation กำลังไปทางไหน: hybrid linear/full attention, GQA, DSA และ MoE routing เป็น core design axes แล้ว
Reka Edge: VLM สำหรับ Physical AI ใช้ Input Token น้อยลง 3 เท่า
Reka Edge เปิดตัวเป็น production-focused VLM สำหรับ physical AI อ้างว่าใช้ input tokens น้อยลง 3 เท่าและปริมาณงานเร็วขึ้น 65% เทียบกับ 8B models ชั้นนำ ครอบคลุม image/video understanding, object detection และ tool use
Google AI ในวงการสุขภาพ: ตรวจพบมะเร็งเต้านมที่คัดกรองปกติพลาดไป 25%
Google แชร์ 2 healthcare deployments:
- AI ตรวจพบ 25% — ของ interval breast cancers ที่การคัดกรองมาตรฐานพลาดไป
- AMIE — real-world study สำหรับการให้เหตุผลทางคลินิกแบบสนทนา พบว่า safe, feasible และ patients ตอบรับดี
AI News ประจำวันที่ 10-11 มีนาคม 2569 ตรวจสอบ 12 subreddits, 544 Twitters — ไม่มี Discord อีกต่อไป
