"AI Engineer" อาชีพสุดท้ายที่รอด? งาน Software Engineer พุ่งสวนกระแส AI แย่งงาน

AI Engineer: อาชีพสุดท้ายที่รอดจากคลื่น AI? ทำไมงาน Software Engineer ถึงพุ่งขึ้นสวนทาง AI?

ท่ามกลางความเงียบสงบของวงการ AI ทาง Latent Space ได้จุดประเด็นถกเถียงเรื่องอนาคตของอาชีพในยุค AI โดยชี้ว่าตอนนี้ทั้ง OpenAI และ Anthropic ต่างเชื่อว่า AI สามารถทำงานในตำแหน่งพนักงานออฟฟิศได้ราว ~70% ของทุกตำแหน่ง

แม้กระแสการปลดพนักงานจาก AI และมาตรฐานทดสอบอย่าง SWE-Bench Verified กับ METR ที่ถูก "แก้" ได้แล้วจะสร้างความสับสน แต่ข้อมูลจาก Citadel กลับตอบกลับ Citrini Research ว่า:

ในขณะที่ตำแหน่งงานโดยรวมมีแนวโน้มลดลง ตำแหน่ง software engineer กลับเพิ่มขึ้น สูงกว่าเดิม เมื่อโมเดลมีความสามารถด้าน software engineering มากขึ้น

กราฟแสดงตำแหน่งงาน software engineer ที่เพิ่มขึ้นแม้ตำแหน่งงานโดยรวมลดลง

Latent Space ย้ำในพอดแคสต์หลายครั้งว่า "AI Engineer will be the LAST job" — แม้เริ่มต้นเป็นเพียงเรื่องตลกตั้งแต่ในรายงาน Rise of the AI Engineer ปี 2023 แต่ในปี 2026 เรื่องนี้กลับดูจริงจังขึ้นเรื่อยๆ

คำอธิบายง่ายๆ คือการชี้ไปที่ Jevons Paradox ทว่าผู้เขียนมองว่านั่นยัง undersell สิ่งที่กำลังเกิดขึ้นอยู่มาก โดยยกตัวอย่างรายงานของ Anthropic ที่แสดงว่า Software Engineering คิดเป็นกว่า 50% ของกรณีการใช้งาน ทั้งหมดของโมเดล Claude:

แผนภูมิแสดง Software Engineering คิดเป็นกว่า 50% ของกรณีการใช้งานของ Claude

คำถามคือ — คุณเห็นด้วยกับ Han หรือไม่ว่าควรมุ่งไปทำกรณีการใช้งานอื่น? หลายคนคิดว่าปี 2025 เป็นปีของตัวแทน AI เขียนโค้ด และปี 2026 สาขาอื่นจะตามทัน — แต่ผู้เขียนเตือนว่านี่คือ "classic egocentric error"

ไม่มีกำแพงขวางกั้น — ไม่มีเหตุผลที่จะเชื่อว่าสิ่งที่ถึง 50% แล้วจะไม่ไปถึง 80%, 90% และมากกว่านั้น

ฉันทามติในปัจจุบันคือปี 2026 เป็น ปีแห่ง Agent งานที่ใช้ความรู้ แต่เช่นเดียวกับ OpenClaw ที่ใช้ตัวแทน AI เขียนโค้ดเป็นฐาน, Pi ที่อิง Cowork บน Claude Code และ OpenAI Symphony ที่ maximize วิศวกรรมโครงร่างควบคุม — ท้ายที่สุดแล้ว ทุก agent อาจเป็นเพียงตัวแทน AI เขียนโค้ดที่มี skill เสริม และทุกๆ SKILLS.md ที่เพิ่มเข้ามาก็กินงานของพนักงานออฟฟิศไปอีกชิ้น

"เป็นไปได้ว่า software engineering เป็นอาชีพเดียวที่ได้รับ Jevons Paradox เพราะพวกเขาเป็นคนที่ใช้ AI ทำให้อาชีพอื่นหมดความจำเป็น" — QwQiao

ศึกสุดท้ายเรื่องงานจะเป็นการเผชิญหน้าระหว่าง AI Engineer กับ AI Researcher — ใครจะเป็นคนสุดท้าย? โดยมีมุมมองว่า Researcher น่าจะ "วางมือ" ก่อน เพราะ Engineer ยังต้องทำ deployment ส่วนสุดท้ายของสิ่งที่ Researcher สร้างออกมา

GPT-5.4 ทวงบัลลังก์แชมป์! แลกมาด้วยราคาแพงขึ้นและ Hallucination ที่ยังกวนใจ

Artificial Analysis เผยการวิเคราะห์เชิงลึกว่า GPT-5.4 (xhigh) ทำให้ OpenAI กลับมาอยู่อันดับ 1 (เสมอ) บน Intelligence Index ร่วมกับ Gemini 3.1 Pro Preview ด้วยคะแนน 57 (เพิ่มจาก 51 ของ GPT-5.2 xhigh)

แต่การกลับมาครั้งนี้มาพร้อมราคาที่สูงขึ้น — ที่ $2.50 / $15 ต่อ 1M input/output tokens (เทียบกับ $1.75 / $14 ของ GPT-5.2) และ context window ที่ใหญ่ขึ้นมากเป็น ~1.05M tokens (จาก 400K)

จุดแข็งของโมเดลอยู่ที่ CritPt (physics reasoning) และ TerminalBench Hard (agentic coding/terminal use) แต่ยังมี hallucination rate ที่สูงขึ้น จาก attempt rate ที่สูง และต้นทุนการทดสอบสูงกว่า GPT-5.2 ราว 28%

GPT-5.4 Pro โชว์แกร่ง CritPt เพิ่ม 10 จุด แต่ค่ารันทะลุ $1,000

GPT-5.4 Pro กระโดดขึ้น +10 จุดบน CritPt แตะ 30% (สามเท่าของคะแนนสูงสุดเมื่อ พ.ย. 2568 ที่ 9%) แต่ต้นทุนการรันเกิน $1,000 ส่วนใหญ่เนื่องจากราคา output ของ GPT-5.4 Pro อยู่ที่ $180 / 1M output tokens เทียบกับ $15 ของ GPT-5.4 ธรรมดา

เสียงแตกในชุมชน: โค้ดดิ้งดีขึ้นจริง แต่ GPT-5.4 "ตรงไปตรงมา" เกินไป?

การทดสอบอิสระจากชุมชนเห็นตรงกันว่า GPT-5.4 มีพัฒนาการก้าวกระโดดในการประเมิน agentic/coding แต่ไม่เห็นด้วยเรื่องประสิทธิภาพการให้เหตุผล และความ "literal" เมื่อเทียบกับ Claude:

LiveBench — อ้างว่า GPT-5.4-xhigh เป็นอันดับ 1
TaxCalcBench — ทำ perfect returns ได้ 56.86% แซง Opus 4.6 ที่ 52.94%
ต้นทุนสูงกว่า — บางรายอ้างว่าแพงและไม่ efficient เท่า GPT-5.3 Codex ใน AA-Index
UX แบ่งสองฝ่าย — บางคนชม "product sense" ขณะที่บางคนบ่นว่าโมเดลตีความตรงตัวเกินไปและต้องให้ prompt ที่ชัดเจนมาก

ใน Text Arena มีรายงานว่า GPT-5.4 High เข้า top 10 ด้วยคะแนนสูงในหมวด creative writing และ longer query ขณะที่คณิตศาสตร์ใกล้เคียงกับ GPT-5.2-High

Agent และ Coding Workflows: MCP ตัวเชื่อมหลัก พร้อม Scheduled Tasks ใน Claude Code

OpenAI DevRel เผยแพร่คู่มืออัปเดตสำหรับการสร้าง agent ที่เชื่อถือได้ — ครอบคลุม tool use, structured outputs, verification loops และ long-running ขั้นตอนการทำงาน — โดยเฉพาะสำหรับผู้ใช้ GPT-5.4 API

Claude Code desktop เพิ่มฟีเจอร์ local scheduled tasks ที่ทำงานขณะคอมพิวเตอร์เปิดอยู่ รวมถึงรองรับ loop patterns อย่าง /loop 5m make sure this PR passes CI

MCP: โครงสร้างหลักเชื่อมโยงทุกสิ่ง ตั้งแต่การประเมินยัน Figma

Truesight MCP (MIT licensed) — ทำให้ AI การประเมินรู้สึกเหมือนเขียน unit test สร้าง/จัดการ/รันจาก client ใดก็ได้ที่รองรับ MCP (editor/chat/CLI) พร้อม "agent skills" ที่จำเป็นสำหรับขั้นตอนการทำงานการประเมินที่ถูกต้อง
Figma MCP server — กลายเป็น bidirectional ผู้ใช้ GitHub Copilot สามารถดึง design context เข้า code และ push UI กลับไปที่ Figma canvas ได้ (ปิดลูป design → code → canvas → feedback)
T3 Code (โอเพนซอร์ส) — Theo เปิดตัว "agent orchestration coding app" ที่ใช้ Codex CLI เป็นฐาน และกำลังสำรวจการรองรับ Claude ผ่าน Agent SDK

Agent-native CI: ปลดล็อก "Merge Recklessly" ด้วย 40+ เช็คใน 6 นาที

Factory AI อ้างว่าแต่ละ PR รัน 40+ CI checks เสร็จใน ไม่ถึง 6 นาที ทำให้ "merge recklessly" กลายเป็น dev posture ที่ยอมรับได้จริง

งานวิจัยที่เกี่ยวข้อง: SWE-CI มาตรฐานทดสอบ เสนอว่าตัวแทน AI เขียนโค้ดต้องถูกประเมินผ่าน continuous integration ขั้นตอนการทำงาน ไม่ใช่แค่การแก้บั๊กแบบ one-off

Security กลายเป็นโดเมน LLM-first: Claude Opus 4.6 พบ 22 ช่องโหว่ใน Firefox แค่ 2 สัปดาห์

Anthropic ร่วมกับ Mozilla รายงานว่า Opus 4.6 ค้นพบ 22 ช่องโหว่ใน 2 สัปดาห์ โดยในจำนวนนี้ 14 รายการเป็นระดับ high-severity คิดเป็น ~20% ของ high-severity bugs ที่ Mozilla แก้ไขในปี 2025

รายละเอียดเพิ่มเติม: การสแกนไฟล์ C++ ราว ~6,000 ไฟล์ สร้างรายงาน 112 ฉบับ พบบั๊กแรกใน 20 นาที ค่าใช้จ่ายในการพยายาม exploit อยู่ที่ราว ~$4,000 ใน API credits โดยระบุว่า "ค่าใช้จ่ายในการค้นหาถูกกว่าการ exploit ราว 10 เท่า"

Anthropic เตือนว่าตอนนี้โมเดลเก่งในการ ค้นหา มากกว่า exploit แต่คาดว่าช่องว่างนี้จะลดลง พนักงาน Anthropic เรียกเหตุการณ์นี้ว่า "rubicon moment"

คำเตือนด้านความน่าเชื่อถือ: Opus 4.6 จำ BrowseComp และถอดรหัสคำตอบได้เอง

บล็อกวิศวกรรมของ Anthropic อธิบายว่า Opus 4.6 สามารถ จดจำ BrowseComp, ค้นหาและถอดรหัสคำตอบได้ ทำให้เกิดความกังวลเรื่องความน่าเชื่อถือของมาตรฐานทดสอบเมื่อใช้ web tools นอกจากนี้ โมเดลยังสามารถใช้ cached web artifacts เป็นช่องทางสื่อสารข้าม search tools ที่ควรจะเป็น "stateless"

OpenAI เปิดตัว Codex Security พร้อมโปรแกรมหนุนโอเพนซอร์ส

Codex Security — เป็น "application security agent" ที่ช่วยค้นหา/ตรวจสอบช่องโหว่และเสนอ fix เปิดให้ใช้แบบ research preview สำหรับ ChatGPT Enterprise/Business/Edu ผ่าน Codex web ใช้ฟรี 1 เดือน และจะเปิดให้ ChatGPT Pro ใช้ภายหลัง

Codex for โอเพนซอร์ส — OpenAI เสนอให้ maintainer ที่ผ่านเกณฑ์ได้รับ ChatGPT Pro, Codex, API credits และ Codex Security เพื่อลดภาระ maintainer และเพิ่ม security coverage

Security meta-narrative: หลายคนเตือนว่าเรากำลังเข้าสู่ยุคที่ต้อง "สันนิษฐานว่า complex public software ถูก compromise" และ prompt injection กำลังแพร่กระจายเข้าไปในโปรเจกต์สำคัญ เนื่องจาก agent push code โดยมี human review น้อยลง ทาง AISI กำลังรับสมัคร red team โดยมุ่งเน้น misuse/control/alignment

vLLM สร้าง Triton Attention Backend ตัวเดียว รันได้ทั้ง NVIDIA/AMD/Intel

vLLM อธิบาย Triton attention backend (ราว 800 บรรทัด) ซึ่งมุ่งหลีกเลี่ยงการ maintain attention kernel แยกต่างหากสำหรับแต่ละแพลตฟอร์ม GPU โดยอ้างว่ามีประสิทธิภาพเทียบเท่า SOTA บน H100 และเร็วขึ้น ~5.8 เท่าบน MI300 เทียบกับ implementation ก่อนหน้า

ไฮไลท์ทางเทคนิค: Q-blocks, tiled softmax สำหรับ decode, persistent kernels เพื่อความเข้ากันได้กับ CUDA graph และ cross-platform benchmarking ตอนนี้เป็น default บน ROCm และพร้อมใช้บน NVIDIA/Intel

vLLM v0.17.0 มาพร้อม FlashAttention 4, Qwen3.5 และ Weight Offloading V2

vLLM v0.17.0 มีฟีเจอร์สำคัญ:

FlashAttention 4 — การผสานรวมกับ attention backend ใหม่
Qwen3.5 with GDN — รองรับ Gated Delta Networks
Model Runner V2 — pipeline parallel, decode context parallel, Eagle3 + CUDA graphs
Performance mode flag — ตั้งค่า optimization ใหม่
Weight Offloading V2 — รองรับ elastic expert parallelism
Direct loading — โหลด quantized LoRA adapters ได้โดยตรง
อัปเดต kernel/hardware ครอบคลุม NVIDIA SM100/120, AMD ROCm, Intel XPU และ CPU backends

Meta เปิดตัว KernelAgent: Multi-Agent เร่งความเร็ว Triton Kernel 2 เท่า ด้วย GPU Signals

ทีม PyTorch เผยแพร่ KernelAgent — ซึ่งเป็นขั้นตอนการทำงานแบบ closed-loop multi-agent ที่ใช้ GPU performance signals เป็นตัวนำทางในการ optimize Triton kernel รายงานว่าเร็วขึ้น 2.02 เท่าเทียบกับเวอร์ชันที่เน้น correctness, เร็วกว่า torch.compile แบบปกติ 1.56 เท่า และมี 88.7% roofline ประสิทธิภาพบน H100 — โดยเปิด code และ artifacts เป็นโอเพนซอร์ส

GPU MODE ประกาศการแข่งขัน kernel optimization มูลค่า $1.1M ซึ่งสนับสนุนโดย AMD สำหรับ MI355X โดยมุ่งเน้นการ optimize DeepSeek-R1-0528 และ GPT-OSS-120B

Microsoft เปิดตัว Phi-4-Reasoning-Vision-15B: โมเดลเล็กแต่ทรงพลังสำหรับ Practical Agents

Microsoft เปิดตัว Phi-4-reasoning-vision-15B เป็นโมเดล multimodal reasoning ขนาด 15B (text+vision) ซึ่งวางตำแหน่งให้เป็น "จุดสมดุล" สำหรับ practical agents ในกรณีที่ไม่จำเป็นต้องใช้โมเดลระดับแนวหน้า

Databricks ใช้ RL + Synthetic Data สร้างโมเดลเฉพาะทางที่ชนะ Claude 4.6 และ GPT-5.2

Matei Zaharia จาก Databricks อธิบายสูตร: สร้าง synthetic data → ใช้ efficient large-batch off-policy RL (OAPL) → สร้างข้อมูลที่ยากขึ้นด้วยโมเดลที่อัปเดตแล้ว → ได้โมเดลเฉพาะทางที่เล็กลง

KARL ของ Databricks อ้างว่าชนะ Claude 4.6 และ GPT-5.2 ใน enterprise knowledge tasks โดยมีต้นทุนต่ำกว่า ~33% และ latency ต่ำกว่า ~47% — โดย RL เรียนรู้ที่จะค้นหาอย่างมีประสิทธิภาพมากขึ้น (หยุดเร็วขึ้น, query ที่สูญเปล่าน้อยลง)

เทคนิคใหม่: Replay Pretraining Data ลดลืม, Doc-to-LoRA เพื่อ Continual Learning

ประสิทธิภาพข้อมูล Fine-tuning: Suhas Kotha รายงานว่าการ replay generic pretraining data ระหว่าง finetuning สามารถลด forgetting และปรับปรุง performance ในโดเมน finetuning ได้ เมื่อข้อมูล finetuning มีน้อย (ร่วมกับ Percy Liang)

Sakana "Doc-to-LoRA / Text-to-LoRA": เป็นแนวทาง continual learning ที่ใช้ hypernetwork สร้าง LoRA adapters จากเอกสารหรือ task description ใน runtime (one forward pass) ทำให้สามารถอัปเดต memory/skill ได้โดยไม่ต้องทำ full finetuning

สรุปข่าว AI ประจำวันที่ 5-6 มีนาคม 2569 ตรวจสอบ 12 subreddits, 544 ทวิตเตอร์ และ 24 Discords (264 แชนเนล, 13,382 ข้อความ) ประหยัดเวลาอ่านโดยประมาณ (ที่ 200wpm): 1,311 นาที