Tuần này chứng kiến cuộc "tỉnh giác" về hiệu quả — mô hình cục bộ đang đạt 71% độ chính xác trên các tác vụ thực tế, khiến ranh giới giữa frontier và open-source bị xóa nhòa. Đồng thời, kinh tế AI đang thay đổi căn bản: các công ty bắt đầu định tuyến prompts sang mô hình rẻ hơn, token bị trợ cấp nặng, và doanh thu đang dịch chuyển sang các nhà cung cấp suy luận mã nguồn mở. Kỳ vọng chính là tương lai sẽ là đa mô hình — chọn công cụ phù hợp cho từng tác vụ thay vì mặc định dùng frontier model.
Mô hình cục bộ & Kiến trúc đa mô hình
Nghiên cứu Stanford cho thấy mô hình cục bộ giải quyết 71.3% truy vấn thực tế chính xác, tăng từ 23.2% năm 2023. Chi phí năng lượng chỉ bằng một phần nhỏ frontier APIs. Chiến lược phù hợp: dùng mô hình nhỏ/rẻ cho 80% workload, chỉ gọi frontier model khi cần breakthrough — đó là tương lai.
Sụp đổ kinh tế theo mô hình hiện tại
Các gói subscription per-seat bị trợ cấp nặng, nhưng khi chuyển sang API, công ty tiêu credit nhanh gấp 3-4 lần (Uber đốt hết ngân sách 2026 trong 4 tháng). Mô hình rẻ thay thế tồn tại: DeepSeek V4 code tương đương Opus nhưng 1/30 giá; các lab Trung Quốc open-source frontier-grade models miễn phí. Doanh thu dịch sang OpenRouter ($113M), Baseten ($11B), Together — các inference providers dùng open-source models.
Định tuyến mô hình & tiết kiệm chi phí
Coinbase định tuyến prompts tới mô hình rẻ hơn tự động, duy trì chi phí ổn định khi token usage tăng theo cấp số nhân. Dự báo: 80% workload chuyển sang mô hình < 1% giá trong 12-18 tháng tới; 20% vẫn dùng frontier cho khoa học/agent orchestration. Yếu tố giới hạn sẽ là năng lượng & compute, không phải chất lượng.
Mô hình phủ nhận không gian — NVIDIA chiếm ngôi
NVIDIA giữ 9/30 mô hình top Hugging Face, dẫn đầu mã nguồn mở Mỹ. Nemotron-3 Ultra (550B hybrid Mamba-MoE, 55B active, 1M context) đạt MMLU 89.1, chứng tỏ hiệu quả scaling; Gemma-4 12B (dense any-to-any, 256k context) cho 140+ ngôn ngữ. Cả hai công bố tuần này cho thấy mã nguồn mở mỗi tuần tăng tốc nhanh hơn dự kiến.
FrontierCode & Benchmark thế hệ 3
FrontierCode thay thế SWEBench để đo "mã duy trì được" — hơn 50% SWEBench là code không thể merge. FrontierCode dựa 1000+ giờ kỹ sư xác thực, dùng 3000+ rubrics; Opus 4.8 chỉ 13.8% trên FC Diamond. Ba thế hệ benchmark: 2021 (Autocomplete), 2023 (Test Passing), 2026 (Maintainable Code). Opus tăng từ 41% lên 74% trên FC Extended trong 4 tháng cuối 2025 — "WTF happened in December" moment khi AI bước vào lớp abstraction mới.
Claude Code tròn 1 năm GA
Từ 2 phản ứng Slack ban đầu đến auto mode & routines. Routines có khả năng phát hiện/sửa bugs trước khi dev nhận ra. Đa số công việc coding giờ làm từ điện thoại thay laptop — công cụ này đã thay đổi quy trình làm việc thực sự.
Agent & Suy luận không gian
Agentic coding cần dynamic replanning khi công cụ thất bại — lỗi ngầm (implicit semantic) khiến mô hình over-trust output sai; không thể giải qua scaling model hoặc prompting mà cần strategy riêng. VLM thực hiện "visual imagination" qua world simulator để suy luận không gian — Astra cải Qwen3-VL từ 29.8% lên 38.8% trên MMSI-Bench; visual diversity trong benchmark là chìa khóa để đánh giá chính xác khả năng MLLMs.
Dữ liệu & Huấn luyện
Fewer data, better quality có thể vượt trội full dataset — LIMMT chứng tỏ 3% AMASS data chất lượng cao tốt hơn 100%; khả năng thực hiện vật lý, đa dạng, độ phức tạp là 3 chiều quyết định. AI agents bắt đầu sử dụng open-world resources để self-evolve — không cần target-task supervision, chỉ cần knowledge & verification anchors từ docs/repos/web.
Robotics & Thế giới vật lý
VLA-JEPA kết hợp JEPA world model để học action-relevant dynamics, fine-tune chỉ 13 ví dụ nhưng chạy real-time. AnchorWorld mô phỏng từ first-person view với tùy chỉnh tự-tiến hóa qua "anchor views" — bước tiến cho embodied AI.
Bài học từ các expert
Jack Clark (Anthropic): giữ lại thực hành sống không bị algorithm can thiệp — thể thao, nhạc, đọc sách, xây dựng tay — để sống có mục đích. Jeremy Howard: những người cải thiện kỹ năng qua AI sẽ hiếm quý; rủi ro là trở thành "forever B+" khi dựa toàn trên AI. Demis Hassabis dự báo thập kỷ tới sẽ là Phục Hưng khoa học — AI làm công cụ giúp nhà khoa học phát hiện điều mới.
IPO & Cấu trúc
Anthropic & OpenAI nộp S-1 bí mật với SEC. OpenAI sẽ rò rỉ nên công bố chủ động; chưa quyết định lịch IPO vì lợi thế ở tư nhân. Phản ánh cân nhắc: cạnh tranh mã nguồn mở đang nóng, margin doanh thu dương không chắc chắn — có thể IPO quá sớm sẽ bị định giá thấp.
Những mô hình & công cụ chốt
Nex-N2: mô hình agentic tích hợp coding, search, tool-use trong vòng lặp reasoning liên tục, adaptive thinking tự điều chỉnh độ sâu suy luận. Super: AI đầu tiên có apps riêng — schedule Uber, order groceries, dùng Computer-Use Cache giảm chi phí gần 0 cho repeatable tasks. Siri AI tại WWDC chạy Gemini tùy chỉnh trên Apple Private Cloud Compute — tích hợp sâu với hardware mà duy trì quyền riêng tư.
Nghe lại: Tuần này không phải "AI bị lật ngược" mà là "tỉnh dậy về hiệu quả". Mô hình nhỏ, kiên trì, rẻ sẽ nuôi quốc gia tài năng. Frontier model sẽ dành cho few shots đột phá — nhưng 80% sản xuất hàng ngày? Đó là công việc của mô hình nhân tạo phổ thông. Hôm nay là ngày đầu của tương lai đa mô hình.