AI Expert Hub — Học từ các chuyên gia AI hàng đầu

Điều Quan Trọng Nhất Hôm Nay

Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.

Gemini 3.5 & Google I/O 2026: Thế Hệ Agent

Google công bố Gemini 3.5 kết hợp trí tuệ tiên tiến với khả năng hành động thực tế. Gemini Omni Flash còn đạt #1 trên Video Arena với tỷ lệ sinh tạo video ấn tượng. Google tổng hợp 100 công bố từ I/O 2026 bao gồm tìm kiếm AI, Workspace AI, và Beam cho cuộc họp hybrid chân thực hơn.

ChatGPT Memory: Nhớ Lâu Dài, Thích Nghi Thay Đổi

OpenAI triển khai hệ thống nhớ mới giúp ChatGPT ghi nhớ ưu tiên, thói quen và điều kiện của người dùng xuyên nhiều cuộc trò chuyện. Dung lượng gấp đôi với khả năng tự động theo dõi chi tiết quan trọng, mở ra cách sử dụng AI cá nhân hóa chưa từng có.

Anthropic Bị Lệnh Kiểm Soát Xuất Khẩu: Fable 5 & Mythos 5 Tạm Ngừng

Anthropic phải vô hiệu hóa Fable 5 và Mythos 5 cho tất cả người dùng nước ngoài theo lệnh kiểm soát xuất khẩu Mỹ về an ninh quốc gia. Sự cố này nhấn mạnh rằng AI tiên tiến đang trở thành vấn đề địa geopolitical, không chỉ công nghệ.

Agent Era: Kỷ Nguyên Khi AI Tự Làm Việc

Loopcraft — nghệ thuật xếp chồng các vòng lặp hiệu quả là game mới của thế kỷ tiếp theo. Thay vì prompt trực tiếp, các chuyên gia khuyên thiết kế các vòng lặp tự động hóa toàn bộ, loại bỏ con người khỏi vòng lặp để tối đa leverage. Google, Anthropic, và OpenAI đều tập trung vào agents có khả năng hoàn thành tác vụ phức tạp mà không cần can thiệp từng bước.

MiniMax M3 & Open Source Bắt Kịp

MiniMax M3 từ MiniMax AI — 428B tham số với 23B kích hoạt — đạt hiệu suất frontier (SWE-Bench Pro 59%, Terminal Bench 2.1 66%) với mã mở. Kimi-K2.7-Code từ Moonshot AI cũng công khai trên Hugging Face. Open source models đang cạnh tranh sâu sắc với closed models về hiệu năng, mở ra cơ hội deploy on-device an toàn hơn.

Codex & Agents: Công Cụ Phát Triển Tiếp Theo

OpenAI mở rộng Codex với 62 ứng dụng và 110 kỹ năng cho phép agents hoạt động như chuyên gia từng lĩnh vực chỉ sau một lần cài đặt. Nextdoor sử dụng Codex để debug vấn đề khó tái tạo, giúp kỹ sư tập trung vào mục tiêu sản phẩm thay vì công việc lặp lại.

Vision-Language-Action: Robot Thực Sự Sắp Tới

Reachy Mini trò chuyện giọng nói thời gian thực qua Gemini Live hoặc chạy cục bộ với Gemma 4 không cần internet. LabVLA mở đường cho VLA models tự động hóa phòng thí nghiệm khoa học, chứng minh robot AI sắp vượt khỏi tabletop demonstrations.

Chính Sách & Điều Chỉnh: AI Không Còn Là Riêng Tư

Anthropic đề xuất khung chính sách kinh tế cho AI tiên tiến cùng quỹ đánh giá 200 triệu USD. OpenAI trình bày blueprint an toàn cho frontier AI tập trung vào quản trị dân chủ. Các chính phủ bắt đầu kiểm soát, buộc các công ty phải suy nghĩ về an toàn từ sớm.

Huấn Luyện Nhanh Hơn: NVIDIA Vera CPU & Rubin

NVIDIA công bố Vera CPU để tối ưu cho agentic workloads trong AI factories. Rubin GPU giảm chi phí token xuống 1/10 so với Blackwell. Cơ sở hạ tầng AI mới được thiết kế toàn vẹn cho thế giới agents chạy lâu dài, không chỉ inference tĩnh.

Text-to-SQL Vẫn Là Thách Thức Thực

Text-to-SQL không phải bài toán đã giải quyết — dữ liệu thực tế quá phức tạp, custom models vẫn vượt trội. Google Gemini-SQL2 đạt SOTA trên benchmark BIRD khó. Bài học: những gì hoạt động trên benchmark quốc phòng có thể sụp đổ trên dữ liệu thực tế.

Memory Coherence Qua Thời Gian: Bài Toán Mới

EvoArena benchmark các agents trong môi trường động nơi terminal output, software, social feeds liên tục thay đổi. Agents hiện chỉ đạt 39.6% độ chính xác — họ gặp khó khăn giữ ngữ cảnh qua các cập nhật tiến hóa, dù có memory mechanisms.

Kinh Tế AI: Open Source Sắp Có Cuộc Chạy Thế Hệ

Command Code đạt 10K paying customers trong 30 ngày, tốt hơn 30% tuần/tuần. Doanh nghiệp enterprise tìm kiếm open models rẻ hơn nhưng vẫn thông minh — Ed Zitron cảnh báo Anthropic & OpenAI phụ thuộc API spending đang giảm. Open source sắp có "generational run" năm 2027.

Governance & Transparency: Benchmark Fallback Crisis

Vals AI thêm chức năng xem điểm Fable 5 khi tắt fallback Opus 4.8 để cung cấp transparency. Vấn đề cốt lõi: chỉ API providers biết chi tiết routing/fallback đằng sau, làm việc so sánh benchmark không công bằng. Cộng đồng eval cần tools mới cho thế giới models tổng hợp.

Bài học hôm nay: Agent AI là thực tế gần kề, không phải tương lai. Open source bắt kịp nhanh hơn dự kiến. Và hầu hết các thách thức còn lại không phải về mô hình — mà về infrastructure, governance, và cách thiết kế các vòng lặp tự động hiệu quả.