Dòng tin
Bản tin hôm nay
🤖 Bản tin AI Hằng ngày: Cân bằng giữa Đột phá và Kiểm soát
Thứ Ba 16 Th6, 2026 · 94 nội dung
⚖️ Chính sách & Tranh luận
- ›Chuyên gia Simon Willison chỉ trích lệnh cấm xuất khẩu mô hình Fable có thể gây hại cho phòng thủ mạng, trong khi Clement Delangue nhấn mạnh mã nguồn mở là chìa khóa để doanh nghiệp không bị "khóa chặt" vào các nhà cung cấp độc quyền.
🧬 Đột phá Công nghệ & Mô hình Mới
- ›Radical Numerics gọi vốn 50 triệu USD ra mắt mô hình ngôn ngữ hệ gen Omnii, trong khi Cartesia tung ra Sonic-3.5 với chất lượng giọng nói khó phân biệt với người thật, đặt ra thách thức lớn cho các tổng đài truyền thống.
💻 Tư duy Lập trình & AI Agents
- ›swyx dự đoán quy trình review code truyền thống sẽ biến mất vào năm 2026, thay vào đó là sự lên ngôi của các "harness" (khung làm việc) thông minh. Bài học rút ra: Đừng chỉ dùng API trần, hãy học cách xây dựng hệ thống bao bọc (scaffolding) để tối ưu hóa sức mạnh thực sự của mô hình.
🌍 Tầm nhìn Tương lai & Đạo đức
- ›Fei-Fei Li nhấn mạnh tương lai AI phải dựa trên quyền tự chủ và sự thấu hiểu của con người qua các "world models". Đồng thời, François Chollet cảnh báo rằng thiếu các benchmark tiêu chuẩn hóa sẽ khiến ngành AI dễ bị tổn thương trước các quy định tùy tiện của chính phủ.
Tất cả
Từ Tưởng Tượng Đến Hành Động: Sự Trỗi Dậy của World-Action Models
- ›Vision-Language-Action (VLA) models là các robot policies bắt đầu từ backbone VLM (Vision-Language Model) được pre-train
- ›VLA được điều chỉnh để tạo ra các hành động từ quan sát hình ảnh và hướng dẫn ngôn ngữ tự nhiên
- ›Pretraining quy mô lớn của VLM là phần cốt lõi của công thức thành công cho VLA
- ›Các mô hình cụ thể được nhắc đến bao gồm Pi-0 và GR00T N1 làm ví dụ về VLA/WAM tiên tiến
- ›World-Action Models (WAM) là loại policies bắt đầu từ pre-trained world-models hoặc video models
- ›Xu hướng này đại diện cho sự kết hợp pretraining-then-fine-tune để tạo ra các robot agents có khả năng cao hơn
Mô hình hành động hình học cho học chính sách robot
- ›Các chính sách robot đa năng cần suy luận về tương tác 3D giữa vật thể, camera và robot, nhưng các mô hình VLA và WAM hiện tại hoạt động chủ yếu trên khung hình 2D hoặc không gian tiềm ẩn 2D, bỏ qua hình học 3D cần thiết cho thao tác tiếp xúc.
- ›Geometric Action Model (GAM) là chính sách thao tác điều kiện ngôn ngữ, tái sử dụng trực tiếp một mô hình nền tảng hình học (GFM) đã được huấn luyện trước làm chất nền chung cho nhận thức, dự đoán thời gian và giải mã hành động.
- ›GAM chia GFM tại một lớp trung gian: các lớp nông làm bộ mã hóa quan sát, một bộ dự đoán tương lai nhân quả được chèn tại điểm chia để dự đoán các token tương lai dựa trên ngôn ngữ, cảm giác bản thể và lịch sử hành động.
- ›Các token tương lai được dự đoán sau đó được đưa qua các khối GFM còn lại để truyền đặc trưng và giải mã, cho phép một backbone duy nhất tạo ra cả hình học và hành động trong tương lai.
- ›Thiết kế này trang bị cho GFM khả năng mô hình hóa thế giới tạm thời có điều kiện ngôn ngữ với sự thay đổi kiến trúc tối thiểu, đồng thời bảo toàn các tiên nghiệm hình học phong phú.
- ›Trên nhiều benchmark mô phỏng và robot thực, GAM chính xác hơn, mạnh mẽ hơn, nhanh hơn và nhẹ hơn so với các baseline quy mô foundation model hiện tại.