Dòng tin
Bản tin hôm nay
Thứ Bảy 13 Th6, 2026 · 294 nội dung
Điều Quan Trọng Nhất Hôm Nay
- ›Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.
Tất cả
InterleaveThinker: Tăng Cường Sinh Hình Xen Kẽ Cho Các Agent AI
- ›InterleaveThinker giải quyết hạn chế của các bộ sinh ảnh hiện đại không thể tạo ra các chuỗi ảnh-text xen kẽ một cách liền mạch và có logic.
- ›Pipeline đa agent đầu tiên trang bị khả năng sinh xen kẽ cho bất kỳ bộ sinh ảnh nào, sử dụng planner agent để tổ chức chuỗi sinh thành và critic agent để đánh giá chất lượng outputs.
- ›Xây dựng ba bộ dữ liệu SFT chuyên biệt: Interleave-Planner-SFT-80k, Interleave-Critic-SFT-112k, và Interleave-Critic-RL-13k để huấn luyện các thành phần chủ chốt.
- ›Áp dụng GRPO (Generative Policy Reward Optimization) để tăng cường khả năng sửa lỗi từng bước, kết hợp reward chính xác (exact) và step-wise reward để tối ưu hóa toàn bộ trajectory.
- ›Đạt hiệu năng ngang với Nano Banana và GPT-5 trên các benchmark sinh ảnh-text xen kẽ, đồng thời cải thiện đáng kể trên các benchmark suy luận phức tạp.
SWITCH: Suy Luận Tiềm Ẩn Có Thể Chuyển Đổi với Reinforcement Learning On-Policy
- ›Latent chain-of-thought nén suy luận bằng thay thế trace suy luận hiển thị bằng hidden-state recurrence liên tục, nhưng khó tối ưu hóa với standard on-policy RL và khó diễn giải nhân quả
- ›Đề xuất SWITCH, framework suy luận tiềm ẩn có thể chuyển đổi, sử dụng một cặp explicit boundary tokens <swi> (vào) và </swi> (thoát) để giải quyết cả hai vấn đề
- ›Các token ranh giới là discrete tokens thông thường, làm GRPO policy ratio được xác định tốt ở mọi decision point; cũng cung cấp foothold tự nhiên cho mechanistic analysis
- ›Huấn luyện với visible-to-latent curriculum và Switch-GRPO objective truyền gradient qua recurrent latent computation
- ›SWITCH vượt trội hơn các prior hidden-state-recurrence latent reasoning approaches ở quy mô tương tự
- ›Mechanistic analysis tiết lộ: (i) <swi> là learned switching policy tập trung cục bộ, (ii) latent step thực hiện problem-specific causally-important computation, (iii) tính toán tập trung ở single hidden-state transition trên entry
MaxProof: Tỷ Lệ Hóa Chứng Minh Toán Học Bằng Generative Verifier RL Và Test-Time Scaling Cấp Quần Thể
- ›MaxProof là framework test-time scaling chuyên dụng cho bài toán chứng minh toán cấp thi (IMO, USAMO), khác biệt với các cách tiếp cận truyền thống.
- ›Giai đoạn huấn luyện kết hợp ba khả năng: sinh chứng minh (generation), xác minh (verification), và sửa có điều kiện (conditional refinement), sử dụng generative verifier có tỷ lệ false-positive thấp.
- ›Tích hợp ba khả năng này thành một model M3 đơn nhất có thể hoạt động như generator, verifier, refiner, và ranker trong quá trình inference.
- ›Test-time strategy sử dụng tìm kiếm trên quần thể (population search) các chứng minh ứng viên kết hợp tournament selection để lựa chọn đáp án tốt nhất.
- ›Đạt kết quả ngoạn mục: 35/42 câu hỏi IMO 2025 và 36/42 câu hỏi USAMO 2026, vượt qua ngưỡng huy chương vàng (top 8 contestants) trên cả hai kỳ thi.
Bài báo MAI-Thinking-1 của Microsoft: "Xây dựng Máy Leo Đồi"
- ›Microsoft công bố toàn bộ thông tin chi tiết về huấn luyện mô hình biên giới, bao gồm siêu tham số (hparams)
Verifiable Environments Là LEGO Bricks: Recursive Composition Cho Reasoning Generalization
- ›Reinforcement Learning với verifiable environments là powerful approach để enhance reasoning capabilities của Large Language Models, mặc dù scaling environment quantity cải thiện RL performance
- ›Các phương pháp xây dựng manual hoặc individual gặp linear scaling limits, cản trở reasoning generalization ở quy mô lớn
- ›Giới thiệu RACES (Recursive Automated Composition for Environment Scaling): conceptualize verifiable environments như composable building blocks có thể recursive assemble thành các environments mới
- ›Key insight: khi codomain (output type) của environment này match domain (input type) của environment khác, chúng có thể tự động fuse thành verifiable environment mới, cho phép recursive composition
- ›RACES implement với 300 individual environments và định nghĩa composition operators (SEQUENTIAL, PARALLEL, SORT, SELECT) tạo diverse reasoning patterns
- ›DeepSeek-R1-Distill-Qwen-14B: cải thiện trung bình 3.1 points (48.2→51.3); Qwen3-14B: tăng từ 58.8→61.1 trên 6 benchmarks unseen during construction
- ›RACES đạt performance tương đương training 300 individual environments nhưng chỉ dùng 50 base environments, chứng tỏ hiệu quả đáng kể trong environment utilization
Tự-Chưỡng Mô Hình Thế Giới: Huấn Luyện Mô Hình Thế Giới Giải Quyết Các Nhiệm Vụ Tổng Quát
- ›Video generators được pretrain có khả năng giải quyết nhiệm vụ nổi lên, nhưng phụ thuộc vào mô tả text chi tiết hạn chế khả năng sử dụng trực tiếp cho planning và decision-making.
- ›Đề xuất khung kết hợp self-distillation với reinforcement learning: VLM sinh candidate task và step-by-step solution từ scene image; video diffusion model Demonstrator được điều kiện bởi solution.
- ›Executor được chưỡng chỉ từ image và short task prompt, chuyển giao knowledge từ caption-guided generation sang instruction-conditioned task solving mà không cần curated task-video supervision.
- ›Cải thiện Executor với RL từ VLM feedback, tận dụng asymmetry: đánh giá video thỏa task dễ hơn generate solution.
- ›Trên WorldTasks-Benchmark và DreamGen robotics benchmark, Executor vượt Demonstrator theo VLM-based evaluation protocol, transfer tốt tới robotic tasks.
Cộng Đồng Mã Nguồn Mở Ủng Hộ OpenEnv cho Học Tăng Cường Agent
- ›OpenEnv nhận được sự ủng hộ mạnh mẽ từ cộng đồng phát triển mã nguồn mở
- ›Nền tảng tập trung vào Reinforcement Learning (học tăng cường) dành cho huấn luyện agent AI
- ›Cung cấp môi trường mô phỏng để phát triển và kiểm thử agent tương tác