Dòng tin

7 nội dung mới nhất

Bản tin hôm nay

Thứ Bảy 13 Th6, 2026 · 294 nội dung

Điều Quan Trọng Nhất Hôm Nay

›Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.

Tất cả

AK (_akhaliq)HF PapersPaper·2 ngày trước

›InterleaveThinker giải quyết hạn chế của các bộ sinh ảnh hiện đại không thể tạo ra các chuỗi ảnh-text xen kẽ một cách liền mạch và có logic.
›Pipeline đa agent đầu tiên trang bị khả năng sinh xen kẽ cho bất kỳ bộ sinh ảnh nào, sử dụng planner agent để tổ chức chuỗi sinh thành và critic agent để đánh giá chất lượng outputs.
›Xây dựng ba bộ dữ liệu SFT chuyên biệt: Interleave-Planner-SFT-80k, Interleave-Critic-SFT-112k, và Interleave-Critic-RL-13k để huấn luyện các thành phần chủ chốt.
›Áp dụng GRPO (Generative Policy Reward Optimization) để tăng cường khả năng sửa lỗi từng bước, kết hợp reward chính xác (exact) và step-wise reward để tối ưu hóa toàn bộ trajectory.
›Đạt hiệu năng ngang với Nano Banana và GPT-5 trên các benchmark sinh ảnh-text xen kẽ, đồng thời cải thiện đáng kể trên các benchmark suy luận phức tạp.

AK (_akhaliq)HF PapersPaper·2 ngày trước

›Latent chain-of-thought nén suy luận bằng thay thế trace suy luận hiển thị bằng hidden-state recurrence liên tục, nhưng khó tối ưu hóa với standard on-policy RL và khó diễn giải nhân quả
›Đề xuất SWITCH, framework suy luận tiềm ẩn có thể chuyển đổi, sử dụng một cặp explicit boundary tokens <swi> (vào) và </swi> (thoát) để giải quyết cả hai vấn đề
›Các token ranh giới là discrete tokens thông thường, làm GRPO policy ratio được xác định tốt ở mọi decision point; cũng cung cấp foothold tự nhiên cho mechanistic analysis
›Huấn luyện với visible-to-latent curriculum và Switch-GRPO objective truyền gradient qua recurrent latent computation
›SWITCH vượt trội hơn các prior hidden-state-recurrence latent reasoning approaches ở quy mô tương tự
›Mechanistic analysis tiết lộ: (i) <swi> là learned switching policy tập trung cục bộ, (ii) latent step thực hiện problem-specific causally-important computation, (iii) tính toán tập trung ở single hidden-state transition trên entry

AK (_akhaliq)HF PapersPaper·2 ngày trước

›MaxProof là framework test-time scaling chuyên dụng cho bài toán chứng minh toán cấp thi (IMO, USAMO), khác biệt với các cách tiếp cận truyền thống.
›Giai đoạn huấn luyện kết hợp ba khả năng: sinh chứng minh (generation), xác minh (verification), và sửa có điều kiện (conditional refinement), sử dụng generative verifier có tỷ lệ false-positive thấp.
›Tích hợp ba khả năng này thành một model M3 đơn nhất có thể hoạt động như generator, verifier, refiner, và ranker trong quá trình inference.
›Test-time strategy sử dụng tìm kiếm trên quần thể (population search) các chứng minh ứng viên kết hợp tournament selection để lựa chọn đáp án tốt nhất.
›Đạt kết quả ngoạn mục: 35/42 câu hỏi IMO 2025 và 36/42 câu hỏi USAMO 2026, vượt qua ngưỡng huy chương vàng (top 8 contestants) trên cả hai kỳ thi.

Yann LeCunXBài đăng·3 ngày trước

›Microsoft công bố toàn bộ thông tin chi tiết về huấn luyện mô hình biên giới, bao gồm siêu tham số (hparams)

AK (_akhaliq)HF PapersPaper·3 ngày trước

›Reinforcement Learning với verifiable environments là powerful approach để enhance reasoning capabilities của Large Language Models, mặc dù scaling environment quantity cải thiện RL performance
›Các phương pháp xây dựng manual hoặc individual gặp linear scaling limits, cản trở reasoning generalization ở quy mô lớn
›Giới thiệu RACES (Recursive Automated Composition for Environment Scaling): conceptualize verifiable environments như composable building blocks có thể recursive assemble thành các environments mới
›Key insight: khi codomain (output type) của environment này match domain (input type) của environment khác, chúng có thể tự động fuse thành verifiable environment mới, cho phép recursive composition
›RACES implement với 300 individual environments và định nghĩa composition operators (SEQUENTIAL, PARALLEL, SORT, SELECT) tạo diverse reasoning patterns
›DeepSeek-R1-Distill-Qwen-14B: cải thiện trung bình 3.1 points (48.2→51.3); Qwen3-14B: tăng từ 58.8→61.1 trên 6 benchmarks unseen during construction
›RACES đạt performance tương đương training 300 individual environments nhưng chỉ dùng 50 base environments, chứng tỏ hiệu quả đáng kể trong environment utilization

AK (_akhaliq)HF PapersPaper·3 ngày trước

›Video generators được pretrain có khả năng giải quyết nhiệm vụ nổi lên, nhưng phụ thuộc vào mô tả text chi tiết hạn chế khả năng sử dụng trực tiếp cho planning và decision-making.
›Đề xuất khung kết hợp self-distillation với reinforcement learning: VLM sinh candidate task và step-by-step solution từ scene image; video diffusion model Demonstrator được điều kiện bởi solution.
›Executor được chưỡng chỉ từ image và short task prompt, chuyển giao knowledge từ caption-guided generation sang instruction-conditioned task solving mà không cần curated task-video supervision.
›Cải thiện Executor với RL từ VLM feedback, tận dụng asymmetry: đánh giá video thỏa task dễ hơn generate solution.
›Trên WorldTasks-Benchmark và DreamGen robotics benchmark, Executor vượt Demonstrator theo VLM-based evaluation protocol, transfer tốt tới robotic tasks.

Hugging FaceBlogBài viết·5 ngày trước

›OpenEnv nhận được sự ủng hộ mạnh mẽ từ cộng đồng phát triển mã nguồn mở
›Nền tảng tập trung vào Reinforcement Learning (học tăng cường) dành cho huấn luyện agent AI
›Cung cấp môi trường mô phỏng để phát triển và kiểm thử agent tương tác