Dòng tin

2 nội dung mới nhất
Bản tin hôm nay

Thứ Bảy 13 Th6, 2026 · 294 nội dung
Điều Quan Trọng Nhất Hôm Nay
  • Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.
Tất cả
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·2 ngày trước
RepWAM: Mô hình hóa hành động thế giới với tokenizer hành động-hình ảnh đại diện
  • RepWAM là representation-centric world action model (WAM) dựa trên representation visual-action tokenizers để mô hình hóa động lực instruction-following của robot.
  • WAMs hiện tại thường dùng reconstruction-oriented video tokenizers từ pretrained video generation models, nhưng pixel reconstruction alone không đủ để hướng learning kết nối future prediction với robot control.
  • Giải pháp: semantic visual-action latent space — train representation visual-action tokenizer để map visual inputs thành aligned visual và latent action tokens, cho phép jointly model future visual states và latent actions dưới language instructions.
  • Sau khi pretrain, adapt WAM tới real robot trajectories cho closed-loop manipulation.
  • Experiments trên real-world manipulation tasks và simulation benchmarks cho thấy RepWAM đạt strong performance trên diverse manipulation settings; ablations highlight giá trị của semantic visual-action tokenization so với reconstruction-oriented alternatives.
  • Kết quả thiết lập semantic visual-action tokenization là promising foundation cho world action models và bước tiến hướng generalist robot policies.
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·3 ngày trước
Tự-Chưỡng Mô Hình Thế Giới: Huấn Luyện Mô Hình Thế Giới Giải Quyết Các Nhiệm Vụ Tổng Quát
  • Video generators được pretrain có khả năng giải quyết nhiệm vụ nổi lên, nhưng phụ thuộc vào mô tả text chi tiết hạn chế khả năng sử dụng trực tiếp cho planning và decision-making.
  • Đề xuất khung kết hợp self-distillation với reinforcement learning: VLM sinh candidate task và step-by-step solution từ scene image; video diffusion model Demonstrator được điều kiện bởi solution.
  • Executor được chưỡng chỉ từ image và short task prompt, chuyển giao knowledge từ caption-guided generation sang instruction-conditioned task solving mà không cần curated task-video supervision.
  • Cải thiện Executor với RL từ VLM feedback, tận dụng asymmetry: đánh giá video thỏa task dễ hơn generate solution.
  • Trên WorldTasks-Benchmark và DreamGen robotics benchmark, Executor vượt Demonstrator theo VLM-based evaluation protocol, transfer tốt tới robotic tasks.