Dòng tin

3 nội dung mới nhất
Tất cả
AK (_akhaliq)
AK (_akhaliq)XBài đăng·3 ngày trước
Qwen-VLA: Thống nhất hóa mô hình Vision-Language-Action trên các nhiệm vụ, môi trường và robot
Qwen-VLA Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments
  • Qwen-VLA tích hợp thị giác, ngôn ngữ tự nhiên và hành động thành một mô hình duy nhất.
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·4 ngày trước
Hướng tới Nghiên cứu Sâu Đa phương tiện Có thể Xác minh: Khung Multi-Agent cho Tạo Báo cáo Xen kẽ
Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation
  • Ptah là hệ thống multi-agent quản lý từ câu hỏi người dùng đến báo cáo web qua các giai đoạn planning, research, và writing.
  • Các agent chuyên biệt xây dựng kế hoạch nhận thức hình ảnh, thu thập bằng chứng theo claim, duy trì Visual Working Memory, soạn thảo báo cáo multimodal.
  • Agent verifier đóng vai trò acceptance function, thực thi kiểm chứng thực tế, tính trung thực trích dẫn, và tính nhất quán đa phương tiện.
  • PtahEval mở rộng các benchmark hiện có với đánh giá cấp hình ảnh và cấp trình bày, tạo báo cáo đáng tin cậy hơn baseline.
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·6 ngày trước
PANDO: Tạo Tác nhân AI Đa phương tiện Hiệu quả thông qua Chưng cất Kỹ năng Trực tuyến
PANDO: Efficient Multimodal AI Agents via Online Skill Distillation
  • Phân tích inefficiency trong web agents: repeat-action loops, hidden discovery costs, low prompt-cache reuse.
  • PANDO duy trì Skill Library có cấu trúc với progress reflection, confidence-based skill demotion, hierarchical routing.
  • Sử dụng visual compression và cache-aware prompting để giảm marginal token cost.
  • Đạt 58.3% success rate với 58% ít token hơn SGV, không cần pre-evaluation discovery budget.