Dòng tin
Tất cả
Qwen-VLA: Thống nhất hóa mô hình Vision-Language-Action trên các nhiệm vụ, môi trường và robot
Qwen-VLA
Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments
- ›Qwen-VLA tích hợp thị giác, ngôn ngữ tự nhiên và hành động thành một mô hình duy nhất.
Hướng tới Nghiên cứu Sâu Đa phương tiện Có thể Xác minh: Khung Multi-Agent cho Tạo Báo cáo Xen kẽ
Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation
- ›Ptah là hệ thống multi-agent quản lý từ câu hỏi người dùng đến báo cáo web qua các giai đoạn planning, research, và writing.
- ›Các agent chuyên biệt xây dựng kế hoạch nhận thức hình ảnh, thu thập bằng chứng theo claim, duy trì Visual Working Memory, soạn thảo báo cáo multimodal.
- ›Agent verifier đóng vai trò acceptance function, thực thi kiểm chứng thực tế, tính trung thực trích dẫn, và tính nhất quán đa phương tiện.
- ›PtahEval mở rộng các benchmark hiện có với đánh giá cấp hình ảnh và cấp trình bày, tạo báo cáo đáng tin cậy hơn baseline.
PANDO: Tạo Tác nhân AI Đa phương tiện Hiệu quả thông qua Chưng cất Kỹ năng Trực tuyến
PANDO: Efficient Multimodal AI Agents via Online Skill Distillation
- ›Phân tích inefficiency trong web agents: repeat-action loops, hidden discovery costs, low prompt-cache reuse.
- ›PANDO duy trì Skill Library có cấu trúc với progress reflection, confidence-based skill demotion, hierarchical routing.
- ›Sử dụng visual compression và cache-aware prompting để giảm marginal token cost.
- ›Đạt 58.3% success rate với 58% ít token hơn SGV, không cần pre-evaluation discovery budget.