Dòng tin

3 nội dung mới nhất

Tất cả

AK (_akhaliq)XBài đăng·3 ngày trước

Qwen-VLA: Thống nhất hóa mô hình Vision-Language-Action trên các nhiệm vụ, môi trường và robot

Qwen-VLA Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

›Qwen-VLA tích hợp thị giác, ngôn ngữ tự nhiên và hành động thành một mô hình duy nhất.

#Vision-Language #Robotics #Multimodal AI

AK (_akhaliq)HF PapersPaper·4 ngày trước

Hướng tới Nghiên cứu Sâu Đa phương tiện Có thể Xác minh: Khung Multi-Agent cho Tạo Báo cáo Xen kẽ

Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation

›Ptah là hệ thống multi-agent quản lý từ câu hỏi người dùng đến báo cáo web qua các giai đoạn planning, research, và writing.
›Các agent chuyên biệt xây dựng kế hoạch nhận thức hình ảnh, thu thập bằng chứng theo claim, duy trì Visual Working Memory, soạn thảo báo cáo multimodal.
›Agent verifier đóng vai trò acceptance function, thực thi kiểm chứng thực tế, tính trung thực trích dẫn, và tính nhất quán đa phương tiện.
›PtahEval mở rộng các benchmark hiện có với đánh giá cấp hình ảnh và cấp trình bày, tạo báo cáo đáng tin cậy hơn baseline.

#Multi-agent systems #Report generation #Multimodal AI #Fact verification

AK (_akhaliq)HF PapersPaper·6 ngày trước

PANDO: Tạo Tác nhân AI Đa phương tiện Hiệu quả thông qua Chưng cất Kỹ năng Trực tuyến

PANDO: Efficient Multimodal AI Agents via Online Skill Distillation

›Phân tích inefficiency trong web agents: repeat-action loops, hidden discovery costs, low prompt-cache reuse.
›PANDO duy trì Skill Library có cấu trúc với progress reflection, confidence-based skill demotion, hierarchical routing.
›Sử dụng visual compression và cache-aware prompting để giảm marginal token cost.
›Đạt 58.3% success rate với 58% ít token hơn SGV, không cần pre-evaluation discovery budget.

#Multimodal AI #Web Agents #Skill Learning #Efficiency

Xem thêm tin cũ hơn (1)

Bản tin hôm nay

Thứ Hai 1 Th6, 2026 · 408 nội dung

Điều Quan Trọng Nhất Hôm Nay

›Tuần này ghi nhận bước ngoặt lớn: Claude Opus 4.8 ra mắt với cải thiện đáng kể về độ tin cậy, Anthropic hoàn tất vòng huy động $65 tỷ USD - vòng tư nhân lớn gấp đôi bất kỳ IPO nào trong lịch sử, và Google liên tiếp công bố Gemini 3.5 Flash cùng Project Genie biến đổi không gian thực thành thế giới tương tác 3D.

Claude & Anthropic: Tiền Bạc Và Hiệu Suất

›Claude Opus 4.8 - Cải Tiến Mục Đích
›Phiên bản mới chứng minh hiệu suất xử lý logic vượt trội hơn 4 lần khi xử lý code, kém lỗi hơn và ít tự tin không có căn cứ. Hỗ trợ mid-conversation system messages để cập nhật hướng dẫn giữa cuộc hội thoại dài mà không mất cache prompt — bước tiến quan trọng cho agent dài hạn.

Gemini & Google: Ứng Dụng Thực Tế Lên Đầu Tiên

›Gemini 3.5 Flash — Tốc Độ 4× Với Giá Rẻ Hơn
›Nhanh hơn 4 lần các mô hình frontier khác (800 tokens/sec trên Antigravity), chi phí ít hơn nửa giá competitors. Vượt Gemini 3.1 Pro trên lập trình và tác vụ agentic. Google tăng gấp 3 rate limits cho tất cả tiers.

Chủ đề đang nổi

1#LLM78 2#Gemini17 3#Agent16 4#AI16 5#Anthropic13 6#Kiến trúc mô hình12 7#Thị giác máy tính10 8#Benchmark9