Dòng tin

5 nội dung mới nhất
Bản tin hôm nay

Thứ Bảy 13 Th6, 2026 · 294 nội dung
Điều Quan Trọng Nhất Hôm Nay
  • Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.
Tất cả
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·2 ngày trước
HarnessBridge: Bộ điều khiển hai chiều có thể học được cho harness LLM agent
  • LLM agents ngày càng được triển khai cho long-horizon tasks, nhưng hiệu suất không chỉ phụ thuộc model capability và environment design mà còn phụ thuộc harness (giao diện agent-environment).
  • Harnesses hiện tại được manual engineered, khó scale khi trajectories dài và interactions phức tạp hơn; bài báo hỏi liệu harness có thể được generated bởi learnable plug-in module được train end-to-end.
  • HarnessBridge là lightweight learnable harness controller parameterize agent-environment interface thành bidirectional projection: observation projection (distill raw trajectories thành compact decision-relevant states) và action projection (convert proposed actions thành executable transitions hoặc trajectory-grounded rejections).
  • Train HarnessBridge trên harness supervision dataset qua unified instruction tuning.
  • Trên Terminal-Bench 2.0 và SWE-bench Verified: match hoặc surpass specialized harnesses trong khi substantially reduce token usage và trajectory length, đồng thời generalize từ smaller generators tới larger commercial models.
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·2 ngày trước
HYDRA-X: Các Mô Hình Đa Phương Thức Thống Nhất Gốc với Tokenizer Thị Giác Toàn Diện
  • HYDRA-X là mô hình đa phương thức thống nhất (UMM) đầu tiên hợp nhất tokenization ảnh và video trong một Vision Transformer (ViT) duy nhất
  • Giải quyết hai thách thức chính: tiêm hiệu quả khả năng tái cấu trúc không-thời gian vào ViT gốc và nhúng nhận thức ngữ nghĩa cấp ảnh/video vào không gian tiềm ẩn
  • Phát hiện rằng frame-level causal temporal attention đủ cho tái cấu trúc hình ảnh, còn full spatiotemporal attention làm giảm chất lượng; nén thời gian phân cấp vượt trội so với thay thế một bước
  • Đề xuất lightweight decompressor có giám sát chung ảnh-video để thực thi cấu trúc ngữ nghĩa bổ sung trong không gian tiềm ẩn compact
  • Cải thiện đường ống chỉnh sửa: tương tác nguồn-mục tiêu tại cấp tiềm ẩn bên trong tokenizer thay vì cấp ngữ nghĩa bên trong LLM
  • HYDRA-X (mô hình 7B) đạt hiệu suất mạnh trên các tác vụ hiểu và tạo ảnh/video, mở đường cho các UMM thứ hàng với tokenizer thống nhất
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·2 ngày trước
Giao tiếp tiềm ẩn dày đặc giữa các agent không đồng nhất qua KV-cache
  • Các hệ thống multi-agent hiện giao tiếp chủ yếu qua text, tạo chi phí encode/decode cao và mất mát thông tin
  • KV-cache communication là giải pháp có tiềm năng, nhưng hầu hết nghiên cứu trước đây chỉ xử lý các mô hình đồng nhất (giống hệt nhau)
  • Bài báo khám phá cách căn chỉnh các agent khác nhau để thực hiện "mind reading" thực sự - chuyển giao cả input và cách suy luận
  • Đề xuất phương pháp dense alignment qua lightweight cross-model cache transformation với training hai pha: reconstruction sau đó generation
  • Trên 6 biến thể Qwen3 (4B, 8B, 14B) và 6 benchmark in-domain/out-of-domain, phương pháp vượt trội hơn baseline, đạt hiệu suất text communication nhưng chỉ tốn 2-3 lần ít compute
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·2 ngày trước
TRACE: Biên dịch sửa lỗi người dùng thành thực thi runtime cho coding agents
  • Các interactive LLM agents không tự động trở nên dễ làm việc hơn: sửa lỗi trong một session còn bị vi phạm lại ở session tiếp theo
  • Mem0 memory vẫn để 57.5% preference checks applicable bị vi phạm
  • TRACE (Test-time Rule Acquisition and Compiled Enforcement) là pipeline skill-layer cho coding-agent runtimes, khai thác user corrections và biên dịch thành atomic rules với runtime checks bắt buộc
  • Khác với runtime checks viết trước bởi developers, TRACE skills đến từ chính các sửa lỗi của người dùng trong chat
  • Trên ClawArena: TRACE giảm preference violation từ 100% xuống 37.6% (in-distribution) và 2.0% (out-of-distribution)
  • Biên dịch corrections thành runtime enforcement giải quyết failure mode lặp lại mà memory đơn thuần không thể xử lý
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·2 ngày trước
MiniMax Sparse Attention: Xử Lý Ngữ Cảnh Siêu Dài Hiệu Quả cho LLM
  • Giới thiệu MiniMax Sparse Attention (MSA), cơ chế attention thưa theo khối dựa trên Grouped Query Attention (GQA) để xử lý ngữ cảnh 1M token
  • Index Branch nhẹ xác điểm key-value blocks và độc lập chọn Top-k subset cho mỗi GQA group; Main Branch thực hiện block-sparse attention chính xác trên blocks được chọn
  • Thiết kế đơn giản, dễ triển khai hiệu quả trên nhiều GPU; đồng thiết kế kernel GPU sử dụng exp-free Top-k selection và KV-outer sparse attention
  • Trên mô hình 109B tham số với native multimodal training: giảm per-token attention compute 28.4x ở ngữ cảnh 1M, đạt 14.2x tăng tốc prefill và 7.6x decoding trên H800
  • MiniMax-M3, mô hình natively multimodal production-grade sử dụng MSA, đã release công khai trên Hugging Face; inference kernel available trên GitHub