Dòng tin

5 nội dung mới nhất

Bản tin hôm nay

Thứ Bảy 13 Th6, 2026 · 294 nội dung

Điều Quan Trọng Nhất Hôm Nay

›Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.

Tất cả

AK (_akhaliq)HF PapersPaper·2 ngày trước

›LLM agents ngày càng được triển khai cho long-horizon tasks, nhưng hiệu suất không chỉ phụ thuộc model capability và environment design mà còn phụ thuộc harness (giao diện agent-environment).
›Harnesses hiện tại được manual engineered, khó scale khi trajectories dài và interactions phức tạp hơn; bài báo hỏi liệu harness có thể được generated bởi learnable plug-in module được train end-to-end.
›HarnessBridge là lightweight learnable harness controller parameterize agent-environment interface thành bidirectional projection: observation projection (distill raw trajectories thành compact decision-relevant states) và action projection (convert proposed actions thành executable transitions hoặc trajectory-grounded rejections).
›Train HarnessBridge trên harness supervision dataset qua unified instruction tuning.
›Trên Terminal-Bench 2.0 và SWE-bench Verified: match hoặc surpass specialized harnesses trong khi substantially reduce token usage và trajectory length, đồng thời generalize từ smaller generators tới larger commercial models.

AK (_akhaliq)HF PapersPaper·2 ngày trước

›HYDRA-X là mô hình đa phương thức thống nhất (UMM) đầu tiên hợp nhất tokenization ảnh và video trong một Vision Transformer (ViT) duy nhất
›Giải quyết hai thách thức chính: tiêm hiệu quả khả năng tái cấu trúc không-thời gian vào ViT gốc và nhúng nhận thức ngữ nghĩa cấp ảnh/video vào không gian tiềm ẩn
›Phát hiện rằng frame-level causal temporal attention đủ cho tái cấu trúc hình ảnh, còn full spatiotemporal attention làm giảm chất lượng; nén thời gian phân cấp vượt trội so với thay thế một bước
›Đề xuất lightweight decompressor có giám sát chung ảnh-video để thực thi cấu trúc ngữ nghĩa bổ sung trong không gian tiềm ẩn compact
›Cải thiện đường ống chỉnh sửa: tương tác nguồn-mục tiêu tại cấp tiềm ẩn bên trong tokenizer thay vì cấp ngữ nghĩa bên trong LLM
›HYDRA-X (mô hình 7B) đạt hiệu suất mạnh trên các tác vụ hiểu và tạo ảnh/video, mở đường cho các UMM thứ hàng với tokenizer thống nhất

AK (_akhaliq)HF PapersPaper·2 ngày trước

›Các hệ thống multi-agent hiện giao tiếp chủ yếu qua text, tạo chi phí encode/decode cao và mất mát thông tin
›KV-cache communication là giải pháp có tiềm năng, nhưng hầu hết nghiên cứu trước đây chỉ xử lý các mô hình đồng nhất (giống hệt nhau)
›Bài báo khám phá cách căn chỉnh các agent khác nhau để thực hiện "mind reading" thực sự - chuyển giao cả input và cách suy luận
›Đề xuất phương pháp dense alignment qua lightweight cross-model cache transformation với training hai pha: reconstruction sau đó generation
›Trên 6 biến thể Qwen3 (4B, 8B, 14B) và 6 benchmark in-domain/out-of-domain, phương pháp vượt trội hơn baseline, đạt hiệu suất text communication nhưng chỉ tốn 2-3 lần ít compute

AK (_akhaliq)HF PapersPaper·2 ngày trước

›Các interactive LLM agents không tự động trở nên dễ làm việc hơn: sửa lỗi trong một session còn bị vi phạm lại ở session tiếp theo
›Mem0 memory vẫn để 57.5% preference checks applicable bị vi phạm
›TRACE (Test-time Rule Acquisition and Compiled Enforcement) là pipeline skill-layer cho coding-agent runtimes, khai thác user corrections và biên dịch thành atomic rules với runtime checks bắt buộc
›Khác với runtime checks viết trước bởi developers, TRACE skills đến từ chính các sửa lỗi của người dùng trong chat
›Trên ClawArena: TRACE giảm preference violation từ 100% xuống 37.6% (in-distribution) và 2.0% (out-of-distribution)
›Biên dịch corrections thành runtime enforcement giải quyết failure mode lặp lại mà memory đơn thuần không thể xử lý

AK (_akhaliq)HF PapersPaper·2 ngày trước

›Giới thiệu MiniMax Sparse Attention (MSA), cơ chế attention thưa theo khối dựa trên Grouped Query Attention (GQA) để xử lý ngữ cảnh 1M token
›Index Branch nhẹ xác điểm key-value blocks và độc lập chọn Top-k subset cho mỗi GQA group; Main Branch thực hiện block-sparse attention chính xác trên blocks được chọn
›Thiết kế đơn giản, dễ triển khai hiệu quả trên nhiều GPU; đồng thiết kế kernel GPU sử dụng exp-free Top-k selection và KV-outer sparse attention
›Trên mô hình 109B tham số với native multimodal training: giảm per-token attention compute 28.4x ở ngữ cảnh 1M, đạt 14.2x tăng tốc prefill và 7.6x decoding trên H800
›MiniMax-M3, mô hình natively multimodal production-grade sử dụng MSA, đã release công khai trên Hugging Face; inference kernel available trên GitHub