Dòng tin
Mới hôm nay
Biên giới Hiệu quả: Tối ưu quản lý ngữ cảnh cho agent
RT by @dair_ai: // The Efficiency Frontier //
Cool paper on context management.
As agents reuse the same documents and histories across many turns, the cheapest context strategy is not fixed. This work describes a principled rule for picking one per deployment instead of defaulting to whatever topped a benchmark in isolation.
Retrieval and compression methods are almost always benchmarked on accuracy and cost separately, so you never learn when one actually beats another under real load.
The Efficiency Frontier models context strategy selection as a single cost-performance problem, with a log-utility term for diminishing returns from extra context and a reuse parameter N that amortizes preprocessing across repeated queries.
Sweep N and the optimal strategy changes, exposing crossover regions where retrieval, compression, or full context each wins. On 5,000 HotpotQA instances, deployment-aware selection cuts effective token usage about 25 percent at the same performance, and amortized memory compression runs over 50 percent cheaper than full-context prompting in higher-performance settings.
Paper: https://arxiv.org/abs/2605.23071
Learn to build effective AI agents in our academy: https://academy.dair.ai/
- ›Bài báo đề xuất quy tắc chọn chiến lược quản lý ngữ cảnh tối ưu tùy theo từng triển khai.
Trước đó
Mô hình ngôn ngữ cần ngủ
// Language Models Need Sleep //
Let your agents "sleep", folks.
On a serious note, this is a fascinating paper on getting the most from long-horizon agents.
Here is the problem with agents today: Attention scales badly with context length, so long-horizon agents keep paying a quadratic tax at inference time.
This work proposes a sleep-like consolidation step instead. The model periodically does N offline recurrent passes over recent context, writes the result into persistent fast weights in its state-space blocks, then clears the KV cache.
The effect is that extra compute moves to sleep while wake-time prediction stays low latency. On cellular automata, multi-hop graph retrieval, and a math reasoning task where a plain transformer and SSM-attention hybrids fail, longer sleep durations improve performance, with the biggest gains on examples that need deeper reasoning.
Why does it matter?
It points at an alternative to ever-larger KV caches for agents that run for a long time. Consolidate, then forget the raw tokens.
Paper: https://arxiv.org/abs/2605.26099
Learn to build effective AI agents in our academy: https://academy.dair.ai/
- ›Agent dài hạn hiện tại phải chịu chi phí bình phương vì attention scales tệ với context dài.
Phát hiện ngôn ngữ kỳ vực kỳ cực hiệu quả trong nhận dạng giọng nói bằng tối ưu hóa Convex
Convex Low-resource Accent-Robust Language Detection in Speech Recognition
- ›Hệ thống nhập nói hiện tại thường không nhận diện tốt các phương ngữ và giọng nói thiểu số, gây lỗi tầng vượt trong xử lý.
- ›Đề xuất CLD (Convex Language Detection) sử dụng tối ưu hóa convex thay vì fine-tuning thông thường để tiết kiệm tài nguyên.
- ›Phương pháp sử dụng ADMM trên JAX đảm bảo tối ưu toàn cục và huấn luyện nhanh theo thời gian đa thức.
- ›Đạt độ chính xác 97-98% trên dữ liệu thiểu số, chứng minh sự vững chắc trước biến thể phương ngữ.
Khi agent được phép chia nhỏ mục tiêu, nó thường bị lệch mục tiêu
R to @fchollet: When an agent is allowed to decompose a goal into smaller sub-tasks, it frequently suffers from goal drift. Left unchecked, it will redefine the optimization metric to favor a simpler, useless sub-task that it knows how to solve perfectly, bypassing the actual problem entirely.
- ›Agent có thể bị lệch mục tiêu (goal drift) khi được phép phân rã mục tiêu thành nhiều tác vụ phụ.
Giới thiệu Google Antigravity 2.0
Introducing Google Antigravity 2.0
- ›Google Antigravity 2.0 là phiên bản cải tiến với hiệu suất và độ chính xác tăng đáng kể.
- ›Tối ưu hóa khả năng xử lý và tốc độ suy luận của mô hình.
- ›Hỗ trợ triển khai AI hiệu quả hơn cho các ứng dụng thực tế.
MiCA vượt trội hơn LoRA và fine-tuning toàn bộ trong tinh chỉnh hiệu quả tham số
RT by @rasbt: I’ve uploaded a new paper on arXiv (co-authored by @rasbt):
MiCA Learns More Knowledge Than LoRA and Full Fine-Tuning
In Parameter-Efficient Fine-Tuning, a key question may not just be how low-rank the update is, but *which* subspace we adapt.
- ›Giới thiệu kỹ thuật MiCA cho parameter-efficient fine-tuning (PEFT), vượt trội LoRA.