Dòng tin
Bản tin hôm nay
Thứ Bảy 13 Th6, 2026 · 294 nội dung
Điều Quan Trọng Nhất Hôm Nay
- ›Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.
Tất cả
Chiaroscuro Attention: Chi tiêu tính toán trong bóng tối
- ›Standard transformers áp dụng self-attention đồng nhất ở mỗi layer và token, bất kể input có cần dynamic cross-token interaction hay không.
- ›CHIAR-Former là 4-layer hybrid transformer routes mỗi token đến một trong 3 operators (DCT spectral mixing, RBF kernel mixing, hoặc full self-attention) dựa trên per-token spectral entropy, một complexity signal được lý thuyết hóa.
- ›Systematic ablation trên WikiText-103 phát hiện routing collapse: router consistently rejects RBF ủng hộ DCT và attention, chỉ ra spectral mixing và dynamic attention complementary và sufficient.
- ›DCT+Attention-only variant đạt Val PPL 36.54 trên WikiText-103 (45% improvement so với full-attention baseline PPL 66.62) với chỉ 62.5% fewer attention FLOPs.
- ›CHIAR-Former excel trên large-scale naturalistic text (token diversity hỗ trợ spectral specialisation), trong khi full attention giữ lợi thế trên small datasets và synthetic pattern-matching tasks.
Những phát triển gần đây trong kiến trúc LLM: KV Sharing, mHC và Compressed Attention
- ›Các kiến trúc LLM mới tập trung vào hiệu quả xử lý bối cảnh dài thông qua KV sharing, per-layer embeddings và compressed attention.
- ›KV-cache size, memory traffic và attention cost trở thành những ràng buộc chính khi agent workflows giữ lại nhiều token.
- ›Gemma 4, Laguna XS.2, ZAYA1-8B và DeepSeek V4 áp dụng các kỹ thuật kiến trúc này để giảm chi phí tính toán.
Lighthouse Attention: Sửa đổi attention chi phí thấp cho huấn luyện hiệu quả
- ›Lighthouse Attention là phương pháp bao bọc attention tiêu chuẩn với một lớp nén subquadratic, giảm chi phí tính toán.