Dòng tin

3 nội dung mới nhất
Bản tin hôm nay

Thứ Bảy 13 Th6, 2026 · 294 nội dung
Điều Quan Trọng Nhất Hôm Nay
  • Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.
Tất cả
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·7 ngày trước
Chiaroscuro Attention: Chi tiêu tính toán trong bóng tối
  • Standard transformers áp dụng self-attention đồng nhất ở mỗi layer và token, bất kể input có cần dynamic cross-token interaction hay không.
  • CHIAR-Former là 4-layer hybrid transformer routes mỗi token đến một trong 3 operators (DCT spectral mixing, RBF kernel mixing, hoặc full self-attention) dựa trên per-token spectral entropy, một complexity signal được lý thuyết hóa.
  • Systematic ablation trên WikiText-103 phát hiện routing collapse: router consistently rejects RBF ủng hộ DCT và attention, chỉ ra spectral mixing và dynamic attention complementary và sufficient.
  • DCT+Attention-only variant đạt Val PPL 36.54 trên WikiText-103 (45% improvement so với full-attention baseline PPL 66.62) với chỉ 62.5% fewer attention FLOPs.
  • CHIAR-Former excel trên large-scale naturalistic text (token diversity hỗ trợ spectral specialisation), trong khi full attention giữ lợi thế trên small datasets và synthetic pattern-matching tasks.
Sebastian Raschka
Sebastian RaschkaBlogBài viết·28 ngày trước
Những phát triển gần đây trong kiến trúc LLM: KV Sharing, mHC và Compressed Attention
  • Các kiến trúc LLM mới tập trung vào hiệu quả xử lý bối cảnh dài thông qua KV sharing, per-layer embeddings và compressed attention.
  • KV-cache size, memory traffic và attention cost trở thành những ràng buộc chính khi agent workflows giữ lại nhiều token.
  • Gemma 4, Laguna XS.2, ZAYA1-8B và DeepSeek V4 áp dụng các kỹ thuật kiến trúc này để giảm chi phí tính toán.
Sebastian Raschka
Sebastian RaschkaXBài đăng·khoảng 1 tháng trước
Lighthouse Attention: Sửa đổi attention chi phí thấp cho huấn luyện hiệu quả
  • Lighthouse Attention là phương pháp bao bọc attention tiêu chuẩn với một lớp nén subquadratic, giảm chi phí tính toán.