Dòng tin

3 nội dung mới nhất

Bản tin hôm nay

Thứ Bảy 13 Th6, 2026 · 294 nội dung

Điều Quan Trọng Nhất Hôm Nay

›Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.

Tất cả

AK (_akhaliq)HF PapersPaper·7 ngày trước

›Standard transformers áp dụng self-attention đồng nhất ở mỗi layer và token, bất kể input có cần dynamic cross-token interaction hay không.
›CHIAR-Former là 4-layer hybrid transformer routes mỗi token đến một trong 3 operators (DCT spectral mixing, RBF kernel mixing, hoặc full self-attention) dựa trên per-token spectral entropy, một complexity signal được lý thuyết hóa.
›Systematic ablation trên WikiText-103 phát hiện routing collapse: router consistently rejects RBF ủng hộ DCT và attention, chỉ ra spectral mixing và dynamic attention complementary và sufficient.
›DCT+Attention-only variant đạt Val PPL 36.54 trên WikiText-103 (45% improvement so với full-attention baseline PPL 66.62) với chỉ 62.5% fewer attention FLOPs.
›CHIAR-Former excel trên large-scale naturalistic text (token diversity hỗ trợ spectral specialisation), trong khi full attention giữ lợi thế trên small datasets và synthetic pattern-matching tasks.

Sebastian RaschkaBlogBài viết·28 ngày trước

›Các kiến trúc LLM mới tập trung vào hiệu quả xử lý bối cảnh dài thông qua KV sharing, per-layer embeddings và compressed attention.
›KV-cache size, memory traffic và attention cost trở thành những ràng buộc chính khi agent workflows giữ lại nhiều token.
›Gemma 4, Laguna XS.2, ZAYA1-8B và DeepSeek V4 áp dụng các kỹ thuật kiến trúc này để giảm chi phí tính toán.

Sebastian RaschkaXBài đăng·khoảng 1 tháng trước

›Lighthouse Attention là phương pháp bao bọc attention tiêu chuẩn với một lớp nén subquadratic, giảm chi phí tính toán.