Dòng tin
Bản tin hôm nay
Thứ Bảy 13 Th6, 2026 · 294 nội dung
Điều Quan Trọng Nhất Hôm Nay
- ›Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.
Tất cả
Attention tuyến tính động
- ›Khả năng scale của LLM tới long contexts bị giới hạn bởi quadratic complexity của standard attention, thúc đẩy linear attention mechanisms có sub-quadratic cost.
- ›Các multi-state linear attention methods hiện tại dùng fixed state merging policies không thích ứng với token importance động, làm mất critical tokens và gây error accumulation trong long sequences.
- ›DLA (Dynamic Linear Attention) là framework dynamic memory modeling với Information-Aware Dynamic State Merging: xác định state boundaries dựa trên token-level information variation, giữ high-resolution representations ở semantic transitions và summarize aggressively stable regions.
- ›Cơ chế Capacity-Bounded Memory Modeling: maintain fixed-size, chronologically ordered state cache bằng cách selectively merge adjacent low-information states để control memory growth với minimal information loss.
- ›Pre-train DLA trên hai linear attention models khác nhau và đánh giá trên 16 datasets, cho thấy vượt trội over state-of-the-art methods.
Mất trí nhớ Attention trong Hybrid LLM: Khi Chain-of-Thought Fine-tuning phá hủy khả năng gọi lại từ xa
- ›Chain-of-thought supervised fine-tuning (SFT) cải thiện reasoning nhưng hệ thống suy giảm long-context recall trong hybrid linear-attention models như HypeNet và Jet-Nemotron.
- ›Retrieval performance trên Needle-In-A-Haystack (NIAH) giảm đáng kể sau CoT-SFT, ví dụ HypeNet-9B trên NIAH-S2@256K từ 67.2% xuống 9.4%, với suy giảm tồi tệ hơn ở long context windows.
- ›Nguyên nhân: CoT-SFT làm lệch attention gradients về short-range patterns, phá vỡ query-key projections (W_Q, W_K) chịu trách nhiệm long-range routing.
- ›QK-Restore là training-free method chỉ khôi phục W_Q, W_K từ pre-SFT checkpoint trong khi giữ lại tất cả post-SFT parameters khác; variant Procrustes cân bằng routing preservation và reasoning adaptation.
- ›QK-Restore liên tục khôi phục long-context capability với zero training cost khi vẫn preserve reasoning performance, ví dụ HypeNet-5B: S3@256K từ 65.4% lên 76.4%.