Dòng tin

2 nội dung mới nhất

Bản tin hôm nay

Thứ Bảy 13 Th6, 2026 · 294 nội dung

Điều Quan Trọng Nhất Hôm Nay

›Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.

Tất cả

AK (_akhaliq)HF PapersPaper·4 ngày trước

›Khả năng scale của LLM tới long contexts bị giới hạn bởi quadratic complexity của standard attention, thúc đẩy linear attention mechanisms có sub-quadratic cost.
›Các multi-state linear attention methods hiện tại dùng fixed state merging policies không thích ứng với token importance động, làm mất critical tokens và gây error accumulation trong long sequences.
›DLA (Dynamic Linear Attention) là framework dynamic memory modeling với Information-Aware Dynamic State Merging: xác định state boundaries dựa trên token-level information variation, giữ high-resolution representations ở semantic transitions và summarize aggressively stable regions.
›Cơ chế Capacity-Bounded Memory Modeling: maintain fixed-size, chronologically ordered state cache bằng cách selectively merge adjacent low-information states để control memory growth với minimal information loss.
›Pre-train DLA trên hai linear attention models khác nhau và đánh giá trên 16 datasets, cho thấy vượt trội over state-of-the-art methods.

AK (_akhaliq)HF PapersPaper·4 ngày trước

›Chain-of-thought supervised fine-tuning (SFT) cải thiện reasoning nhưng hệ thống suy giảm long-context recall trong hybrid linear-attention models như HypeNet và Jet-Nemotron.
›Retrieval performance trên Needle-In-A-Haystack (NIAH) giảm đáng kể sau CoT-SFT, ví dụ HypeNet-9B trên NIAH-S2@256K từ 67.2% xuống 9.4%, với suy giảm tồi tệ hơn ở long context windows.
›Nguyên nhân: CoT-SFT làm lệch attention gradients về short-range patterns, phá vỡ query-key projections (W_Q, W_K) chịu trách nhiệm long-range routing.
›QK-Restore là training-free method chỉ khôi phục W_Q, W_K từ pre-SFT checkpoint trong khi giữ lại tất cả post-SFT parameters khác; variant Procrustes cân bằng routing preservation và reasoning adaptation.
›QK-Restore liên tục khôi phục long-context capability với zero training cost khi vẫn preserve reasoning performance, ví dụ HypeNet-5B: S3@256K từ 65.4% lên 76.4%.