Dòng tin
Bản tin hôm nay
🤖 Bản tin AI Hằng ngày: Cân bằng giữa Đột phá và Kiểm soát
Thứ Ba 16 Th6, 2026 · 94 nội dung
⚖️ Chính sách & Tranh luận
- ›Chuyên gia Simon Willison chỉ trích lệnh cấm xuất khẩu mô hình Fable có thể gây hại cho phòng thủ mạng, trong khi Clement Delangue nhấn mạnh mã nguồn mở là chìa khóa để doanh nghiệp không bị "khóa chặt" vào các nhà cung cấp độc quyền.
🧬 Đột phá Công nghệ & Mô hình Mới
- ›Radical Numerics gọi vốn 50 triệu USD ra mắt mô hình ngôn ngữ hệ gen Omnii, trong khi Cartesia tung ra Sonic-3.5 với chất lượng giọng nói khó phân biệt với người thật, đặt ra thách thức lớn cho các tổng đài truyền thống.
💻 Tư duy Lập trình & AI Agents
- ›swyx dự đoán quy trình review code truyền thống sẽ biến mất vào năm 2026, thay vào đó là sự lên ngôi của các "harness" (khung làm việc) thông minh. Bài học rút ra: Đừng chỉ dùng API trần, hãy học cách xây dựng hệ thống bao bọc (scaffolding) để tối ưu hóa sức mạnh thực sự của mô hình.
🌍 Tầm nhìn Tương lai & Đạo đức
- ›Fei-Fei Li nhấn mạnh tương lai AI phải dựa trên quyền tự chủ và sự thấu hiểu của con người qua các "world models". Đồng thời, François Chollet cảnh báo rằng thiếu các benchmark tiêu chuẩn hóa sẽ khiến ngành AI dễ bị tổn thương trước các quy định tùy tiện của chính phủ.
Tất cả
MiniMax v3 xuất bản với kernel MSA tối ưu hóa chuỗi dài
- ›MiniMax v3 được phát hành kèm kernel MSA (Multi-head Sparse Attention) mới
Định tuyến lại, đừng loại bỏ: Định tuyến visual token có thể phục hồi cho Vision-Language Models
- ›VLMs chiếu hình ảnh thành hàng trăm đến hàng nghìn visual tokens, làm cho inference đắt đỏ cả về tính toán attention và bộ nhớ KV-cache
- ›Các phương pháp giảm token hiện tại theo paradigm rank-and-remove: đánh giá tokens, giữ tập con compact, loại bỏ vĩnh viễn phần còn lại
- ›Phát hiện quan trọng: loại bỏ vĩnh viễn không linh hoạt vì tầm quan trọng của visual tokens thay đổi theo decoder depth; tokens được rank thấp ở stage này có thể trở nên cần thiết ở layers sau, đặc biệt với grounding-sensitive queries
- ›Reroute là plug-in không cần huấn luyện thay thế loại bỏ bằng định tuyến phục hồi được: tokens được chọn qua decoder blocks, tokens hoãn bypass stage và re-enter candidate pool ở quyết định tuyến tiếp theo
- ›Reroute bảo toàn TFLOPs lý thuyết và KV-cache budget class của phương pháp pruning, reuse attention-score ranking rules và stage-wise schedules
- ›Trên FastV, PDrop, Nüwa variants sử dụng LLaVA-1.5 và Qwen backbones: Reroute cải thiện grounding dưới aggressive token reduction đồng thời duy trì general VQA performance
CONF-KV: Loại Bỏ KV Cache Nhận Thức Độ Tin Cậy với Lưu Trữ Độ Chính Xác Hỗn Hợp cho LLM Tầm Xa
- ›Long-horizon LLM inference biến KV cache thành GPU memory consumer chủ yếu và per-token attention ngày càng tốn kém
- ›CONF-KV convert next-token distribution thành scalar confidence score để chọn per-step cache budget: giữ lại more context khi mô hình uncertain, prune aggressively khi confident
- ›Tokens được rank theo composite attention mass + recency, có protected recent window để bảo vệ local coherence; combine blockwise online-softmax attention, mixed FP16/INT8 storage, pyramidal per-layer budget
- ›Thử trên 4 model families với generated lengths đến 4K: CONF-KV footprint gần fixed 512-token sliding window, perplexity vẫn trong 1.5–2.1 điểm so với full KV
- ›Needle-in-a-Haystack đến 32K tokens: 91.4% retrieval accuracy (so với 53.8% sliding windows, 80.6% H2O)
- ›VisualWebArena 75 tasks: giữ 95.3% success của full-KV setting ở 2.8 lần lower peak memory