Dòng tin

1 nội dung mới nhất
Bản tin hôm nay

Điều quan trọng nhất hôm nay là sự trỗi dậy mạnh mẽ của AI mã nguồn mở và các mô hình nh…

Thứ Tư 17 Th6, 2026 · 147 nội dung
🚀 Mô hình Mở & Sức mạnh của Hậu huấn luyện
  • GLM-5.2 thống trị mảng mã nguồn mở: Z.ai phát hành GLM-5.2 (giấy phép MIT, ngữ cảnh 1M token) đạt hiệu suất ngang ngửa GPT-5.5 và Opus 4.8, đặc biệt vượt mặt các đối thủ trong lập trình Frontend. Xem chi tiết
🤖 Tác tử (Agents) & Hạ tầng cho thế giới thực
  • NVIDIA ENPIRE đưa AI ra thế giới vật lý: NVIDIA ra mắt hệ thống AutoResearch đầu tiên nơi 8 AI agents tự điều khiển robot để giải quyết thí nghiệm với độ chính xác 99% mà không cần con người can thiệp. Xem chi tiết
🧠 Tư duy Đánh giá & An toàn AI
  • OpenAI dự đoán hành vi thực tế: OpenAI công bố phương pháp "Mô phỏng triển khai" giúp dự đoán chính xác hành vi của mô hình trong thực tế trước khi phát hành, thay vì chỉ dựa vào các benchmark lý thuyết. Xem chi tiết
💡 Triết lý & Tư duy cho người làm AI
  • Sự vô giá của trí tuệ con người: swyx nhấn mạnh trong kỷ nguyên AI, sự khéo léo và đổi mới của con người (human ingenuity) càng trở nên vô giá, giống như cách các thiên tài đã tụ tụ về Silicon Valley để xây dựng những điều mới mẻ. Xem chi tiết
Tất cả
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·25 ngày trước
CONF-KV: Loại Bỏ KV Cache Nhận Thức Độ Tin Cậy với Lưu Trữ Độ Chính Xác Hỗn Hợp cho LLM Tầm Xa
  • Long-horizon LLM inference biến KV cache thành GPU memory consumer chủ yếu và per-token attention ngày càng tốn kém
  • CONF-KV convert next-token distribution thành scalar confidence score để chọn per-step cache budget: giữ lại more context khi mô hình uncertain, prune aggressively khi confident
  • Tokens được rank theo composite attention mass + recency, có protected recent window để bảo vệ local coherence; combine blockwise online-softmax attention, mixed FP16/INT8 storage, pyramidal per-layer budget
  • Thử trên 4 model families với generated lengths đến 4K: CONF-KV footprint gần fixed 512-token sliding window, perplexity vẫn trong 1.5–2.1 điểm so với full KV
  • Needle-in-a-Haystack đến 32K tokens: 91.4% retrieval accuracy (so với 53.8% sliding windows, 80.6% H2O)
  • VisualWebArena 75 tasks: giữ 95.3% success của full-KV setting ở 2.8 lần lower peak memory