Dòng tin

1 nội dung mới nhất
Tất cả
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·8 ngày trước
CONF-KV: Loại bỏ Cache KV Nhận thức Độ tin cậy với Lưu trữ Độ chính xác Hỗn hợp
CONF-KV: Confidence-Aware KV Cache Eviction with Mixed-Precision Storage for Long-Horizon LLM
  • CONF-KV quản lý cache KV bằng confidence score từ next-token distribution để điều chỉnh budget động.
  • Giữ lại nhiều context khi model không chắc chắn, cắt tỉa tích cực khi confident.
  • Kết hợp lưu trữ hỗn hợp FP16/INT8, blockwise online-softmax attention, budget biến theo layer.
  • Đạt 91.4% retrieval accuracy trên Needle-in-a-Haystack 32K tokens, giảm 2.8x peak memory so với full KV.