Dòng tin
Tất cả
CONF-KV: Loại bỏ Cache KV Nhận thức Độ tin cậy với Lưu trữ Độ chính xác Hỗn hợp
CONF-KV: Confidence-Aware KV Cache Eviction with Mixed-Precision Storage for Long-Horizon LLM
- ›CONF-KV quản lý cache KV bằng confidence score từ next-token distribution để điều chỉnh budget động.
- ›Giữ lại nhiều context khi model không chắc chắn, cắt tỉa tích cực khi confident.
- ›Kết hợp lưu trữ hỗn hợp FP16/INT8, blockwise online-softmax attention, budget biến theo layer.
- ›Đạt 91.4% retrieval accuracy trên Needle-in-a-Haystack 32K tokens, giảm 2.8x peak memory so với full KV.