Dòng tin
Tất cả
EarlyTom: Nén Token Sớm cho Video Understanding Nhanh
EarlyTom: Early Token Compression Completes Fast Video Understanding
- ›Video-LLMs xử lý lượng lớn visual tokens dẫn đến hiệu suất thấp, vision encoding tốn phần lớn time-to-first-token (TTFT).
- ›EarlyTom nén visual tokens không cần training bên trong vision encoder thay vì chỉ sau, giúp giảm TTFT và tối ưu hóa vision encoder.
- ›Giới thiệu decoupled spatial token selection strategy cải thiện hiệu quả nén tổng thể.
- ›Giảm TTFT lên đến 2.65x và FLOPs lên đến 61% trên NVIDIA A100 cho LLaVA-OneVision-7B, duy trì độ chính xác baseline.