Dòng tin
Tất cả
Đường biên hiệu quả: GPT-5.6 sẽ đứng ở đâu?
RT by @dair_ai: The efficiency frontier!
Where do you think GPT-5.6 will land?
- ›Claude Opus 4.8 đạt 58% Pass@1 trên DeepSWE Bench, xếp thứ 2 sau GPT-5.5.
Những phát triển gần đây trong kiến trúc LLM: KV Sharing, mHC và Compressed Attention
Recent Developments in LLM Architectures: KV Sharing, mHC, and Compressed Attention
- ›Các kiến trúc LLM mới tập trung vào hiệu quả xử lý bối cảnh dài thông qua KV sharing, per-layer embeddings và compressed attention.
- ›KV-cache size, memory traffic và attention cost trở thành những ràng buộc chính khi agent workflows giữ lại nhiều token.
- ›Gemma 4, Laguna XS.2, ZAYA1-8B và DeepSeek V4 áp dụng các kỹ thuật kiến trúc này để giảm chi phí tính toán.