Dòng tin

2 nội dung mới nhất
Tất cả
DAIR.AI
DAIR.AIXBài đăng·1 ngày trước
Đường biên hiệu quả: GPT-5.6 sẽ đứng ở đâu?
RT by @dair_ai: The efficiency frontier! Where do you think GPT-5.6 will land?
  • Claude Opus 4.8 đạt 58% Pass@1 trên DeepSWE Bench, xếp thứ 2 sau GPT-5.5.
Sebastian Raschka
Sebastian RaschkaBlogBài viết·16 ngày trước
Những phát triển gần đây trong kiến trúc LLM: KV Sharing, mHC và Compressed Attention
Recent Developments in LLM Architectures: KV Sharing, mHC, and Compressed Attention
  • Các kiến trúc LLM mới tập trung vào hiệu quả xử lý bối cảnh dài thông qua KV sharing, per-layer embeddings và compressed attention.
  • KV-cache size, memory traffic và attention cost trở thành những ràng buộc chính khi agent workflows giữ lại nhiều token.
  • Gemma 4, Laguna XS.2, ZAYA1-8B và DeepSeek V4 áp dụng các kỹ thuật kiến trúc này để giảm chi phí tính toán.