Dòng tin

3 nội dung mới nhất
Bản tin hôm nay

🤖 Bản tin AI Hằng ngày: Cân bằng giữa Đột phá và Kiểm soát

Thứ Ba 16 Th6, 2026 · 94 nội dung
⚖️ Chính sách & Tranh luận
  • Chuyên gia Simon Willison chỉ trích lệnh cấm xuất khẩu mô hình Fable có thể gây hại cho phòng thủ mạng, trong khi Clement Delangue nhấn mạnh mã nguồn mở là chìa khóa để doanh nghiệp không bị "khóa chặt" vào các nhà cung cấp độc quyền.
🧬 Đột phá Công nghệ & Mô hình Mới
  • Radical Numerics gọi vốn 50 triệu USD ra mắt mô hình ngôn ngữ hệ gen Omnii, trong khi Cartesia tung ra Sonic-3.5 với chất lượng giọng nói khó phân biệt với người thật, đặt ra thách thức lớn cho các tổng đài truyền thống.
💻 Tư duy Lập trình & AI Agents
  • swyx dự đoán quy trình review code truyền thống sẽ biến mất vào năm 2026, thay vào đó là sự lên ngôi của các "harness" (khung làm việc) thông minh. Bài học rút ra: Đừng chỉ dùng API trần, hãy học cách xây dựng hệ thống bao bọc (scaffolding) để tối ưu hóa sức mạnh thực sự của mô hình.
🌍 Tầm nhìn Tương lai & Đạo đức
  • Fei-Fei Li nhấn mạnh tương lai AI phải dựa trên quyền tự chủ và sự thấu hiểu của con người qua các "world models". Đồng thời, François Chollet cảnh báo rằng thiếu các benchmark tiêu chuẩn hóa sẽ khiến ngành AI dễ bị tổn thương trước các quy định tùy tiện của chính phủ.
Tất cả
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·6 ngày trước
MiniMax Sparse Attention: Xử Lý Ngữ Cảnh Siêu Dài Hiệu Quả cho LLM
  • Giới thiệu MiniMax Sparse Attention (MSA), cơ chế attention thưa theo khối dựa trên Grouped Query Attention (GQA) để xử lý ngữ cảnh 1M token
  • Index Branch nhẹ xác điểm key-value blocks và độc lập chọn Top-k subset cho mỗi GQA group; Main Branch thực hiện block-sparse attention chính xác trên blocks được chọn
  • Thiết kế đơn giản, dễ triển khai hiệu quả trên nhiều GPU; đồng thiết kế kernel GPU sử dụng exp-free Top-k selection và KV-outer sparse attention
  • Trên mô hình 109B tham số với native multimodal training: giảm per-token attention compute 28.4x ở ngữ cảnh 1M, đạt 14.2x tăng tốc prefill và 7.6x decoding trên H800
  • MiniMax-M3, mô hình natively multimodal production-grade sử dụng MSA, đã release công khai trên Hugging Face; inference kernel available trên GitHub
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·15 ngày trước
Hướng Dẫn Chuỗi Suy Luận Thông Minh cho Suy Luận LLM Hiệu Quả và Có Thể Kiểm Soát
  • LLMs cải thiện độ chính xác câu trả lời thông qua extended chain-of-thought reasoning nhưng thường sử dụng token không hiệu quả và cung cấp ít khả năng kiểm soát trong quá trình inference.
  • Các phương pháp reasoning hiệu quả hiện tại kiểm soát độ dài suy luận bằng cách rút ngắn hoặc nén traces nhưng để cách mô hình suy luận ẩn và không thể kiểm soát.
  • ACTS (Agentic Chain-of-Thought Steering) xây dựng reasoning steering như MDP nơi controller agent điều phối frozen reasoner, phát hành steering action gồm reasoning strategy và steering phrase tại mỗi bước.
  • Cho phép budget-aware strategy control cho reasoning hiệu quả (tiết kiệm token) trong khi duy trì generation continuity của reasoner, cung cấp kiểm soát suy luận tinh tế.
  • Controller được khởi tạo từ synthetic steering trajectories với multi-budget augmentation và tối ưu hóa qua reinforcement learning với budget-conditioned reward shaping.
  • Experiments cho thấy ACTS đạt full-thinking performance với token savings đáng kể, cho phép controllable accuracy-efficiency trade-offs trên nhiều reasoners và tác vụ; code có sẵn trên GitHub.
Jeremy Howard
Jeremy HowardXBài đăng·21 ngày trước
Giải thích đằng sau giảm giá API MiMo 99%
  • Xiaomi MiMo giảm giá API lên tới 99% cho Input (Cache Hit) nhờ tối ưu hóa hierarchical KV cache cho Sliding Window Attention (SWA), tăng khả năng token cached 5 lần tương đương giảm 80% chi phí caching