Dòng tin

1 nội dung mới nhất

Bản tin hôm nay

Điều quan trọng nhất hôm nay là sự trỗi dậy mạnh mẽ của AI mã nguồn mở và các mô hình nh…

Thứ Tư 17 Th6, 2026 · 147 nội dung

🚀 Mô hình Mở & Sức mạnh của Hậu huấn luyện

›GLM-5.2 thống trị mảng mã nguồn mở: Z.ai phát hành GLM-5.2 (giấy phép MIT, ngữ cảnh 1M token) đạt hiệu suất ngang ngửa GPT-5.5 và Opus 4.8, đặc biệt vượt mặt các đối thủ trong lập trình Frontend. Xem chi tiết

🤖 Tác tử (Agents) & Hạ tầng cho thế giới thực

›NVIDIA ENPIRE đưa AI ra thế giới vật lý: NVIDIA ra mắt hệ thống AutoResearch đầu tiên nơi 8 AI agents tự điều khiển robot để giải quyết thí nghiệm với độ chính xác 99% mà không cần con người can thiệp. Xem chi tiết

🧠 Tư duy Đánh giá & An toàn AI

›OpenAI dự đoán hành vi thực tế: OpenAI công bố phương pháp "Mô phỏng triển khai" giúp dự đoán chính xác hành vi của mô hình trong thực tế trước khi phát hành, thay vì chỉ dựa vào các benchmark lý thuyết. Xem chi tiết

💡 Triết lý & Tư duy cho người làm AI

›Sự vô giá của trí tuệ con người: swyx nhấn mạnh trong kỷ nguyên AI, sự khéo léo và đổi mới của con người (human ingenuity) càng trở nên vô giá, giống như cách các thiên tài đã tụ tụ về Silicon Valley để xây dựng những điều mới mẻ. Xem chi tiết

🚀 Mô hình Mở & Sức mạnh của Hậu huấn luyện

›GLM-5.2 thống trị mảng mã nguồn mở: Z.ai phát hành GLM-5.2 (giấy phép MIT, ngữ cảnh 1M token) đạt hiệu suất ngang ngửa GPT-5.5 và Opus 4.8, đặc biệt vượt mặt các đối thủ trong lập trình Frontend. Xem chi tiết

🤖 Tác tử (Agents) & Hạ tầng cho thế giới thực

›NVIDIA ENPIRE đưa AI ra thế giới vật lý: NVIDIA ra mắt hệ thống AutoResearch đầu tiên nơi 8 AI agents tự điều khiển robot để giải quyết thí nghiệm với độ chính xác 99% mà không cần con người can thiệp. Xem chi tiết

🧠 Tư duy Đánh giá & An toàn AI

›OpenAI dự đoán hành vi thực tế: OpenAI công bố phương pháp "Mô phỏng triển khai" giúp dự đoán chính xác hành vi của mô hình trong thực tế trước khi phát hành, thay vì chỉ dựa vào các benchmark lý thuyết. Xem chi tiết

💡 Triết lý & Tư duy cho người làm AI

›Sự vô giá của trí tuệ con người: swyx nhấn mạnh trong kỷ nguyên AI, sự khéo léo và đổi mới của con người (human ingenuity) càng trở nên vô giá, giống như cách các thiên tài đã tụ tụ về Silicon Valley để xây dựng những điều mới mẻ. Xem chi tiết

Tất cả

AK (_akhaliq)HF PapersPaper·20 ngày trước

›On-policy distillation (OPD) huấn luyện mô hình student trên prefix từ chính sách của nó để khớp với teacher mạnh hơn.
›Vấn đề: early student rollouts yếu, đặt giám sát của teacher trên các prefix kém chất lượng.
›Trust-Region Behavior Blending (TRB) thay thế early rollout policy bằng closest-to-teacher behavior policy trong KL trust region.
›KL budget được annealed xuống zero, training quay về pure student rollouts sau giai đoạn warmup.
›TRB đạt kết quả trung bình tốt nhất trên các cài đặt distillation reasoning toán học so với các phương pháp khác.