Dòng tin

4 nội dung mới nhất

Tất cả 2126 Chuyên sâu 655 Đã lưu 0

Bản tin hôm nay

🤖 Bản tin AI Hằng ngày: Cân bằng giữa Đột phá và Kiểm soát

Thứ Ba 16 Th6, 2026 · 94 nội dung

⚖️ Chính sách & Tranh luận

›Chuyên gia Simon Willison chỉ trích lệnh cấm xuất khẩu mô hình Fable có thể gây hại cho phòng thủ mạng, trong khi Clement Delangue nhấn mạnh mã nguồn mở là chìa khóa để doanh nghiệp không bị "khóa chặt" vào các nhà cung cấp độc quyền.

🧬 Đột phá Công nghệ & Mô hình Mới

›Radical Numerics gọi vốn 50 triệu USD ra mắt mô hình ngôn ngữ hệ gen Omnii, trong khi Cartesia tung ra Sonic-3.5 với chất lượng giọng nói khó phân biệt với người thật, đặt ra thách thức lớn cho các tổng đài truyền thống.

💻 Tư duy Lập trình & AI Agents

›swyx dự đoán quy trình review code truyền thống sẽ biến mất vào năm 2026, thay vào đó là sự lên ngôi của các "harness" (khung làm việc) thông minh. Bài học rút ra: Đừng chỉ dùng API trần, hãy học cách xây dựng hệ thống bao bọc (scaffolding) để tối ưu hóa sức mạnh thực sự của mô hình.

🌍 Tầm nhìn Tương lai & Đạo đức

›Fei-Fei Li nhấn mạnh tương lai AI phải dựa trên quyền tự chủ và sự thấu hiểu của con người qua các "world models". Đồng thời, François Chollet cảnh báo rằng thiếu các benchmark tiêu chuẩn hóa sẽ khiến ngành AI dễ bị tổn thương trước các quy định tùy tiện của chính phủ.

⚖️ Chính sách & Tranh luận

›Chuyên gia Simon Willison chỉ trích lệnh cấm xuất khẩu mô hình Fable có thể gây hại cho phòng thủ mạng, trong khi Clement Delangue nhấn mạnh mã nguồn mở là chìa khóa để doanh nghiệp không bị "khóa chặt" vào các nhà cung cấp độc quyền.

🧬 Đột phá Công nghệ & Mô hình Mới

›Radical Numerics gọi vốn 50 triệu USD ra mắt mô hình ngôn ngữ hệ gen Omnii, trong khi Cartesia tung ra Sonic-3.5 với chất lượng giọng nói khó phân biệt với người thật, đặt ra thách thức lớn cho các tổng đài truyền thống.

💻 Tư duy Lập trình & AI Agents

›swyx dự đoán quy trình review code truyền thống sẽ biến mất vào năm 2026, thay vào đó là sự lên ngôi của các "harness" (khung làm việc) thông minh. Bài học rút ra: Đừng chỉ dùng API trần, hãy học cách xây dựng hệ thống bao bọc (scaffolding) để tối ưu hóa sức mạnh thực sự của mô hình.

🌍 Tầm nhìn Tương lai & Đạo đức

›Fei-Fei Li nhấn mạnh tương lai AI phải dựa trên quyền tự chủ và sự thấu hiểu của con người qua các "world models". Đồng thời, François Chollet cảnh báo rằng thiếu các benchmark tiêu chuẩn hóa sẽ khiến ngành AI dễ bị tổn thương trước các quy định tùy tiện của chính phủ.

Đọc đầy đủ

Tất cả

DAIR.AIXBài đăng·1 ngày trước

RT từ @dair_ai: Verifiers (bộ xác minh) là một vấn đề lớn

›Verifiers (bộ xác minh) đóng vai trò quan trọng trong hệ thống AI agent; nếu không có verifiers tốt, các cơ chế /goal và /loop dễ bị hỏng.

#AI Agent #Xác minh (Verification)#Mô hình ngôn ngữ lớn (LLM)

swyx (Shawn Wang)XBài đăng·2 ngày trước

Radical Numerics ra mắt với vòng seed 50 triệu USD để xây dựng trí thông minh sinh học tổng quát

›Radical Numerics công bố ra mắt từ chế độ ẩn với vòng gọi vốn hạt giống 50 triệu USD do Emergence Capital dẫn đầu, cùng với Obvious Ventures, Triatomic Capital và Patrick Collison.

#AI trong sinh học #Mô hình ngôn ngữ lớn (LLM)#An toàn AI #Genomics

Ethan MollickXBài đăng·2 ngày trước

Phản hồi @emollick: Github (do Claude 4.8 Opus tải lên, kèm thanh trượt cỡ chữ)

›Ethan Mollick chia sẻ link Github chứa dự án 'superluminal' do Claude 4.8 Opus tải lên.

#Mô hình ngôn ngữ lớn (LLM)#Lập trình AI #GitHub

AK (_akhaliq)HF PapersPaper·2 ngày trước

GD^2PO: Giảm thiểu xung đột đa phần thưởng thông qua Tối ưu hóa chính sách tách biệt phần thưởng động theo nhóm

›Khi các LLM phát triển, học tăng cường (RL) sau huấn luyện ngày càng dựa vào phần thưởng đa chiều để nuôi dưỡng các khả năng toàn diện, đòi hỏi thuật toán mới tối ưu hóa các mục tiêu đa dạng và có thể cạnh tranh nhau.
›Các phương pháp hiện có như Group reward-Decoupled Policy Optimization (GDPO) phân tách điểm tổng thể thành các nhóm phần thưởng độc lập và tính toán RL loss riêng biệt, nhưng vẫn gặp xung đột đa phần thưởng.
›Một rollout đơn lẻ có thể tạo ra lợi thế dương trên một số chiều phần thưởng nhưng âm trên các chiều khác, khiến các tín hiệu đối lập triệt tiêu lẫn nhau khi tổng hợp, làm giảm hiệu quả huấn luyện RL.
›Lấy cảm hứng từ Dynamic sAmpling Policy Optimization (DAPO), nghiên cứu đề xuất Group-Dynamic reward-Decoupled Policy Optimization (GD^2PO) với cơ chế lọc nhận thức xung đột (conflict-aware filtering) để loại bỏ các rollout chịu sự bất đồng nghiêm trọng về phần thưởng.
›Chiến lược masking này ngăn các tín hiệu xung đột triệt tiêu nhau, bảo toàn và tăng cường độ lớn của các lợi thế RL hiệu quả, từ đó tăng tốc đáng kể hiệu quả học tập.
›Nghiên cứu cũng giới thiệu việc gán lại trọng số ở cấp độ truy vấn (query-level reweighting) để điều chỉnh động cường độ cập nhật của mỗi truy vấn dựa trên sự đồng thuận phần thưởng tổng thể.
›Các thử nghiệm trên nhiều kịch bản đa phần thưởng, bao gồm gọi công cụ (tool calling) và căn chỉnh sở thích con người, chứng minh GD^2PO vượt trội nhất quán và đáng kể so với các baseline hiện có.

#Học tăng cường (RL)#Mô hình ngôn ngữ lớn (LLM)#Tối ưu hóa chính sách #Căn chỉnh AI