Dòng tin

5 nội dung mới nhất

Tất cả 2126 Chuyên sâu 655 Đã lưu 0

Bản tin hôm nay

🤖 Bản tin AI Hằng ngày: Cân bằng giữa Đột phá và Kiểm soát

Thứ Ba 16 Th6, 2026 · 94 nội dung

⚖️ Chính sách & Tranh luận

›Chuyên gia Simon Willison chỉ trích lệnh cấm xuất khẩu mô hình Fable có thể gây hại cho phòng thủ mạng, trong khi Clement Delangue nhấn mạnh mã nguồn mở là chìa khóa để doanh nghiệp không bị "khóa chặt" vào các nhà cung cấp độc quyền.

🧬 Đột phá Công nghệ & Mô hình Mới

›Radical Numerics gọi vốn 50 triệu USD ra mắt mô hình ngôn ngữ hệ gen Omnii, trong khi Cartesia tung ra Sonic-3.5 với chất lượng giọng nói khó phân biệt với người thật, đặt ra thách thức lớn cho các tổng đài truyền thống.

💻 Tư duy Lập trình & AI Agents

›swyx dự đoán quy trình review code truyền thống sẽ biến mất vào năm 2026, thay vào đó là sự lên ngôi của các "harness" (khung làm việc) thông minh. Bài học rút ra: Đừng chỉ dùng API trần, hãy học cách xây dựng hệ thống bao bọc (scaffolding) để tối ưu hóa sức mạnh thực sự của mô hình.

🌍 Tầm nhìn Tương lai & Đạo đức

›Fei-Fei Li nhấn mạnh tương lai AI phải dựa trên quyền tự chủ và sự thấu hiểu của con người qua các "world models". Đồng thời, François Chollet cảnh báo rằng thiếu các benchmark tiêu chuẩn hóa sẽ khiến ngành AI dễ bị tổn thương trước các quy định tùy tiện của chính phủ.

⚖️ Chính sách & Tranh luận

›Chuyên gia Simon Willison chỉ trích lệnh cấm xuất khẩu mô hình Fable có thể gây hại cho phòng thủ mạng, trong khi Clement Delangue nhấn mạnh mã nguồn mở là chìa khóa để doanh nghiệp không bị "khóa chặt" vào các nhà cung cấp độc quyền.

🧬 Đột phá Công nghệ & Mô hình Mới

›Radical Numerics gọi vốn 50 triệu USD ra mắt mô hình ngôn ngữ hệ gen Omnii, trong khi Cartesia tung ra Sonic-3.5 với chất lượng giọng nói khó phân biệt với người thật, đặt ra thách thức lớn cho các tổng đài truyền thống.

💻 Tư duy Lập trình & AI Agents

›swyx dự đoán quy trình review code truyền thống sẽ biến mất vào năm 2026, thay vào đó là sự lên ngôi của các "harness" (khung làm việc) thông minh. Bài học rút ra: Đừng chỉ dùng API trần, hãy học cách xây dựng hệ thống bao bọc (scaffolding) để tối ưu hóa sức mạnh thực sự của mô hình.

🌍 Tầm nhìn Tương lai & Đạo đức

›Fei-Fei Li nhấn mạnh tương lai AI phải dựa trên quyền tự chủ và sự thấu hiểu của con người qua các "world models". Đồng thời, François Chollet cảnh báo rằng thiếu các benchmark tiêu chuẩn hóa sẽ khiến ngành AI dễ bị tổn thương trước các quy định tùy tiện của chính phủ.

Đọc đầy đủ

Tất cả

AK (_akhaliq)HF PapersPaper·6 ngày trước

RepWAM: Mô hình hóa hành động thế giới với tokenizer hành động-hình ảnh đại diện

›RepWAM là representation-centric world action model (WAM) dựa trên representation visual-action tokenizers để mô hình hóa động lực instruction-following của robot.
›WAMs hiện tại thường dùng reconstruction-oriented video tokenizers từ pretrained video generation models, nhưng pixel reconstruction alone không đủ để hướng learning kết nối future prediction với robot control.
›Giải pháp: semantic visual-action latent space — train representation visual-action tokenizer để map visual inputs thành aligned visual và latent action tokens, cho phép jointly model future visual states và latent actions dưới language instructions.
›Sau khi pretrain, adapt WAM tới real robot trajectories cho closed-loop manipulation.
›Experiments trên real-world manipulation tasks và simulation benchmarks cho thấy RepWAM đạt strong performance trên diverse manipulation settings; ablations highlight giá trị của semantic visual-action tokenization so với reconstruction-oriented alternatives.
›Kết quả thiết lập semantic visual-action tokenization là promising foundation cho world action models và bước tiến hướng generalist robot policies.

#Mô hình robot #Hành động điều khiển #Vision-Language #Mô hình hóa động

AK (_akhaliq)HF PapersPaper·7 ngày trước

Tự-Chưỡng Mô Hình Thế Giới: Huấn Luyện Mô Hình Thế Giới Giải Quyết Các Nhiệm Vụ Tổng Quát

›Video generators được pretrain có khả năng giải quyết nhiệm vụ nổi lên, nhưng phụ thuộc vào mô tả text chi tiết hạn chế khả năng sử dụng trực tiếp cho planning và decision-making.
›Đề xuất khung kết hợp self-distillation với reinforcement learning: VLM sinh candidate task và step-by-step solution từ scene image; video diffusion model Demonstrator được điều kiện bởi solution.
›Executor được chưỡng chỉ từ image và short task prompt, chuyển giao knowledge từ caption-guided generation sang instruction-conditioned task solving mà không cần curated task-video supervision.
›Cải thiện Executor với RL từ VLM feedback, tận dụng asymmetry: đánh giá video thỏa task dễ hơn generate solution.
›Trên WorldTasks-Benchmark và DreamGen robotics benchmark, Executor vượt Demonstrator theo VLM-based evaluation protocol, transfer tốt tới robotic tasks.

#World Models #Reinforcement Learning #Vision-Language

AK (_akhaliq)HF PapersPaper·14 ngày trước

MapAgent: Khuôn khổ agentic cấp công nghiệp cho việc tạo bản đồ làn đường quy mô thành phố

›MapAgent là kiến trúc agentic cấp công nghiệp kết hợp nhận thức backbone với xác minh quy cách rõ ràng, suy luận có ràng buộc, và chỉnh sửa bản đồ xác định.
›Sử dụng vòng lặp Judge-Planner-Worker bị giới hạn: Judge (vision-language) chẩn đoán lỗi bằng cách kiểm tra bằng chứng hình ảnh và vector dự thảo, Planner tạo các chỉnh sửa tối thiểu với xác thực lại sau chỉnh sửa.
›Được kích hoạt có chọn lọc chỉ trên các ô có độ tin cậy backbone thấp, thêm chi phí khiêm tốn trong khi giữ được thông lượng cao cho sản xuất quy mô thành phố.
›Đã tích hợp vào Baidu Maps, hỗ trợ tạo bản đồ làn đường cho hơn 360 thành phố trên khắp Trung Quốc.
›Nâng cao tự động hóa sản xuất tổng thể lên hơn 95%, chứng minh tính thực tiễn và hiệu quả cho việc tạo bản đồ làn đường quy mô lớn.

#Lái xe tự động #Bản đồ số #Agent AI #Vision-Language

AK (_akhaliq)XBài đăng·17 ngày trước

Top các bài báo AI của tuần (25-31 tháng 5)

›Bài báo về mô hình thế giới đa tác nhân (Gamma-World) và chiến lược tiến hóa kỹ năng tác nhân (SkillOpt) nổi bật tuần này.

#Agents #Vision-Language #Reinforcement Learning #Diffusion Models

AK (_akhaliq)HF PapersPaper·19 ngày trước

iVGR: Nội hóa suy luận có căn cứ hình ảnh cho MLLM với học tăng cường

›Visually grounded Chain-of-Thought có tiềm năng nhưng bắt buộc explicit grounding trong inference thường làm giảm hiệu suất so với textual CoT.
›iVGR sử dụng RL để nội hóa khả năng localization vào quá trình suy luận textual, giúp mô hình định vị chính xác mà không cần grounding explicit.
›Dual-stream training strategy căn chỉnh textual stream với visually grounded stream thông qua consistency reward.
›Kết quả vượt baseline trên fine-grained benchmarks, giữ linh hoạt cho workflow có hỗ trợ công cụ.

#Multimodal LLMs #Vision-Language #Reinforcement Learning #Chain-of-Thought

Thu gọn về 7 ngày gần nhất