Dòng tin
Bản tin hôm nay
🤖 Bản tin AI Hằng ngày: Cân bằng giữa Đột phá và Kiểm soát
Thứ Ba 16 Th6, 2026 · 94 nội dung
⚖️ Chính sách & Tranh luận
- ›Chuyên gia Simon Willison chỉ trích lệnh cấm xuất khẩu mô hình Fable có thể gây hại cho phòng thủ mạng, trong khi Clement Delangue nhấn mạnh mã nguồn mở là chìa khóa để doanh nghiệp không bị "khóa chặt" vào các nhà cung cấp độc quyền.
🧬 Đột phá Công nghệ & Mô hình Mới
- ›Radical Numerics gọi vốn 50 triệu USD ra mắt mô hình ngôn ngữ hệ gen Omnii, trong khi Cartesia tung ra Sonic-3.5 với chất lượng giọng nói khó phân biệt với người thật, đặt ra thách thức lớn cho các tổng đài truyền thống.
💻 Tư duy Lập trình & AI Agents
- ›swyx dự đoán quy trình review code truyền thống sẽ biến mất vào năm 2026, thay vào đó là sự lên ngôi của các "harness" (khung làm việc) thông minh. Bài học rút ra: Đừng chỉ dùng API trần, hãy học cách xây dựng hệ thống bao bọc (scaffolding) để tối ưu hóa sức mạnh thực sự của mô hình.
🌍 Tầm nhìn Tương lai & Đạo đức
- ›Fei-Fei Li nhấn mạnh tương lai AI phải dựa trên quyền tự chủ và sự thấu hiểu của con người qua các "world models". Đồng thời, François Chollet cảnh báo rằng thiếu các benchmark tiêu chuẩn hóa sẽ khiến ngành AI dễ bị tổn thương trước các quy định tùy tiện của chính phủ.
Tất cả
Hugging Face ra mắt robot mở nguồn Reachy Mini giá 400-500 USD
- ›CEO Clem Delangue lo ngại tương lai chỉ vài công ty lớn có khả năng phát triển AI, còn lại chỉ là người dùng cuối; Hugging Face hiện có 11 triệu AI builders sử dụng nền tảng.
RT: Cấp trí tuệ nhân tạo thật cho robot Reachy với Qapten
- ›Retweet về dự án nâng cấp robot Reachy bằng hệ thống điều khiển AI Qapten
Robotics xã hội thời gian thực: từ cloud đến thiết bị cục bộ
- ›Hugging Face DevX team giới thiệu Reachy Mini - robot xã hội có khả năng tương tác giọng nói thời gian thực thông qua Gemini Live
RT: Robotics thời thực xã hội: Từ cloud đến thiết bị cục bộ với Gemini Live và Gemma 4
- ›Trình diễn robotics thời thực xã hội kết nối seamlessly từ cloud đến thiết bị cục bộ
CHORUS — Hợp tác đa hình thể phân tán với một chính sách VLA duy nhất
- ›CHORUS là một hệ thống cho phép hợp tác đa hình thể (multi-embodiment) được phân tán, sử dụng một chính sách VLA (Vision-Language-Action) duy nhất để điều khiển và phối hợp nhiều robot hoặc agent khác nhau.
World Pilot: Điều Khiển Mô Hình Vision-Language-Action bằng World-Action Priors
- ›VLA models kế thừa semantic grounding từ large-scale pretraining, hoạt động tốt trên in-distribution manipulation tasks, nhưng grounding từ static image-text pairs không capture dynamics của manipulation là continuous, contact-rich process.
- ›World Pilot tăng cường policy với World-Action Model (WAM) priors qua hai pathways: Latent Steering điều kiện perception trên scene-evolution latent, Action Steering cung cấp anticipated trajectory làm motion prior.
- ›Hai priors cung cấp cho VLA anticipated view của scene và trajectory-level motion hint kèm semantic conditioning; scene-evolution prior hiệu quả ngay cả từ video-pretrained world model không action-post-trained.
- ›Đạt state-of-the-art 84.7% success rate trên LIBERO-Plus zero-shot OOD benchmark và highest success rate trên mọi real-robot setting với lợi thế lớn nhất dưới viewpoint, geometry, deformable state, và pose shifts.
VLA-JEPA: Mô hình robot với world model kết hợp
- ›VLA-JEPA là mô hình robotics mới được phát hành trong LeRobot - không chỉ học hành động từ quan sát mà còn kết hợp JEPA world model để học action-relevant dynamics.
VLA-JEPA ra mắt trong LeRobot - mô hình robot học động lực hành động qua JEPA
- ›VLA-JEPA là mô hình robot mới tích hợp vào LeRobot, đặc biệt ở chỗ nó không chỉ học hành động phù hợp từ quan sát mà còn sử dụng mô hình thế giới JEPA để học các động lực liên quan đến hành động
VLA-JEPA ra mắt trong LeRobot 🤖
- ›VLA-JEPA là mô hình Vision-Language-Action kết hợp JEPA world model để học dynamics phù hợp với action, nâng cao khả năng học từ quan sát.
NVIDIA phát hành bộ dữ liệu Anchor Lab cho robot học
- ›NVIDIA công bố bộ dữ liệu Anchor Lab trên Hugging Face, chứa các phép đo robot trong thế giới thực
Lời khuyên cho các nhà nghiên cứu thị giác máy tính chuyển sang robotics
- ›Yann LeCun khuyên các nhà nghiên cứu CV chuyển sang robotics không nên tập trung quá nhiều vào VLMs và VLAs - những công nghệ này có giá trị nhưng không phải trọng tâm thực sự.
Dàn diễn giả chính CoRL 2026 được công bố
- ›Hội thảo CoRL 2026 sẽ diễn ra tại Austin vào tháng 11 năm 2026 với dàn diễn giả hạng A
Thêm công cụ MCP vào Reachy Mini
- ›Hướng dẫn tích hợp Model Context Protocol (MCP) tools vào robot Reachy Mini để mở rộng khả năng
GRAIL: Tạo loco-manipulation nhân hình từ tài sản 3D và tiên truyệt video
- ›GRAIL là pipeline tạo kỹ thuật số hoàn toàn ảo cho tới triển khai, tổng hợp loco-manipulation humanoid bằng cách sử dụng tài sản 3D, cảnh sẵn sàng cho mô phỏng, và tiên truyệt từ mô hình foundation video.
- ›Bắt đầu từ các cấu hình 3D đầy đủ được chỉ định với hình học đối tượng, thông số máy ảnh, quy mô số liệu, độ sâu môi trường đã biết trước khi tạo video và tái sử dụng trong khôi phục.
- ›Sử dụng tracking dựa trên mô hình, ước lượng chuyển động con người, và tối ưu hóa nhận thức tương tác để khôi phục các quỹ đạo tương tác nhân-vật-đối-tượng 4D với độ mơ hồ độ sâu giảm.
- ›Tái mục tiêu các chuyển động được khôi phục cho robot humanoid Unitree G1 và huấn luyện các bộ theo dõi bổ sung cho thao tác và traversal địa hình.
- ›Tạo hơn 20,000 chuỗi bao gồm nhặt/thao tác đối tượng, ngồi, và leo cầu thang, sử dụng chỉ dữ liệu được tạo bởi GRAIL.
- ›Đạt 84% thành công thực tế trên nhặt đối tượng đa dạng và 90% thành công trên leo cầu thang, chứng minh tính khả thi của pipeline sim-to-real.
LocateAnything: Mô hình vision-language của NVIDIA cải thiện định vị đối tượng cho robot và AI agent
- ›NVIDIA công bố LocateAnything, mô hình phát hiện vision-language được thiết kế lại cách dự đoán bounding box
DynaFLIP: Cải thiện nhận thức robot qua biểu diễn hướng dẫn động lực học ba chế độ
- ›DynaFLIP là phương pháp mới cho nhận thức robot sử dụng biểu diễn hướng dẫn bằng động lực học ba chế độ (tri-modal dynamics)
DynaFLIP: Suy Nghĩ Lại Nhận Thức Robot thông qua Biểu Diễn Hướng Dẫn bởi Động Lực Ba Phương Thức
- ›Robot manipulation phụ thuộc vào perception bảo toàn action-relevant aspects của scene; most robot learning pipelines dùng visual encoders pre-trained cho static recognition hoặc vision-language alignment
- ›DynaFLIP là dynamics-aware multimodal pre-training framework đẩy motion understanding upstream vào perception thay vì để downstream policies xử lý
- ›Construct image-language-3D flow triplets từ heterogeneous human và robot videos, dùng triplets để shape image-only encoder
- ›Key idea: encourage 3 modalities span small simplex volume trong shared hyperspherical space (smaller volume = stronger alignment); combine simplex-volume minimization với cosine regularizer và contrastive objective
- ›Analyses cho thấy DynaFLIP focus trên control-relevant regions critical cho manipulation, resulting dynamics-aware representations serve như reusable visual backbones
- ›Consistently outperform baselines across diverse downstream policies (VLAs), gains reaching +22.5% under out-of-distribution scenarios, validated trên simulation và real-world setups
Robot Reachy Mini hoạt động hoàn toàn cục bộ
- ›Robot humanoid Reachy Mini giờ có thể chạy hoàn toàn cục bộ (locally) mà không cần kết nối cloud
- ›Điều này cho phép deploy AI trên thiết bị robotics với độ trễ thấp hơn và nâng cao bảo mật
Tổng kết buổi Dialogues tại Google I/O 2026
- ›Tóm lại các cuộc trao đổi từ I/O Dialogues 2026, nơi các nhà lãnh đạo thảo luận về tương lai của AI, máy tính lượng tử, robotics và sáng tạo
Lộ trình Robotics tới AGI vật lý: từ Physical Turing Test tới Tự động Nghiên cứu
- ›Jim Fan trình bày lộ trình giải quyết Physical AGI được thiết kế song song với thành công của LLM
Jim Fan quay lại Sequoia AI Ascent 2026 với 'Robotics The Endgame'
- ›Jim Fan là diễn giả yêu thích quay lại Sequoia AI Ascent lần thứ hai liên tiếp
Robotics: Endgame trên YouTube
- ›Video 'Robotics: Endgame' được chia sẻ bởi Jim Fan, chuyên gia về robotics và AGI vật lý
The Physical Turing Test tại Sequoia AI Ascent tháng 5 năm 2025
- ›Video 'The Physical Turing Test' được trình bày tại hội nghị Sequoia AI Ascent, nơi Jim Fan thảo luận về kiểm định Turing vật lý
Robotics: Endgame - Lộ trình giải quyết Physical AGI
- ›Video 'Robotics: Endgame' là tiếp tục của 'Physical Turing Test', trình bày lộ trình giải quyết Physical AGI song song với câu chuyện thành công của LLM
Rowan chia sẻ research paper về Robotics và AI
- ›Rowan chia sẻ research paper từ PNAS cùng video giải thích nguyên bản về chủ đề AI/Robotics
Nhà khoa học chế tạo robot nhỏ hơn sợi tóc con người
- ›Các nhà khoa học chế tạo robot siêu nhỏ (5 micrometers, nhỏ hơn 14 lần so với sợi tóc 70 micrometers) từ chuỗi các đoạn linh hoạt được in 3D, không có motor, máy tính hay pin
Chia sẻ bài báo MIT về cơ nhân tạo do AI kiểm soát
- ›Rowan Cheung chia sẻ bài báo MIT về cơ nhân tạo được kiểm soát bởi AI
MIT tái tạo cơ bắp con người bằng sợi điện được AI kiểm soát
- ›MIT phát triển cơ nhân tạo sử dụng sợi chứa tube chất lỏng tích điện và bơm điện nhỏ, mô phỏng hoạt động của cơ người
Boston Dynamics Spot được trang bị mô hình AI suy luận từ Google DeepMind
- ›Rowan Cheung chia sẻ bài báo IEEE Spectrum về nâng cấp robot Spot của Boston Dynamics với mô hình Gemini Robotics
Boston Dynamics trang bị Spot trí tuệ suy luận về thế giới vật lý
- ›Spot (robot 4 chân đã triển khai hàng ngàn cơ sở) được nâng cấp với mô hình Gemini Robotics từ Google DeepMind, chuyển từ tuân theo lệnh cứng sang suy luận độc lập (embodied reasoning)
Chia sẻ bài báo nghiên cứu từ Nature về AI/Robotics
- ›Rowan Cheung chia sẻ link đến bài báo nghiên cứu từ Nature về AI và Robotics
PointWorld: Tầm quan trọng của world models 3D trong robotics và lý thuyết scaling
- ›PointWorld là một mô hình thế giới 3D với ý nghĩa quan trọng đối với robot learning và scaling dữ liệu.