Dòng tin

5 nội dung mới nhất
Bản tin hôm nay

Thứ Bảy 13 Th6, 2026 · 294 nội dung
Điều Quan Trọng Nhất Hôm Nay
  • Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.
Tất cả
AK (_akhaliq)
AK (_akhaliq)XBài đăng·4 ngày trước
Microsoft Research giới thiệu Mirage - Tối ưu hóa tạo video 3D
  • Mirage sử dụng latent spatial memory để lưu trữ cảnh 3D trực tiếp dưới dạng latent tokens thay vì RGB
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·9 ngày trước
Dream.exe: Các mô hình tạo video có thể tạo ra các hành động robot có thể thực thi không?
  • Nghiên cứu kiểm tra xem các mô hình tạo video có thực sự học được các quy luật vật lý hay không bằng cách chuyển đổi video được tạo thành quỹ đạo robot và thực thi trong môi trường mô phỏng.
  • Dream.exe là framework đánh giá với pipeline video-to-execution: nhận hình ảnh cảnh và mô tả nhiệm vụ, tạo video thao tác, chuyển đổi động tác thành quỹ đạo robot, và thực thi để đo lường thành công.
  • Đánh giá 8 mô hình bao gồm các trình tạo đóng nguồn hàng đầu, mô hình mã nguồn mở, và các mô hình được thiết kế riêng cho robot.
  • Benchmark bao gồm 101 nhiệm vụ thao tác được lựa chọn thủ công ở 3 mức độ phức tạp vật lý, đo lường chất lượng hình ảnh, độ trung thực quỹ đạo, và thành công thực thi.
  • Kết quả khích lệ: một số mô hình đạt thành công thực thi có thể đo lường được, chỉ ra rằng các kiến thức vật lý có ý nghĩa đã được mã hóa trong dữ liệu quy mô internet.
  • Phát hiện quan trọng: chất lượng hình ảnh không phải là dự báo tốt về khả năng thực thi, phơi bày một chiều độ khả năng mô hình mà các đánh giá hình ảnh tiêu chuẩn không nắm bắt được.
Demis Hassabis
Demis HassabisXBài đăng·21 ngày trước
Gemini Omni tạo video tầm nhìn first-person từ bản đồ
  • Người dùng upload screenshot Google Maps với tuyến đường vẽ sẵn vào Gemini Omni.
Demis Hassabis
Demis HassabisXBài đăng·22 ngày trước
Gemini Omni tạo video góc nhìn lái xe từ ảnh bản đồ
  • Tải ảnh chụp màn hình Google Maps với tuyến đường vẽ sẵn vào Gemini Omni.
Andrew Ng
Andrew NgXBài đăng·24 ngày trước
Khóa học mới: Xây dựng AI agents tạo hình ảnh và video
  • Andrew Ng giới thiệu khóa học mới về xây dựng AI agents để tạo hình ảnh và video, một lĩnh vực chưa được khám phá nhiều