Dòng tin
Bản tin hôm nay
Thứ Bảy 13 Th6, 2026 · 294 nội dung
Điều Quan Trọng Nhất Hôm Nay
- ›Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.
Tất cả
SCAIL-2: Hình động nhân vật được điều khiển qua điều kiện ngữ cảnh end-to-end
- ›Giới thiệu SCAIL-2, một phương pháp mới để tạo hình động nhân vật được điều khiển
Google phát hành DiffusionGemma dưới giấy phép Apache 2.0
- ›Google công bố DiffusionGemma, một mô hình generative mở (open model) được phát hành dưới giấy phép Apache 2.0
Paper về mô hình trên Hugging Face
- ›Chia sẻ một paper nghiên cứu trên Hugging Face (ID: 2606.09967) liên quan đến các mô hình sinh thành
ABot-Earth 0.5: Mô hình Trái Đất 3D Sinh thành
- ›Giới thiệu ABot-Earth phiên bản 0.5, một mô hình generative cho Trái Đất 3D
Andrej Karpathy: Phần mềm on-tap thay đổi cách làm việc và tăng nhu cầu
- ›Karpathy nhận thấy nhiều sự thay đổi khi phần mềm hoạt động được phát triển liên tục (on-tap), đặc biệt với Claude Fable 5.
- ›Hiệu ứng Jevon's paradox xảy ra - nhu cầu phần mềm tăng đáng kể, mở rộng khả năng yêu cầu của lập trình viên.
- ›Có thể tạo bất cứ thứ gì: bộ giải thích, trình hiển thị, bảng điều khiển, ứng dụng độc lập tùy chỉnh (ví dụ: Weights & Biases chuyên biệt cho dự án).
- ›Có thể mở rộng bộ kiểm tra lên 10 lần, tự động tối ưu hóa code, chạy các dự án nghiên cứu lớn với giao diện HTML tùy chỉnh.
- ›Karpathy khuyến khích 'giải phóng tư duy' trong cách tiếp cận xây dựng phần mềm.
MMAE: Bộ tiêu chuẩn đánh giá chỉnh sửa âm thanh đa tác vụ quy mô lớn
- ›MMAE là bộ tiêu chuẩn đầu tiên toàn diện để đánh giá chỉnh sửa âm thanh dựa trên hướng dẫn (instruction-based), giải quyết khoảng trống đáng kể trong cơ sở hạ tầng đánh giá hiện tại rất phân mảnh
- ›Bao gồm 7 phương thức âm thanh khác nhau (âm thanh, giọng nói, âm nhạc, hỗn hợp), 6 mức độ phức tạp tác vụ từ sửa đổi cơ bản đến lập luận đa bước, 2 mức độ granularity, 8 loại thao tác riêng biệt
- ›Tập dữ liệu gồm 2,000 mẫu chất lượng cao được tuyển chọn thủ công thông qua cộng tác con người-agent với rubric-based evaluation framework gồm 17,741 tiêu chí có thể xác minh
- ›Đánh giá rộng rãi cho thấy các mô hình hàng đầu vẫn xa từ việc đạt được chỉnh sửa đáng tin cậy, với Exact Match Rate (EMR) nhất quán dưới 5%, thậm chí 0% ở các tác vụ phức tạp đa phương thức
- ›MMAE nhằm mục đích cung cấp lộ trình chẩn đoán và thiết lập mô hình đánh giá tiêu chuẩn dài hạn cho các hệ thống chỉnh sửa âm thanh thế hệ tiếp theo
Sinh video streaming với kiểm soát lực (streaming force control)
- ›StreamForce là framework sinh video mới được kiểm soát bằng tín hiệu lực liên tục (continuous force inputs), mang lại khả năng kiểm soát có căn cứ vật lý
- ›Khác với các mô hình video trước cần huấn luyện riêng cho mỗi loại lực hoặc dùng xử lý non-causal, StreamForce là mô hình causal và unified có thể xử lý nhiều loại lực
- ›Mô hình phản hồi tức thời và mạch lạc với lực local và global thay đổi theo thời gian, sử dụng biểu diễn lực unified làm tín hiệu kiểm soát
- ›Áp dụng distillation pipeline để tối ưu hóa sinh video có kiểm soát lực, kết hợp hiệu quả autoregressive với khả năng phản hồi lực
- ›Duy trì độ chân thực cao về mặt photometric (ánh sáng, màu sắc) và dynamic (chuyển động), đạt hiệu suất state-of-the-art
- ›Chạy tới 16.6 FPS trên một GPU duy nhất với độ tuân thủ lực và motion realism tốt nhất
Khảo sát Wharton: 75% doanh nghiệp đạt lợi nhuận dương từ AI generative
- ›Khảo sát quy mô lớn do các đồng nghiệp tại Wharton thực hiện về ROI từ generative AI cho doanh nghiệp
Gemini Omni – Mô hình tạo video với tính nhất quán nhân vật
- ›Gemini Omni kết hợp trí thông minh Gemini với Veo (video generation) và Nano Banana để tạo video AI
Biến một bức ảnh thành thế giới 3D đầy đủ chỉ trong vài phút
- ›image-blaster kết hợp Marble, Claude skills và fal để sinh môi trường 3DGS hoàn chỉnh từ một bức ảnh đơn.
Astrocade gọi vốn 56 triệu đô xây dựng kỷ nguyên giải trí tương tác
- ›Astrocade hoàn thành vòng Series B dẫn đầu bởi Sequoia Capital với tổng cộng 56 triệu đô.
Tính năng Expand hiện đã mở rộng cho tất cả người dùng
- ›Công cụ Expand cho phép mở rộng cảnh 3D theo bất kỳ hướng nào mà người dùng lựa chọn.
Đó là chuyện góc độ: Ảnh của bạn, được sáng tạo lại
- ›Google AI giới thiệu công nghệ sử dụng AI sinh thành để tái sắp xếp, tái thành phần các bức ảnh theo các góc độ hoặc cách nhìn khác nhau