Dòng tin

14 nội dung mới nhất

Bản tin hôm nay

Thứ Bảy 13 Th6, 2026 · 294 nội dung

Điều Quan Trọng Nhất Hôm Nay

›Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.

Mới hôm nay

NVIDIA AIBlogBài viết·khoảng 8 giờ trướcMớiHot

›Artificial Analysis vừa công bố AA-AgentPerf, benchmark mã hóa agentic đầu tiên của ngành, được thiết kế cho nhiều nhà cung cấp.
›NVIDIA đạt hiệu suất hàng đầu trên benchmark này.
›AA-AgentPerf đo lường cách các hệ thống suy luận hoạt động dưới các điều kiện của các tác vụ mã hóa AI agent thực tế, xử lý độ phức tạp suy luận cao.
›Benchmark này giải quyết khoảng trống lâu dài trong ngành về cách đo lường hiệu suất của các hệ thống agent AI.

NVIDIA AIBlogBài viết·khoảng 14 giờ trướcMớiHot

›Khi adoption AI doanh nghiệp mở rộng, các lập trình viên phải kết nối các pipeline phân tán (mô hình riêng cho text, vision, code)
›Điều này dẫn đến độ phức tạp cao, chi phí tăng, và thời gian phát triển kéo dài
›MiniMax M3 là một hệ thống multimodal duy nhất tích hợp text, vision, và code
›Nó hỗ trợ long-context reasoning (suy luận trên ngữ cảnh dài) và các quy trình agentic cho enterprise workflows
›MiniMax M3 có sẵn trên NVIDIA accelerated infrastructure bao gồm NVIDIA Blackwell
›Giải pháp này giúp giảm độ phức tạp, chi phí, và tăng tốc độ phát triển (iteration) cho các ứng dụng AI doanh nghiệp

Trước đó

NVIDIA AIBlogBài viết·1 ngày trướcHot

›NVIDIA Quantum InfiniBand giới thiệu các profile bảo mật dựa trên ý định (intent-based security profiles) trong Unified Fabric Manager (UFM)
›Cho phép cấu hình bảo mật mạng đa thuê bao (multi-tenant fabric security) chỉ bằng một cú nhấp chuột, đơn giản hóa quá trình triển khai
›Giải quyết nhu cầu bảo vệ nhiều người thuê/tổ chức khác nhau trên cùng một hạ tầng mạng InfiniBand
›Tiêu chuẩn bảo mật doanh nghiệp cho môi trường hạ tầng dữ liệu lớn

AK (_akhaliq)XBài đăng·2 ngày trước

Simon WillisonBlogBài viết·2 ngày trước

›Google phát hành DiffusionGemma dưới dạng mô hình Gemma open weight được cấp phép Apache 2, phát triển từ research Gemini Diffusion thử nghiệm vào tháng 5 năm ngoái
›Mô hình google/diffusiongemma-26B-A4B-it có sẵn trên HuggingFace và hiện được NVIDIA host miễn phí trên NIM cloud API
›Simon Willison đã test mô hình qua API của NVIDIA để sinh ảnh và đạt tốc độ ít nhất 500 tokens/giây - cụ thể 2,409 tokens được trả về trong 4.4 giây
›Trước đó khi Simon thử Gemini Diffusion, mô hình chạy ở 857 tokens/giây, cho thấy DiffusionGemma vẫn duy trì hiệu suất sinh text rất cao

SantiagoXBài đăng·3 ngày trước

›Công bố lần đầu tiên: có thể chạy mô hình trillion-parameter (1 triệu tỷ tham số) trên phần cứng cá nhân, nhờ công nghệ NVIDIA-accelerated

SantiagoXBài đăng·3 ngày trước

NVIDIA AIBlogBài viết·3 ngày trước

›DiffusionGemma do Google DeepMind tạo ra, được tối ưu hóa chuyên biệt để chạy hiệu quả trên nền tảng NVIDIA
›Đối trọng vấn đề chai hẹp tốc độ sinh tạo token-by-token trong các ứng dụng AI thời gian thực (chatbot, copilot, agentic workflows)
›Cải thiện độ phản hồi, giảm chi phí phục vụ mô hình, và tạo trải nghiệm tương tác mượt mà hơn
›Cung cấp khả năng sinh tạo văn bản công suất cao (high-throughput), sẵn dùng cho nhà phát triển mà không cần phức tạp hóa

NVIDIA AIBlogBài viết·3 ngày trước

›NVIDIA TensorRT cho phép chuyển đổi checkpoint đã lượng tử hóa (quantized checkpoints) thành công cụ suy diễn sản xuất hiệu năng cao
›Lượng tử hóa FP8 giảm kích thước mô hình đáng kể đồng thời duy trì chất lượng dự đoán và tương thích
›Kết cầu giữa tối ưu hóa mô hình và triển khai sản xuất, bằng cách tối ưu hóa hoàn toàn cho phần cứng NVIDIA
›Cho phép suy diễn nhanh hơn, độ trễ thấp hơn, chi phí phục vụ giảm, đáp ứng yêu cầu sản xuất

Clement DelangueXBài đăng·5 ngày trước