Dòng tin
Bản tin hôm nay
🤖 Bản tin AI Hằng ngày: Cân bằng giữa Đột phá và Kiểm soát
Thứ Ba 16 Th6, 2026 · 94 nội dung
⚖️ Chính sách & Tranh luận
- ›Chuyên gia Simon Willison chỉ trích lệnh cấm xuất khẩu mô hình Fable có thể gây hại cho phòng thủ mạng, trong khi Clement Delangue nhấn mạnh mã nguồn mở là chìa khóa để doanh nghiệp không bị "khóa chặt" vào các nhà cung cấp độc quyền.
🧬 Đột phá Công nghệ & Mô hình Mới
- ›Radical Numerics gọi vốn 50 triệu USD ra mắt mô hình ngôn ngữ hệ gen Omnii, trong khi Cartesia tung ra Sonic-3.5 với chất lượng giọng nói khó phân biệt với người thật, đặt ra thách thức lớn cho các tổng đài truyền thống.
💻 Tư duy Lập trình & AI Agents
- ›swyx dự đoán quy trình review code truyền thống sẽ biến mất vào năm 2026, thay vào đó là sự lên ngôi của các "harness" (khung làm việc) thông minh. Bài học rút ra: Đừng chỉ dùng API trần, hãy học cách xây dựng hệ thống bao bọc (scaffolding) để tối ưu hóa sức mạnh thực sự của mô hình.
🌍 Tầm nhìn Tương lai & Đạo đức
- ›Fei-Fei Li nhấn mạnh tương lai AI phải dựa trên quyền tự chủ và sự thấu hiểu của con người qua các "world models". Đồng thời, François Chollet cảnh báo rằng thiếu các benchmark tiêu chuẩn hóa sẽ khiến ngành AI dễ bị tổn thương trước các quy định tùy tiện của chính phủ.
Tất cả
Tinh Chỉnh Các Mô Hình Nền Tảng Sinh Học bằng LoRA qua NVIDIA BioNeMo Recipes
- ›Foundation models đang thay đổi lĩnh vực sinh học tính toán (computational biology)
- ›Các mô hình này được pre-train trên các kho dữ liệu khổng lồ về chuỗi protein hoặc genomic
- ›ESM2 được nhắc đến như một protein language model tiêu biểu
- ›LoRA (Low-Rank Adaptation) cho phép tinh chỉnh hiệu quả các foundation models với chi phí tính toán thấp
- ›NVIDIA BioNeMo cung cấp các recipes sẵn sàng để fine-tuning các foundation models sinh học
Tăng Cường Thông Lượng Huấn Luyện MoE bằng Advanced Fusion Kernels
- ›Mixture-of-Experts (MoE) models đã trở thành thành phần cơ bản của các hệ thống AI hiện đại quy mô lớn
- ›MoE được áp dụng rộng rãi vì cho phép tăng đáng kể dung lượng mô hình trong khi chỉ kích hoạt một tập hợp con các tham số cho mỗi token
- ›Cách tiếp cận MoE cung cấp phương pháp vô song để scaling hiệu suất trong ngân sách tính toán thực tế
- ›Advanced Fusion Kernels được sử dụng để tối ưu hóa và tăng thông lượng quá trình huấn luyện MoE
- ›Khi quy mô mô hình tiếp tục tăng, chiến lược tối ưu hóa kernel trở nên ngày càng quan trọng
Từ Tưởng Tượng Đến Hành Động: Sự Trỗi Dậy của World-Action Models
- ›Vision-Language-Action (VLA) models là các robot policies bắt đầu từ backbone VLM (Vision-Language Model) được pre-train
- ›VLA được điều chỉnh để tạo ra các hành động từ quan sát hình ảnh và hướng dẫn ngôn ngữ tự nhiên
- ›Pretraining quy mô lớn của VLM là phần cốt lõi của công thức thành công cho VLA
- ›Các mô hình cụ thể được nhắc đến bao gồm Pi-0 và GR00T N1 làm ví dụ về VLA/WAM tiên tiến
- ›World-Action Models (WAM) là loại policies bắt đầu từ pre-trained world-models hoặc video models
- ›Xu hướng này đại diện cho sự kết hợp pretraining-then-fine-tune để tạo ra các robot agents có khả năng cao hơn
NVIDIA dẫn đầu benchmark agentic AI đầu tiên về mã hóa (AA-AgentPerf)
- ›Artificial Analysis vừa công bố AA-AgentPerf, benchmark mã hóa agentic đầu tiên của ngành, được thiết kế cho nhiều nhà cung cấp.
- ›NVIDIA đạt hiệu suất hàng đầu trên benchmark này.
- ›AA-AgentPerf đo lường cách các hệ thống suy luận hoạt động dưới các điều kiện của các tác vụ mã hóa AI agent thực tế, xử lý độ phức tạp suy luận cao.
- ›Benchmark này giải quyết khoảng trống lâu dài trong ngành về cách đo lường hiệu suất của các hệ thống agent AI.
MiniMax M3 cung cấp suy luận long-context và quy trình agentic đa phương thức
- ›Khi adoption AI doanh nghiệp mở rộng, các lập trình viên phải kết nối các pipeline phân tán (mô hình riêng cho text, vision, code)
- ›Điều này dẫn đến độ phức tạp cao, chi phí tăng, và thời gian phát triển kéo dài
- ›MiniMax M3 là một hệ thống multimodal duy nhất tích hợp text, vision, và code
- ›Nó hỗ trợ long-context reasoning (suy luận trên ngữ cảnh dài) và các quy trình agentic cho enterprise workflows
- ›MiniMax M3 có sẵn trên NVIDIA accelerated infrastructure bao gồm NVIDIA Blackwell
- ›Giải pháp này giúp giảm độ phức tạp, chi phí, và tăng tốc độ phát triển (iteration) cho các ứng dụng AI doanh nghiệp
Bảo mật Đa thuê bao Một Cú Nhấp Chuột với NVIDIA Quantum InfiniBand
- ›NVIDIA Quantum InfiniBand giới thiệu các profile bảo mật dựa trên ý định (intent-based security profiles) trong Unified Fabric Manager (UFM)
- ›Cho phép cấu hình bảo mật mạng đa thuê bao (multi-tenant fabric security) chỉ bằng một cú nhấp chuột, đơn giản hóa quá trình triển khai
- ›Giải quyết nhu cầu bảo vệ nhiều người thuê/tổ chức khác nhau trên cùng một hạ tầng mạng InfiniBand
- ›Tiêu chuẩn bảo mật doanh nghiệp cho môi trường hạ tầng dữ liệu lớn
Chạy DiffusionGemma trên NVIDIA: Sinh tạo Văn bản Tốc độ Cao cho Nhà phát triển
- ›DiffusionGemma do Google DeepMind tạo ra, được tối ưu hóa chuyên biệt để chạy hiệu quả trên nền tảng NVIDIA
- ›Đối trọng vấn đề chai hẹp tốc độ sinh tạo token-by-token trong các ứng dụng AI thời gian thực (chatbot, copilot, agentic workflows)
- ›Cải thiện độ phản hồi, giảm chi phí phục vụ mô hình, và tạo trải nghiệm tương tác mượt mà hơn
- ›Cung cấp khả năng sinh tạo văn bản công suất cao (high-throughput), sẵn dùng cho nhà phát triển mà không cần phức tạp hóa
Thiết kế Hệ thống Lưu trữ Năng lượng Pin Sản xuất cho Nhà máy AI
- ›Nhà máy AI (AI factories) khác biệt cơ bản so với trung tâm dữ liệu truyền thống, được xây dựng để sản xuất trí tuệ nhân tạo quy mô lớn
- ›Chạy khối lượng công việc huấn luyện và suy diễn tiêu thụ nhiều năng lượng, ngày càng hỗ trợ mô hình agentic và reasoning với nhu cầu điện dự đoán bất ổn
- ›Yêu cầu hạ tầng năng lượng linh hoạt, có khả năng đáp ứng nhanh khi nhu cầu tính toán thay đổi đột ngột
- ›Hệ thống lưu trữ năng lượng pin là thành phần then chốt để đảm bảo hiệu suất ổn định, an toàn, và khả năng mở rộng
NVIDIA DGX Spark: Quản lý Vòng đời Cơ sở hạ tầng AI Quy mô Doanh nghiệp
- ›Khi cơ sở hạ tầng AI mở rộng, doanh nghiệp kỳ vọng mức độ trưởng thành hoạt động cao hơn, tương đương các hạ tầng cốt lõi khác
- ›Hệ thống phải có tính sẵn cấp (provisionable), quan sát được (observable), an toàn (secure) và quản lý được ở quy mô lớn
- ›NVIDIA DGX Spark Enterprise Manageability cung cấp kiểm soát toàn vòng đời từ triển khai đến vận hành sản xuất
- ›Thiết kế cho các môi trường doanh nghiệp yêu cầu cao về độ tin cậy, khả dụng, và quản lý tập trung
Lượng tử hóa Mô hình: Từ Checkpoint FP8 đến Suy diễn Hiệu năng Cao với NVIDIA TensorRT
- ›NVIDIA TensorRT cho phép chuyển đổi checkpoint đã lượng tử hóa (quantized checkpoints) thành công cụ suy diễn sản xuất hiệu năng cao
- ›Lượng tử hóa FP8 giảm kích thước mô hình đáng kể đồng thời duy trì chất lượng dự đoán và tương thích
- ›Kết cầu giữa tối ưu hóa mô hình và triển khai sản xuất, bằng cách tối ưu hóa hoàn toàn cho phần cứng NVIDIA
- ›Cho phép suy diễn nhanh hơn, độ trễ thấp hơn, chi phí phục vụ giảm, đáp ứng yêu cầu sản xuất
Tăng tốc Nghiên cứu Học Liên hợp với AI Agents và NVIDIA FLARE Auto-FL
- ›NVIDIA FLARE Auto-FL sử dụng AI Agents để tự động hóa quá trình khám phá không gian tham số trong nghiên cứu học liên hợp (federated learning)
- ›Giải quyết thách thức chọn lựa các thử nghiệm tiếp theo, bao gồm quy tắc tổng hợp, hệ số FedProx, cài đặt optimizer, biến thể SCAFFOLD, và kiến trúc mô hình
- ›Tự động chạy các thí nghiệm song song, đánh giá tác động tới chỉ số hiệu suất, và xác định những thay đổi thực sự cải thiện kết quả
- ›Tăng tốc độ chu kỳ nghiên cứu bằng cách giảm bớt thời gian lập kế hoạch thủ công và xử lý thí nghiệm
Đánh giá mô hình ASR lâm sàng nhanh hơn với Agent Skills và NVIDIA Nemotron Speech
- ›Huấn luyện mô hình nhận diện giọng nói (ASR) cho lĩnh vực y tế rất khó khăn vì các tên thuốc (như Acetaminophen, Amlodipine, Cefazolin, Biktarvy) và tên các quy trình y tế không phải là từ vựng hàng ngày
- ›NVIDIA giới thiệu Nemotron Speech để hỗ trợ đánh giá và cải thiện mô hình ASR lâm sàng hiệu quả hơn
Huấn luyện mô hình nhanh hơn với JAX và MaxText sử dụng NVFP4 trên NVIDIA Blackwell
- ›Huấn luyện các mô hình LLM biên giới phụ thuộc chủ yếu vào thông lượng xử lý (throughput)
- ›Khi huấn luyện trên hàng triệu token trên hàng ngàn GPU, mỗi phần trăm cải thiện thời gian bước huấn luyện có thể tiết kiệm hàng ngày huấn luyện và chi phí tính toán đáng kể
- ›Độ chính xác số (numerical precision) là một trong những yếu tố cấp độ cao nhất để tối ưu hóa hiệu suất huấn luyện
- ›NVFP4 cho phép huấn luyện mixed-precision ở mức độ thấp (low-bit) một cách hiệu quả trên NVIDIA Blackwell, giải quyết vấn đề khó thực hiện trước đây
NVIDIA Nemotron 3 Ultra hỗ trợ suy luận nhanh hơn và hiệu quả hơn cho các agent chạy lâu dài
- ›Các agent AI đang phát triển từ chatbot một lượt đơn giản thành các agent chạy lâu dài (long-running agents) có khả năng suy luận phức tạp
- ›Các agent tiên tiến này có thể duy trì context kỳ hạn dài, sử dụng các công cụ bên ngoài, chạy hiệu quả trong nhiều lượt tương tác liên tiếp để hoàn thành các workflow phức tạp
- ›Một thách thức lớn là các workflow đa-agent gây ra token count tăng nhanh chóng khi agent lên kế hoạch, gọi tool, và gọi các sub-agent
- ›Nemotron 3 Ultra được thiết kế để cải thiện hiệu quả suy luận và giảm tiêu thụ token trong các kịch bản agent chạy lâu dài
Xây dựng các Agent AI cá nhân trên PC Windows với công cụ mới từ Microsoft và NVIDIA
- ›Các agent AI đang thay đổi cách người dùng tương tác với PC của họ trong công việc hàng ngày
- ›Những người sáng tạo, nhà phát triển và những người đam mê AI đã sử dụng rộng rãi các agent này để hỗ trợ các nhiệm vụ như viết code, chỉnh sửa video, quản lý nội dung
- ›Microsoft và NVIDIA hợp tác để trao quyền cho thế hệ nhà phát triển tiếp theo, cho phép xây dựng các agent on-device trên nền tảng Windows
- ›Hợp tác này nhấn mạnh thiết lập dễ dàng hơn, bảo mật gốc được cải thiện, và độc lập của người dùng
Triển khai các Agent tự phát triển để nghiên cứu nhanh hơn, an toàn hơn với Hermes Agent và NVIDIA NemoClaw
- ›Các agent AI là công cụ mạnh mẽ để tổng hợp dữ liệu nhằm tăng tốc độ nghiên cứu, tóm tắt thông tin, và giúp các đội đưa ra quyết định nhanh hơn
- ›Kết hợp dữ liệu nội bộ (internal data) với các nguồn công khai gây ra những thách thức đáng kể về bảo mật và quyền riêng tư
- ›NVIDIA cung cấp ví dụ nguồn mở sử dụng Hermes Agent kết hợp với NVIDIA NemoClaw để tiến hành nghiên cứu sản phẩm an toàn
- ›Giải pháp này cho phép tích hợp dữ liệu từ Outlook, Slack, và GitHub mà vẫn đảm bảo bảo mật thông tin nhạy cảm
Triển khai AI sẵn sàng cho Agent tại Edge với hiệu quả bộ nhớ trong NVIDIA JetPack 7.2
- ›NVIDIA JetPack 7.2 hỗ trợ các agent AI từ thế giới kỹ thuật số chuyển sang triển khai trong môi trường vật lý
- ›Nền tảng Jetson được tối ưu hóa về bộ nhớ và hiệu suất để tăng tốc độ triển khai agent AI thực tế
- ›Hỗ trợ triển khai one-command để đơn giản hóa quá trình đưa agent vào sử dụng
Chạy các Agent AI cục bộ với mô hình nhanh hơn và clustering đa node trên NVIDIA DGX Spark
- ›Sự gia tăng của các agent AI tự trị, chạy lâu dài (autonomous, long-running agents) đã giới thiệu một loại nhu cầu tính toán hoàn toàn mới
- ›Các agent này cần duy trì các cửa sổ context rất lớn, sinh ra nhiều sub-agent đồng thời, và lặp lại liên tục trong các quy trình phức tạp mà không cần phụ thuộc vào cloud
- ›Các mối quan tâm về bảo mật và quyền riêng tư cũng đang gia tăng, thúc đẩy sự chuyển đổi từ cloud sang các agent chạy cục bộ (local agents)
- ›NVIDIA DGX Spark và NemoClaw cung cấp khả năng chạy các agent tự trị cục bộ với mô hình nhanh hơn và hỗ trợ clustering đa node để mở rộng quy mô
Huấn luyện lại mô hình xe tự lái trong vòng lặp kín với NVIDIA Alpamayo
- ›Phát triển chính sách xe tự lái (AV) đòi hỏi thu hẹp khoảng cách giữa huấn luyện và triển khai thực tế
- ›Mô hình vision-language-action (VLA) có khả năng suy luận về cảnh lái phức tạp và tạo ra suy luận trung gian phong phú
- ›Phần lớn mô hình VLA hiện được huấn luyện ở chế độ open-loop (vòng hở), nơi đầu ra mô hình được so sánh trực tiếp với hành vi mục tiêu mà không tính đến ảnh hưởng thực tế lên môi trường
- ›NVIDIA Alpamayo cung cấp khung làm việc để huấn luyện lại các mô hình xe tự lái trong closed-loop (vòng kín), giúp cải thiện hiệu suất triển khai
Phát triển mô hình suy luận, thế giới và hành động cho Physical AI với NVIDIA Cosmos 3
- ›Các hệ thống Physical AI phải hiểu thế giới thực tế trước khi có thể hành động hiệu quả trong nó
- ›Robot, xe tự lái và không gian thông minh cần phải nhận thức được những gì đang xảy ra, dự đoán sự kiện tiếp theo, và tạo ra hành động thích hợp cho các môi trường, cơ thể và nhiệm vụ cụ thể
- ›NVIDIA Cosmos 3 là một foundation model biên giới được thiết kế cho Physical AI, kết hợp khả năng suy luận vật lý, mô hình thế giới và tạo hành động
Nâng cấp cơ sở hạ tầng AI cho Agentic AI với bảo mật In-Silicon NVIDIA DOCA
- ›Thời đại AI đang thúc đẩy một loại cơ sở hạ tầng mới: các AI factories chuyên biến dữ liệu thành trí tuệ
- ›Các tác nhân AI tự trị (autonomous AI agents) đang hoạt động ở quy mô chưa từng có, đòi hỏi cơ sở hạ tầng mạnh mẽ và bảo mật cao
- ›NVIDIA DOCA In-Silicon Security cung cấp giải pháp bảo mật tích hợp trong phần cứng để bảo vệ các AI factories và các tác nhân AI
CPU Vera của NVIDIA thiết lập tiêu chuẩn mới cho tải công việc Agentic AI trong AI Factories
- ›Mỗi làn sóng AI đã tạo ra một quy luật scaling mới: pretraining mở rộng quy mô trí tuệ thông qua dữ liệu lớn hơn, tham số nhiều hơn, và hệ thống GPU song song
- ›Post-training mở rộng quy mô tính hữu dụng thông qua instruction tuning và cân bằng lại GPU cho suy luận generative
- ›Test-time scaling cải thiện khả năng suy luận bằng cách cấp thêm token cho mô hình để suy nghĩ lâu hơn
- ›Agentic AI và reinforcement learning là những lĩnh vực tập trung mới, đòi hỏi một loại CPU chuyên dụng
- ›NVIDIA Vera CPU được thiết kế để đáp ứng các yêu cầu độc đáo của agentic workloads trong AI factories
NVIDIA DSX OS cung cấp phần mềm mở, có thể điều chỉnh để điều hành AI Factories theo quy mô
- ›AI hiện đã trở thành cơ sở hạ tầng thiết yếu, được cung cấp năng lượng bởi các AI factories tạo ra trí tuệ dưới dạng token
- ›Khi nhu cầu tăng, các AI factories phải mở rộng quy mô một cách hiệu quả và đáng tin cậy
- ›NVIDIA DSX OS cung cấp một hệ điều hành phần mềm mở, có kiến trúc modular để điều hành các AI factories ở quy mô lớn
DynoSim: Mô phỏng đường biên giới Pareto
- ›DynoSim là công cụ để mô phỏng và tối ưu hóa các lựa chọn triển khai khi phục vụ mô hình ngôn ngữ lớn (LLM serving)
- ›Việc phục vụ LLM hiện đại khó để điều chỉnh vì triển khai liên quan đến nhiều lựa chọn tương tác: lựa chọn model backend, tensor-parallel shape, chia prefill/decode, số lượng worker
- ›DynoSim giúp tìm ra các điểm Pareto optimal trong không gian các lựa chọn triển khai để cân bằng giữa thông lượng, độ trễ và hiệu quả chi phí
Nền tảng NVIDIA Rubin, Mô hình Mở, Lái xe Tự động: NVIDIA Trình bày Bản đồ cho Tương lai tại CES
- ›NVIDIA công bố nền tảng Rubin - một siêu máy tính AI được thiết kế chung khác thường (extreme-codesigned) với 6 chip, đã bước vào sản xuất đầy đủ, là bước kế tiếp sau kiến trúc Blackwell
- ›Rubin nhằm giảm chi phí tạo token xuống khoảng 1/10 so với nền tảng trước đó, làm cho triển khai AI quy mô lớn trở nên tiết kiệm hơn đáng kể
- ›Nền tảng Rubin bao gồm: Rubin GPU (50 petaflops NVFP4 inference), Vera CPU (tối ưu cho chuyển động dữ liệu và xử lý agentic), NVLink 6, Spectrum-X Ethernet Photonics, ConnectX-9 SuperNICs, BlueField-4 DPU
- ›NVIDIA công bố Alpamayo - một họ mô hình lý luận mở được đào tạo trên các siêu máy tính NVIDIA, dùng cho phát triển xe tự lái
- ›CEO Jensen Huang nhấn mạnh khoảng $10 nghìn tỷ USD giá trị máy tính từ thập kỷ trước đang được hiện đại hóa để sử dụng computing gia tốc