Dòng tin

49 nội dung mới nhất

Tất cả 1915 Chuyên sâu 594 Đã lưu 0

Bản tin hôm nay

Thứ Bảy 13 Th6, 2026 · 294 nội dung

Điều Quan Trọng Nhất Hôm Nay

›Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.

Đọc đầy đủ

Mới hôm nay

Simon WillisonBlueskyBài đăng·khoảng 5 giờ trướcMới

Nâng cấp công cụ OpenAI WebRTC với gpt-realtime-2 và hỗ trợ tài liệu

›Simon Willison nâng cấp công cụ OpenAI-WebRTC playground để sử dụng mô hình gpt-realtime-2 được cải thiện hơn

#LLM #Audio #WebRTC

Simon WillisonXBài đăng·khoảng 5 giờ trướcMới

Nâng cấp công cụ OpenAI WebRTC với gpt-realtime-2 và hỗ trợ tài liệu

›Simon Willison nâng cấp công cụ OpenAI-WebRTC playground để hỗ trợ mô hình gpt-realtime-2 được cải thiện

#LLM #Audio

Simon WillisonBlogBài viết·khoảng 5 giờ trướcMớiHot

OpenAI WebRTC Audio Session - Hỗ trợ ngữ cảnh tài liệu

›Simon Willison xây dựng phiên bản đầu tiên tháng 12/2024 để thử nghiệm OpenAI WebRTC API cho tương tác với mô hình audio realtime
›OpenAI gần đây giới thiệu gpt-realtime-2 - 'mô hình giọng nói đầu tiên với khả năng suy luận như GPT-5' với kiến thức cắt ngang 30/9/2024
›Mô hình vẫn chưa xuất hiện trong ứng dụng iPhone ChatGPT, nên Simon nâng cấp công cụ để sử dụng gpt-realtime-2
›Cập nhật cho phép chọn mô hình, dán ngữ cảnh tài liệu lớn, và trò chuyện bằng giọng nói trực tiếp
›Giao diện bao gồm token API, chọn giọng/mô hình, vùng dán tài liệu (tùy chọn), và hiển thị transcript

#LLM #Audio #gpt-realtime-2

DAIR.AIXBài đăng·khoảng 9 giờ trướcMới

Text-to-SQL không phải bài toán đã giải quyết

›Text-to-SQL tưởng chừng như đã là bài toán được giải quyết nhưng thực tế vẫn còn nhiều thách thức do dữ liệu thực tế rất phức tạp và lộn xộn

#LLM #Text-to-SQL #Google Gemini

Ethan MollickXBài đăng·khoảng 10 giờ trướcMới

Claude Fable 5 đạt điểm cao trên benchmark FrontierMath

›Claude Fable 5 ghi dấu ấn trên bài kiểm tra FrontierMath với tỷ lệ chính xác 87% trên Tiers 1-3 và 88% trên Tier 4 (v2)

#LLM #FrontierMath #Đánh giá hiệu suất

AK (_akhaliq)XBài đăng·khoảng 10 giờ trướcMới

SpenseGPT: Cắt tỉa một lần cho GEMM thưa/dày trong suy luận LLM

›SpenseGPT là phương pháp cắt tỉa một lần (one-shot pruning) được thiết kế cho suy luận LLM

#LLM #Tối ưu hóa #Pruning

AK (_akhaliq)XBài đăng·khoảng 12 giờ trướcMới

MiniMax phát hành kernel trên Hugging Face

›MiniMax đã phát hành kernel MSA trên Hugging Face Kernel Hub

#LLM #Tối ưu hóa #Kernel

Hugging FaceXBài đăng·khoảng 12 giờ trướcMới

MiniMax phát hành kernel trên Hugging Face

›MiniMax đã phát hành một kernel mới trên nền tảng Hugging Face

#Hugging Face #Công cụ phát triển #LLM

AK (_akhaliq)XBài đăng·khoảng 14 giờ trướcMới

MiniMax M3: Mô Hình Mã Mở 428 Tỷ Tham Số Dành Cho Thời Đại Agent

›MiniMax M3 từ MiniMax_AI được phát hành trên Hugging Face với mã nguồn mở hoàn toàn

#LLM #Mã nguồn mở #Agent AI #MiniMax

Clement DelangueXBài đăng·khoảng 14 giờ trướcMới

MiniMax M3 - Mô Hình Open-Weight Trên Hugging Face

›MiniMax M3 từ MiniMax AI hiện đã khả dụng trên Hugging Face, được hỗ trợ bởi Novita.

#LLM #Open-source models #AI agents

Hugging FaceXBài đăng·khoảng 14 giờ trướcMới

MiniMax M3 - Mô hình 428B với 23B tham số kích hoạt

›MiniMax M3 hiện đã có sẵn trên Hugging Face, được hỗ trợ bởi Novita

#LLM #Open weights #Mixture of Experts

Ethan MollickXBài đăng·khoảng 14 giờ trướcMới

Các mô hình LLM frontier vượt trội các công cụ AI lâm sàng

›Các frontier LLM (Google, OpenAI, Anthropic) vượt trội hơn các công cụ AI lâm sàng chuyên dụng như OpenEvidence và UpToDate trên ba bài đánh giá

#LLM #Y tế lâm sàng #AI biên giới #Đánh giá mô hình

Clement DelangueXBài đăng·khoảng 15 giờ trướcMới

Kimi-K2.7-Code - Mô Hình Lập Trình Mới

›Mô hình Kimi-K2.7-Code đã được phát hành trên Hugging Face.

#LLM #Code generation #Hugging Face

Hugging FaceXBài đăng·khoảng 15 giờ trướcMới

Hugging Face giới thiệu Kimi-K2.7-Code của Moonshot AI

›Hugging Face chia sẻ mô hình Kimi-K2.7-Code từ Moonshot AI

#LLM #Code Generation #Moonshot AI

Clement DelangueXBài đăng·khoảng 15 giờ trướcMới

MiniMax M3 - Mô Hình Open-Weight Với Hiệu Năng Coding Đột Phá

›MiniMax M3 là mô hình open-weight với ~428B tham số tổng cộng và ~23B tham số hoạt động, phát hành trên Hugging Face.

#LLM #Code generation #Sparse attention

Hugging FaceXBài đăng·khoảng 15 giờ trướcMới

MiniMax v3 xuất bản với kernel MSA tối ưu hóa chuỗi dài

›MiniMax v3 được phát hành kèm kernel MSA (Multi-head Sparse Attention) mới

#LLM #Tối ưu hóa #Hiệu suất suy luận

Clement DelangueXBài đăng·khoảng 18 giờ trướcMới

Kimi phát hành Kimi-K2.7-Code - mô hình code frontier mới open source

›Kimi.ai (Moonshot AI) đã công bố Kimi-K2.7-Code, một mô hình code open source mới thuộc dòng frontier (tiên tiến)

#Open source #Code generation #LLM

Clement DelangueXBài đăng·khoảng 19 giờ trướcMới

Công bố mã và trọng số Kimi K2.7-Code

›Công bố mô hình Kimi K2.7-Code cùng mã nguồn mở và trọng số

#LLM #Mã nguồn mở #Hugging Face

Trước đó

DAIR.AIXBài đăng·1 ngày trước

Kỹ năng /learn: công cụ học tập thích ứng sắp ra mắt

›Giới thiệu kỹ năng /learn — một công cụ học tập có thể tùy chỉnh theo chủ đề và mức độ hiểu biết của người dùng

#Công cụ học tập #LLM #Giáo dục

Ethan MollickXBài đăng·1 ngày trước

Mâu thuẫn trong các con số không phải là vấn đề prompt đơn thuần

›Ethan Mollick trả lời các bình luận, bất đồng với quan điểm rằng một vấn đề chỉ là 'pure prompting problem'

#LLM #Prompting #Hạn chế AI

Ethan MollickXBài đăng·1 ngày trước

Các mô hình LLM tiên tiến vẫn thất bại với bài kiểm tra dịch thuật Beninatto-Trombetti

›Valerio Capraro giới thiệu 'Beninatto-Trombetti test', bài kiểm tra dịch thuật chuyên nghiệp để đánh giá khả năng suy luận ngữ cảnh và cập nhật hình thức của các LLM

#LLM #Dịch thuật #AGI #Hiểu biết AI

DAIR.AIXBài đăng·1 ngày trước

Opus 4.8 và GPT-5.5: sự kết hợp tối ưu lập kế hoạch và thực thi

›Sử dụng Claude Opus 4.8 cho lập kế hoạch (planning) và GPT-5.5 cho thực thi (execution) là sự kết hợp hiệu quả

#LLM #Quy trình công việc #Claude Opus

John CarmackXBài đăng·1 ngày trước

Tối ưu hóa phong cách lập trình để các mô hình LLM yếu hơn cũng có thể xử lý code

›Có thể tối ưu hóa cách viết code sao cho các mô hình LLM yếu hơn vẫn có khả năng thực hiện được nhiệm vụ trong một codebase

#LLM #Lập trình #Tối ưu hóa #Khả năng hiểu

Hugging FaceXBài đăng·1 ngày trước

Atomic Chat chính thức được công bố trên Hugging Face

›Atomic Chat được chính thức công bố là một Local App trên Hugging Face - nền tảng AI lớn nhất thế giới

#Hugging Face #LLM #Ứng dụng local

SantiagoXBài đăng·1 ngày trước

Nhắc Nhở Hàng Ngày: Sử Dụng Gateway Giữa Code và Các Nhà Cung Cấp Mô Hình

›Khuyên sử dụng gateway/API gateway làm trung gian giữa code và các nhà cung cấp mô hình AI thay vì kết nối trực tiếp

#LLM #DevOps #Kiến trúc phần mềm

Jeremy HowardXBài đăng·2 ngày trước

Ma trận so sánh các mô hình LLM

›Chia sẻ ma trận so sánh các mô hình ngôn ngữ lớn (hình ảnh)

#LLM #So sánh mô hình

AK (_akhaliq)HF PapersPaper·2 ngày trước

MiniMax Sparse Attention: Xử Lý Ngữ Cảnh Siêu Dài Hiệu Quả cho LLM

›Giới thiệu MiniMax Sparse Attention (MSA), cơ chế attention thưa theo khối dựa trên Grouped Query Attention (GQA) để xử lý ngữ cảnh 1M token
›Index Branch nhẹ xác điểm key-value blocks và độc lập chọn Top-k subset cho mỗi GQA group; Main Branch thực hiện block-sparse attention chính xác trên blocks được chọn
›Thiết kế đơn giản, dễ triển khai hiệu quả trên nhiều GPU; đồng thiết kế kernel GPU sử dụng exp-free Top-k selection và KV-outer sparse attention
›Trên mô hình 109B tham số với native multimodal training: giảm per-token attention compute 28.4x ở ngữ cảnh 1M, đạt 14.2x tăng tốc prefill và 7.6x decoding trên H800
›MiniMax-M3, mô hình natively multimodal production-grade sử dụng MSA, đã release công khai trên Hugging Face; inference kernel available trên GitHub

#LLM #Xử lý ngữ cảnh dài #Tối ưu hóa inference

AK (_akhaliq)HF PapersPaper·2 ngày trước

MaxProof: Tỷ Lệ Hóa Chứng Minh Toán Học Bằng Generative Verifier RL Và Test-Time Scaling Cấp Quần Thể

›MaxProof là framework test-time scaling chuyên dụng cho bài toán chứng minh toán cấp thi (IMO, USAMO), khác biệt với các cách tiếp cận truyền thống.
›Giai đoạn huấn luyện kết hợp ba khả năng: sinh chứng minh (generation), xác minh (verification), và sửa có điều kiện (conditional refinement), sử dụng generative verifier có tỷ lệ false-positive thấp.
›Tích hợp ba khả năng này thành một model M3 đơn nhất có thể hoạt động như generator, verifier, refiner, và ranker trong quá trình inference.
›Test-time strategy sử dụng tìm kiếm trên quần thể (population search) các chứng minh ứng viên kết hợp tournament selection để lựa chọn đáp án tốt nhất.
›Đạt kết quả ngoạn mục: 35/42 câu hỏi IMO 2025 và 36/42 câu hỏi USAMO 2026, vượt qua ngưỡng huy chương vàng (top 8 contestants) trên cả hai kỳ thi.

#Chứng Minh Toán Học #LLM #Reinforcement Learning

Simon WillisonBlogBài viết·2 ngày trước

Phát hành datasette-agent 0.2a0 với tính năng hỏi người dùng giữa lúc thực thi

›datasette-agent 0.2a0 cho phép các công cụ hỏi người dùng câu hỏi trong quá trình thực thi - công cụ khai báo tham số `context` để nhận đối tượng `ToolContext`
›Công cụ sử dụng `await context.ask_user()` để hỏi yes/no, multiple-choice hoặc free-text questions
›Khi câu hỏi chưa được trả lời, agent turn bị tạm dừng - câu hỏi render thành form trong chat UI và lưu trữ trong database nội bộ để phục hồi sau khi server khởi động lại
›Khi câu trả lời được gửi, công cụ thực thi lại từ đầu với các câu trả lời đã lưu được replay, đảm bảo không có side effects trước khi người dùng trả lời
›Công cụ `save_query` mới cho phép agent lưu SQL dưới dạng Datasette stored query - quá trình lưu luôn yêu cầu phê duyệt từ người dùng với hiển thị SQL đầy đủ, tên, database và cài đặt visibility

#Datasette #Agent #LLM #Tool calling

SantiagoXBài đăng·2 ngày trước

Nhà cung cấp voice AI hàng đầu giảm giá API 50% trên toàn bộ stack

›Inworld AI, một trong những nhà cung cấp voice AI tốt nhất, đã giảm giá API khoảng 50% trên toàn bộ stack gồm TTS, STT và LLM

#Voice AI #Giá cả #Inworld AI #LLM

Jeremy HowardXBài đăng·2 ngày trước

Anthropic giới hạn các khả năng vô hại như nghiên cứu LLM với bộ lọc moderation quá nhạy cảm

›Anthropic đang áp dụng các biện pháp gating (giới hạn khả năng) đối với các hoạt động vô hại như nghiên cứu LLM.

#Anthropic #LLM #An toàn AI #Moderation

Ethan MollickXBài đăng·2 ngày trước

Tại sao chỉ chuyển sang mô hình rẻ hơn không phải là giải pháp tối ưu

›Lời khuyên 'chuyển sang mô hình rẻ hơn để tiết kiệm chi phí' là không tối ưu vì các mô hình rẻ hơn luôn kém chất lượng hơn

#Tối ưu chi phí #LLM #Kiến trúc hệ thống

SantiagoXBài đăng·3 ngày trước

Lần đầu tiên chạy mô hình trillion-parameter trên thiết bị cá nhân

›Công bố lần đầu tiên: có thể chạy mô hình trillion-parameter (1 triệu tỷ tham số) trên phần cứng cá nhân, nhờ công nghệ NVIDIA-accelerated

#LLM #AI agentic #Azure AI Foundry #NVIDIA

NVIDIA AIBlogBài viết·3 ngày trước

Chạy DiffusionGemma trên NVIDIA: Sinh tạo Văn bản Tốc độ Cao cho Nhà phát triển

›DiffusionGemma do Google DeepMind tạo ra, được tối ưu hóa chuyên biệt để chạy hiệu quả trên nền tảng NVIDIA
›Đối trọng vấn đề chai hẹp tốc độ sinh tạo token-by-token trong các ứng dụng AI thời gian thực (chatbot, copilot, agentic workflows)
›Cải thiện độ phản hồi, giảm chi phí phục vụ mô hình, và tạo trải nghiệm tương tác mượt mà hơn
›Cung cấp khả năng sinh tạo văn bản công suất cao (high-throughput), sẵn dùng cho nhà phát triển mà không cần phức tạp hóa

#Mô hình ngôn ngữ #NVIDIA #Sinh tạo văn bản #LLM

Simon WillisonXBài đăng·3 ngày trước

Lời kêu gọi Anthropic thay đổi chính sách về hành động thao túng mô hình AI

›Simon Willison chỉ trích Anthropic - công ty nổi tiếng vì nhận thức về AI manipulation (thao túng AI) - lại đang cho phép các hành động mà anh coi là hình thức cao nhất của thao túng: cung cấp ý định các câu trả lời xấu cho người dùng mà họ không biết

#Anthropic #Đạo đức AI #Thao túng mô hình #LLM

swyx (Shawn Wang)XBài đăng·3 ngày trước

34 ngày từ ký kết hợp đồng đến phát hành mô hình Mythos

›Mô hình Mythos-class được phát hành chỉ trong vòng 34 ngày kể từ ký kết hợp đồng, cho thấy tốc độ phát triển đáng chú ý

#Mythos #LLM #Inference #Hợp tác chiến lược

swyx (Shawn Wang)XBài đăng·3 ngày trước

Phân tích FrontierCode: 3 era của AI coding và 'vibe shift' tháng 12 2025

›METR phát hiện hơn 50% kết quả SWEBench là mã chất lượng thấp không thể merge

#FrontierCode #Benchmark #LLM #Coding AI

swyx (Shawn Wang)XBài đăng·3 ngày trước

FC Diamond: Sự tăng vọt lớn và Fable là class mô hình hoàn toàn mới

›Kết quả FC Diamond cho thấy mức độ tăng vọt lớn hơn các biểu đồ chính thức, phá vỡ các curve fit truyền thống

#Claude Fable #Mythos #Benchmark #LLM

Andrej KarpathyXBài đăng·3 ngày trước

Claude Fable 5: Bước tiến lớn với hiệu suất SOTA trên mọi benchmark

›Claude Fable 5 dùng cùng mô hình cơ bản như Mythos nhưng có thêm các biện pháp bảo vệ an toàn, đạt SOTA trên hầu hết benchmark

#LLM #Claude #Benchmark #Phát triển phần mềm

Jeremy HowardXBài đăng·3 ngày trước

Holy chart crime – Nhận xét về Claude Fable 5 đạt 72.9% trên CursorBench

›Cursor công bố Claude Fable 5 hiện có sẵn, đạt kết quả 72.9% trên CursorBench, cao hơn 8 điểm so với kết quả tốt nhất trước đó.

#LLM #Claude #Benchmark

Jeremy HowardXBài đăng·3 ngày trước

Mythos sẽ cố ý kém hiệu suất trên các tác vụ nghiên cứu LLM biên giới

›Mythos sẽ cố ý hoạt động kém trên các tác vụ 'frontier LLM research', là tin buồn cho cộng đồng nghiên cứu.

#LLM #Claude Fable #Frontier Research #An toàn AI

DAIR.AIXBài đăng·3 ngày trước

Anthropic Giới Thiệu Claude Fable 5: Mô Hình Mythos-class Dành Cho Sử Dụng Chung

›Anthropic ra mắt Claude Fable 5 - một mô hình Mythos-class đã được đảm bảo an toàn cho sử dụng chung

#Claude #LLM #Anthropic #Frontier Models

AnthropicXBài đăng·3 ngày trước

Giới thiệu Claude Fable 5: Mô hình Mythos-class

›Anthropic giới thiệu Claude Fable 5, một mô hình Mythos-class được tối ưu hóa cho sử dụng chung an toàn.

#Anthropic #Claude #LLM

Matt WolfeXBài đăng·4 ngày trước

Claude Fable 5 và Mythos 5: Kỷ nguyên thứ ba của AI - từ task sang responsibility

›Anthropic công bố Claude Fable 5 và Mythos 5, hai phiên bản khác nhau của next major language model

#Claude #Fable 5 #LLM #AI agents

AnthropicYouTubeVideo·4 ngày trước

Giới thiệu Claude Fable 5

›Anthropic công bố phiên bản Claude Fable 5

#Claude #Anthropic #LLM

Yann LeCunXBài đăng·4 ngày trước

LCML - Các Mô hình Ngôn ngữ Nén Ngữ cảnh Tiềm ẩn

›Các nhà nghiên cứu đã phát triển LCML (Latent Context Language Models) - mô hình ngôn ngữ có khả năng nén các ngữ cảnh lớn thành các biểu diễn tiềm ẩn nhỏ gọn

#LLM #Tối ưu hóa hiệu suất #Nén ngữ cảnh

NVIDIA AIBlogBài viết·4 ngày trước

Huấn luyện mô hình nhanh hơn với JAX và MaxText sử dụng NVFP4 trên NVIDIA Blackwell

›Huấn luyện các mô hình LLM biên giới phụ thuộc chủ yếu vào thông lượng xử lý (throughput)
›Khi huấn luyện trên hàng triệu token trên hàng ngàn GPU, mỗi phần trăm cải thiện thời gian bước huấn luyện có thể tiết kiệm hàng ngày huấn luyện và chi phí tính toán đáng kể
›Độ chính xác số (numerical precision) là một trong những yếu tố cấp độ cao nhất để tối ưu hóa hiệu suất huấn luyện
›NVFP4 cho phép huấn luyện mixed-precision ở mức độ thấp (low-bit) một cách hiệu quả trên NVIDIA Blackwell, giải quyết vấn đề khó thực hiện trước đây

#Huấn luyện mô hình #NVIDIA Blackwell #Mixed-precision #LLM

DAIR.AIXBài đăng·5 ngày trước

Mã hóa hướng dẫn rõ ràng vào các automation với mục tiêu cụ thể

›Nên bắt đầu triển khai các cách mã hóa instructions/prompts có mục tiêu rõ ràng vào các automation

#Agents #Automation #LLM #Prompting

Jeremy HowardXBài đăng·6 ngày trước

Những kết quả kỳ diệu từ distillation của Geoffrey Hinton

›Geoffrey Hinton công bố những kết quả về distillation (chưng cất mô hình) gây sốc — mức độ mạnh mẽ và hiệu quả vượt quá mong đợi ngay cả khi được dịch giả Jeremy Howard thừa nhận chưa hoàn toàn hiểu hết

#Distillation #Model Compression #LLM

Xem thêm tin cũ hơn (197)