Dòng tin

7 nội dung mới nhất

Bản tin hôm nay

Thứ Bảy 13 Th6, 2026 · 294 nội dung

Điều Quan Trọng Nhất Hôm Nay

›Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.

Tất cả

SantiagoXBài đăng·3 ngày trước

AK (_akhaliq)XBài đăng·10 ngày trước

›Giới thiệu "GPU Forecasters", nghiên cứu khám phá liệu các mô hình ngôn ngữ (LLM) có thể hoạt động như công cụ chuyên biệt để tối ưu hóa nhân GPU

AK (_akhaliq)XBài đăng·11 ngày trước

›Bài báo sử dụng Language Models (LLM) để dự đoán hiệu suất GPU và tối ưu thời gian chạy của các kernel GPU

AK (_akhaliq)XBài đăng·11 ngày trước

›Chia sẻ link đến bài báo 2605.30611 trên HuggingFace Papers, liên quan đến tối ưu GPU sử dụng language models

AK (_akhaliq)HF PapersPaper·15 ngày trước

›Speculative Decoding đẩy nhanh suy luận LLM thấp concurrency bằng paradigm draft-then-verify, nhưng gặp khó khăn với dự đoán đa token và độ trễ drafting tuần tự
›Speculative Pipeline Decoding (SPD) phân vùng mô hình LLM thành n giai đoạn pipeline, cho phép xử lý n token song song để tăng tốc giải mã
›Module suy đoán tổng hợp các tính năng trung gian trên các độ sâu pipeline khác nhau để dự đoán token tiếp theo, thực thi song song với bước pipeline mô hình
›Đạt độ khó bị giới hạn, tỷ lệ chấp nhận cao hơn, và không có bong bóng độ trễ (zero latency bubbles)
›Thử nghiệm chứng minh SPD đạt tăng tốc lý thuyết đáng kể so với baselines chính thống, giải pháp có khả năng mở rộng cho tăng tốc giải mã LLM
›Mã nguồn có sẵn trên GitHub

Andrew NgXBài đăng·30 ngày trước

›Cung cấp cái nhìn thực hành về transformer-based LLM để suy luận hành vi và chẩn đoán vấn đề inference.

John CarmackXBài đăng·khoảng 1 tháng trước

›Hiệu suất GPU có tính chất 'notchy' (gồ ghề) - thay đổi mạnh mẽ khi kích thước đầu vào thay đổi tí chút.