Dòng tin

7 nội dung mới nhất
Bản tin hôm nay

Thứ Bảy 13 Th6, 2026 · 294 nội dung
Điều Quan Trọng Nhất Hôm Nay
  • Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.
Tất cả
Santiago
SantiagoXBài đăng·3 ngày trước
NVIDIA và Microsoft công bố 2 thiết bị AI mới: DGX Station và RTX Spark
  • NVIDIA phát hành DGX Station với superchip GB300 và hỗ trợ tối đa 748GB bộ nhớ
AK (_akhaliq)
AK (_akhaliq)XBài đăng·10 ngày trước
GPU Forecasters - Sử dụng LLM tối ưu hóa nhân GPU
  • Giới thiệu "GPU Forecasters", nghiên cứu khám phá liệu các mô hình ngôn ngữ (LLM) có thể hoạt động như công cụ chuyên biệt để tối ưu hóa nhân GPU
AK (_akhaliq)
AK (_akhaliq)XBài đăng·11 ngày trước
GPU Forecasters - Các mô hình ngôn ngữ làm surrogate lựa chọn để tối ưu thời gian chạy kernel
  • Bài báo sử dụng Language Models (LLM) để dự đoán hiệu suất GPU và tối ưu thời gian chạy của các kernel GPU
#GPU#Tối ưu hóa#LLM
AK (_akhaliq)
AK (_akhaliq)XBài đăng·11 ngày trước
Bài báo GPU Forecasters (2605.30611)
  • Chia sẻ link đến bài báo 2605.30611 trên HuggingFace Papers, liên quan đến tối ưu GPU sử dụng language models
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·15 ngày trước
Giải mã đường ống suy đoán: suy đoán độ chính xác cao hơn và không bong bóng qua song song hóa
  • Speculative Decoding đẩy nhanh suy luận LLM thấp concurrency bằng paradigm draft-then-verify, nhưng gặp khó khăn với dự đoán đa token và độ trễ drafting tuần tự
  • Speculative Pipeline Decoding (SPD) phân vùng mô hình LLM thành n giai đoạn pipeline, cho phép xử lý n token song song để tăng tốc giải mã
  • Module suy đoán tổng hợp các tính năng trung gian trên các độ sâu pipeline khác nhau để dự đoán token tiếp theo, thực thi song song với bước pipeline mô hình
  • Đạt độ khó bị giới hạn, tỷ lệ chấp nhận cao hơn, và không có bong bóng độ trễ (zero latency bubbles)
  • Thử nghiệm chứng minh SPD đạt tăng tốc lý thuyết đáng kể so với baselines chính thống, giải pháp có khả năng mở rộng cho tăng tốc giải mã LLM
  • Mã nguồn có sẵn trên GitHub
Andrew Ng
Andrew NgXBài đăng·30 ngày trước
Khóa học: Transformer thực hành - Hiểu cách LLM hoạt động để tối ưu triển khai
  • Cung cấp cái nhìn thực hành về transformer-based LLM để suy luận hành vi và chẩn đoán vấn đề inference.
John Carmack
John CarmackXBài đăng·khoảng 1 tháng trước
Hiệu suất GPU thường xuyên không ổn định - thời gian chạy torch.linalg.solve_ex() tăng 10 lần khi ma trận từ 511×511 lên 512×512
  • Hiệu suất GPU có tính chất 'notchy' (gồ ghề) - thay đổi mạnh mẽ khi kích thước đầu vào thay đổi tí chút.