Dòng tin

6 nội dung mới nhất
Bản tin hôm nay

Thứ Bảy 13 Th6, 2026 · 294 nội dung
Điều Quan Trọng Nhất Hôm Nay
  • Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.
Tất cả
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·3 ngày trước
Fine-tuning Mô Hình LLM Đa Phương Tiện với ART: Huấn Luyện Tăng Cường Dựa Trên Nghệ Thuật
  • Các kỹ thuật PEFT hiện tại (LoRA, Soft Prompting) yêu cầu sửa đổi đồ thị tính toán của LLM, không tương thích đầy đủ với các engine tối ưu hóa cao thông lượng như vLLM
  • Bài báo đề xuất ART (Art-based Reinforcement Training) - phương pháp fine-tuning Multimodal LLM (MLLM) bằng cách chỉ tối ưu hóa raw visual input (đầu vào hình ảnh thô), cho phép sử dụng soft-token approach trên đồ thị tính toán đã được biên dịch
  • Phương pháp dựa vào backpropagation gradient vào một mảng pixel đơn giản, hỗ trợ bất kỳ mục tiêu fine-tuning nào mà không cần sửa đồ thị tính toán
  • Đầu vào hình ảnh được tối ưu hóa có thể được tạo kiểu dưới dạng các tác phẩm tính toán liên quan đến nhiệm vụ
  • Hiệu quả được xác nhận trên các kích thước khác nhau của kiến trúc Qwen phổ biến và trên nhiều benchmark textual
  • ART đạt độ chính xác cạnh tranh với LoRA trên các benchmark về toán học (mathematics) và sử dụng công cụ cấu trúc (structured-tool-use)
Sebastian Raschka
Sebastian RaschkaXBài đăng·4 ngày trước
Luôn quay lại những điều cơ bản: LatentMoE lấy cảm hứng từ MLA, từ LoRA, từ SVD, từ eigendecomposition
  • Trình bày chuỗi phát triển từng bước của các kỹ thuật hiện đại: LatentMoE → MLA → LoRA → SVD → eigendecomposition
AK (_akhaliq)
AK (_akhaliq)XBài đăng·8 ngày trước
Code2LoRA: Bộ Điều Phối Tạo Bởi Hypernetwork cho Mô Hình Ngôn Ngữ Code dưới Sự Tiến Hóa Phần Mềm
  • Giới thiệu Code2LoRA, một framework hypernetwork tạo LoRA adapters riêng cho từng repository
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·9 ngày trước
Code2LoRA: Bộ Điều Phối Tạo Bởi Hypernetwork cho Mô Hình Ngôn Ngữ Code dưới Sự Tiến Hóa Phần Mềm
  • Code language models cần context cấp repository để giải quyết imports, APIs, và project conventions, nhưng các phương pháp hiện tại (inject long inputs qua RAG/dependency analysis hoặc per-repository fine-tuning) tốn kém ở quy mô repository và yếu với codebase tiến hóa
  • Giới thiệu Code2LoRA, framework hypernetwork tạo repository-specific LoRA adapters hiệu quả chèn kiến thức repository với zero inference-time token overhead
  • Code2LoRA-Static chuyển đổi single repository snapshot thành adapter (phù hợp codebases ổn định); Code2LoRA-Evo duy trì adapter với GRU hidden state cập nhật per code diff (phù hợp active development)
  • Xây dựng RepoPeftBench benchmark: 604 Python repositories, static track (40K training + 12K test assertion-completion tasks), evolution track (215K commit-derived training + 87K commit-derived test tasks)
  • Code2LoRA-Static đạt 63.8% cross-repo exact match và 66.2% in-repo exact match, tương đương with per-repository LoRA upper bound
  • Code2LoRA-Evo đạt 60.3% cross-repo exact match (+5.2 pp so với shared LoRA), code/checkpoints/datasets công khai trên HuggingFace
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·12 ngày trước
VLMs là những giáo viên tốt cho suy luận video thông qua tối ưu hóa thích ứng
  • Paradigm 'Reasoning with Video' sử dụng Video Generation Models (VGMs) để tạo quỹ đạo trực quan nhất quán theo thời gian cho các tác vụ suy luận, nhưng VGMs thường gặp khó khăn trong việc hiểu và tuân theo các quy tắc cụ thể của tác vụ
  • Các nỗ lực trước đây sử dụng VLMs làm problem pre-solvers, tuy nhiên mô tả văn bản không thể nắm bắt được những chi tiết spatio-temporal phức tạp và VGMs khó thực thi các chỉ dẫn chi tiết
  • Đề xuất sự thay đổi paradigm: sử dụng VLMs như 'giáo viên' thay vì 'giải quyết vấn đề'. VLM teacher trích xuất các quy tắc cụ thể của tác vụ để formulate differentiable rewards hướng dẫn VGM
  • Hướng dẫn VGM Reasoner thông qua test-time online optimization của một lightweight LoRA module, cho phép adaptive test-time optimization mở rộng khả năng suy luận vượt ra ngoài giới hạn nội tại của VGM
  • Đánh giá trên symbolic (VBVR-Bench) và general-purpose (RULER-Bench) video reasoning benchmarks cho thấy cải thiện hiệu suất trung bình 16.7 điểm
  • Vượt trội hơn VLM-as-Solver paradigm (+0.4 điểm) và Best-of-N scaling (+2.2 điểm) ở chi phí test-time tương đương, chứng minh VLMs như giáo viên thời gian kiểm tra là paradigm hứa hẹn cho video reasoning tổng quát
Sebastian Raschka
Sebastian RaschkaXBài đăng·2 tháng trước
MiCA vượt trội hơn LoRA và fine-tuning toàn bộ trong tinh chỉnh hiệu quả tham số
  • Giới thiệu kỹ thuật MiCA cho parameter-efficient fine-tuning (PEFT), vượt trội LoRA.