Dòng tin
Bản tin hôm nay
🤖 Bản tin AI Hằng ngày: Cân bằng giữa Đột phá và Kiểm soát
Thứ Ba 16 Th6, 2026 · 94 nội dung
⚖️ Chính sách & Tranh luận
- ›Chuyên gia Simon Willison chỉ trích lệnh cấm xuất khẩu mô hình Fable có thể gây hại cho phòng thủ mạng, trong khi Clement Delangue nhấn mạnh mã nguồn mở là chìa khóa để doanh nghiệp không bị "khóa chặt" vào các nhà cung cấp độc quyền.
🧬 Đột phá Công nghệ & Mô hình Mới
- ›Radical Numerics gọi vốn 50 triệu USD ra mắt mô hình ngôn ngữ hệ gen Omnii, trong khi Cartesia tung ra Sonic-3.5 với chất lượng giọng nói khó phân biệt với người thật, đặt ra thách thức lớn cho các tổng đài truyền thống.
💻 Tư duy Lập trình & AI Agents
- ›swyx dự đoán quy trình review code truyền thống sẽ biến mất vào năm 2026, thay vào đó là sự lên ngôi của các "harness" (khung làm việc) thông minh. Bài học rút ra: Đừng chỉ dùng API trần, hãy học cách xây dựng hệ thống bao bọc (scaffolding) để tối ưu hóa sức mạnh thực sự của mô hình.
🌍 Tầm nhìn Tương lai & Đạo đức
- ›Fei-Fei Li nhấn mạnh tương lai AI phải dựa trên quyền tự chủ và sự thấu hiểu của con người qua các "world models". Đồng thời, François Chollet cảnh báo rằng thiếu các benchmark tiêu chuẩn hóa sẽ khiến ngành AI dễ bị tổn thương trước các quy định tùy tiện của chính phủ.
Tất cả
SWITCH: Suy Luận Tiềm Ẩn Có Thể Chuyển Đổi với Reinforcement Learning On-Policy
- ›Latent chain-of-thought nén suy luận bằng thay thế trace suy luận hiển thị bằng hidden-state recurrence liên tục, nhưng khó tối ưu hóa với standard on-policy RL và khó diễn giải nhân quả
- ›Đề xuất SWITCH, framework suy luận tiềm ẩn có thể chuyển đổi, sử dụng một cặp explicit boundary tokens <swi> (vào) và </swi> (thoát) để giải quyết cả hai vấn đề
- ›Các token ranh giới là discrete tokens thông thường, làm GRPO policy ratio được xác định tốt ở mọi decision point; cũng cung cấp foothold tự nhiên cho mechanistic analysis
- ›Huấn luyện với visible-to-latent curriculum và Switch-GRPO objective truyền gradient qua recurrent latent computation
- ›SWITCH vượt trội hơn các prior hidden-state-recurrence latent reasoning approaches ở quy mô tương tự
- ›Mechanistic analysis tiết lộ: (i) <swi> là learned switching policy tập trung cục bộ, (ii) latent step thực hiện problem-specific causally-important computation, (iii) tính toán tập trung ở single hidden-state transition trên entry
InterleaveThinker: Tăng Cường Sinh Hình Xen Kẽ Cho Các Agent AI
- ›InterleaveThinker giải quyết hạn chế của các bộ sinh ảnh hiện đại không thể tạo ra các chuỗi ảnh-text xen kẽ một cách liền mạch và có logic.
- ›Pipeline đa agent đầu tiên trang bị khả năng sinh xen kẽ cho bất kỳ bộ sinh ảnh nào, sử dụng planner agent để tổ chức chuỗi sinh thành và critic agent để đánh giá chất lượng outputs.
- ›Xây dựng ba bộ dữ liệu SFT chuyên biệt: Interleave-Planner-SFT-80k, Interleave-Critic-SFT-112k, và Interleave-Critic-RL-13k để huấn luyện các thành phần chủ chốt.
- ›Áp dụng GRPO (Generative Policy Reward Optimization) để tăng cường khả năng sửa lỗi từng bước, kết hợp reward chính xác (exact) và step-wise reward để tối ưu hóa toàn bộ trajectory.
- ›Đạt hiệu năng ngang với Nano Banana và GPT-5 trên các benchmark sinh ảnh-text xen kẽ, đồng thời cải thiện đáng kể trên các benchmark suy luận phức tạp.
MaxProof: Tỷ Lệ Hóa Chứng Minh Toán Học Bằng Generative Verifier RL Và Test-Time Scaling Cấp Quần Thể
- ›MaxProof là framework test-time scaling chuyên dụng cho bài toán chứng minh toán cấp thi (IMO, USAMO), khác biệt với các cách tiếp cận truyền thống.
- ›Giai đoạn huấn luyện kết hợp ba khả năng: sinh chứng minh (generation), xác minh (verification), và sửa có điều kiện (conditional refinement), sử dụng generative verifier có tỷ lệ false-positive thấp.
- ›Tích hợp ba khả năng này thành một model M3 đơn nhất có thể hoạt động như generator, verifier, refiner, và ranker trong quá trình inference.
- ›Test-time strategy sử dụng tìm kiếm trên quần thể (population search) các chứng minh ứng viên kết hợp tournament selection để lựa chọn đáp án tốt nhất.
- ›Đạt kết quả ngoạn mục: 35/42 câu hỏi IMO 2025 và 36/42 câu hỏi USAMO 2026, vượt qua ngưỡng huy chương vàng (top 8 contestants) trên cả hai kỳ thi.
Bài báo MAI-Thinking-1 của Microsoft: "Xây dựng Máy Leo Đồi"
- ›Microsoft công bố toàn bộ thông tin chi tiết về huấn luyện mô hình biên giới, bao gồm siêu tham số (hparams)
Verifiable Environments Là LEGO Bricks: Recursive Composition Cho Reasoning Generalization
- ›Reinforcement Learning với verifiable environments là powerful approach để enhance reasoning capabilities của Large Language Models, mặc dù scaling environment quantity cải thiện RL performance
- ›Các phương pháp xây dựng manual hoặc individual gặp linear scaling limits, cản trở reasoning generalization ở quy mô lớn
- ›Giới thiệu RACES (Recursive Automated Composition for Environment Scaling): conceptualize verifiable environments như composable building blocks có thể recursive assemble thành các environments mới
- ›Key insight: khi codomain (output type) của environment này match domain (input type) của environment khác, chúng có thể tự động fuse thành verifiable environment mới, cho phép recursive composition
- ›RACES implement với 300 individual environments và định nghĩa composition operators (SEQUENTIAL, PARALLEL, SORT, SELECT) tạo diverse reasoning patterns
- ›DeepSeek-R1-Distill-Qwen-14B: cải thiện trung bình 3.1 points (48.2→51.3); Qwen3-14B: tăng từ 58.8→61.1 trên 6 benchmarks unseen during construction
- ›RACES đạt performance tương đương training 300 individual environments nhưng chỉ dùng 50 base environments, chứng tỏ hiệu quả đáng kể trong environment utilization
Phá Vỡ Ranh Giới Entropy: Tăng Tốc Huấn Luyện RL bằng MTP và Rejection Sampling
- ›RL là thành phần chính trong post-training LLM hiện đại, nhưng rollout stage là bottleneck; Multi-Token Prediction (MTP) mang lựa chọn tự nhiên dùng speculative decoding, nhưng acceptance rates suy giảm trong RL, giới hạn speedup.
- ›Bebop: nghiên cứu hệ thống MTP trong LLM post-training; MTP acceptance rate bị giới hạn cơ bản bởi fluctuation của model entropy, có quan hệ tuyến tính âm với entropy RL.
- ›Rejection sampling xác suất giảm thiểu nhiễu entropy so với greedy draft sampling; cross-entropy/KL training objectives không tối ưu.
- ›Đề xuất TV loss mới tối ưu trực tiếp multi-step rejection sampling acceptance rate, đạt ~10% cải thiện, tối đa 95% acceptance rates và 25% extra throughput gains trên reasoning, code generation, agentic tasks.
- ›Pre-RL MTP training với e2e TV loss và rejection sampling giữ consistent acceptance rate qua RL, loại bỏ cần online MTP updating.
- ›Đạt tới 1.8x end-to-end acceleration trong async RL training của Qwen3.5, Qwen3.6, Qwen3.7 models.
Tự-Chưỡng Mô Hình Thế Giới: Huấn Luyện Mô Hình Thế Giới Giải Quyết Các Nhiệm Vụ Tổng Quát
- ›Video generators được pretrain có khả năng giải quyết nhiệm vụ nổi lên, nhưng phụ thuộc vào mô tả text chi tiết hạn chế khả năng sử dụng trực tiếp cho planning và decision-making.
- ›Đề xuất khung kết hợp self-distillation với reinforcement learning: VLM sinh candidate task và step-by-step solution từ scene image; video diffusion model Demonstrator được điều kiện bởi solution.
- ›Executor được chưỡng chỉ từ image và short task prompt, chuyển giao knowledge từ caption-guided generation sang instruction-conditioned task solving mà không cần curated task-video supervision.
- ›Cải thiện Executor với RL từ VLM feedback, tận dụng asymmetry: đánh giá video thỏa task dễ hơn generate solution.
- ›Trên WorldTasks-Benchmark và DreamGen robotics benchmark, Executor vượt Demonstrator theo VLM-based evaluation protocol, transfer tốt tới robotic tasks.
Role-Agent: Khởi động các Agent LLM thông qua tiến hóa hai vai trò
- ›Giới thiệu Role-Agent, framework sử dụng một LLM duy nhất vừa làm agent vừa làm environment, cho phép co-evolution tự khởi động
- ›Framework bao gồm thành phần World-In-Agent (WIA): LLM dự đoán trạng thái tương lai sau mỗi hành động, sự nhất quán giữa dự đoán và thực tế được dùng làm process reward để khuyến khích lý luận nhận thức về environment
- ›Thành phần Agent-In-World (AIW): LLM phân tích các failure modes từ trajectory thất bại và lấy các task có pattern tương tự, từ đó reshape distribution của training data cho targeted practice
- ›Các thử nghiệm trên nhiều benchmark cho thấy Role-Agent luôn cải thiện performance, với mức tăng trung bình >4% so với các baseline mạnh
Suy Luận Chảy Như Thế Nào? Theo Dõi Luồng Thông Tin Tạo Ra Bởi Attention Cho RL Có Mục Tiêu
- ›Token-level credit assignment vẫn là rào cản lớn trong reinforcement learning cho LLM, vì các RL recipe hiện tại xử lý tất cả token như nhau, không phân biệt được các bước suy luận quyết định khỏi formatting hoặc filler
- ›Đề xuất FlowTracer, framework RL theo dõi answer-targeted reasoning flow trên một directed acyclic graph dựa trên attention, nơi nodes tương ứng các tokens và edge capacities đến từ aggregated attention weights
- ›FlowTracer reweight edge capacities để chỉ giữ lại ảnh hưởng có thể reach answer region, đồng thời enforce flow conservation cục bộ để intermediate tokens không mất hoặc gain mass hiệu quả
- ›Phương pháp trích một information-flow backbone kết nối question tới answer và score tokens theo flow throughput, tiết lộ high-impact hubs và aggregation checkpoints để hiểu long-range dependencies
- ›Những importance này được dùng để shape token-level rewards, cho phép learning signals tập trung chính xác vào các tokens route information về (hoặc tránh) correct answers, cải thiện performance trên nhiều reasoning tasks
Flow-DPPO: Tối ưu hóa chính sách với ràng buộc độ phân kỳ cho mô hình Flow Matching
- ›Reinforcement learning online cải thiện chất lượng và sự liên kết (alignment) của flow matching models cho sinh tạo hình ảnh và video.
- ›Phương pháp hiện tại (Flow-GRPO, CPS) dùng ratio clipping để enforce trust region, nhưng kỹ thuật này không phù hợp với flow models vì ratio chỉ là ước lượng single-sample của true policy divergence, gây over-constraining và under-constraining.
- ›Flow-DPPO thay thế ratio clipping bằng divergence proximal constraint, tính toán KL divergence chính xác giữa policy cũ và mới (vì per-step policy là Gaussian).
- ›Dùng asymmetric divergence mask chỉ blocking gradient updates khi chúng vừa ra khỏi trusted region vừa vượt divergence threshold.
- ›Kết quả: rewards cao hơn, KL-proximal efficiency tốt hơn, tránh catastrophic forgetting, cho phép stable multi-epoch training nơi ratio clipping bị suy yếu.
Vượt Ra Ngoài Uniform Token-Level Trust Region trong Reinforcement Learning LLM
- ›Reinforcement learning with verifiable rewards (RLVR) đã trở thành standard cho cải thiện LLM reasoning, nhưng các cơ chế trust-region kiểu PPO hiện tại vẫn position-agnostic, enforce uniform thresholds trên tất cả tokens độc lập
- ›Phương pháp pointwise này xung đột với autoregressive generation theo hai cách: early-stage deviations gây compounding sequence-level drift nên static thresholds under-regulate early divergence và excessively constrain late-stage exploration
- ›Đánh giá token-level divergence riên lẻ overlooks cumulative prefix drift, cấp cùng divergence allowance bất kể conditioning history đã deviate bao xa từ rollout policy
- ›Đề xuất CPPO (Cumulative Prefix-divergence Policy Optimization), token-level masking rule align updates với finite-horizon policy-improvement bound thông qua position-weighted threshold và cumulative prefix budget
- ›Position-weighted threshold impose stricter limits ở early positions có hiệu ứng persist lâu hơn, relax constraints cho late-stage tokens; cumulative prefix budget track historical deviations, dynamically restrict further token-level deviation để prevent compounding errors
- ›CPPO enhance training stability và significantly improve reasoning accuracy trên nhiều model scales
Cộng Đồng Mã Nguồn Mở Ủng Hộ OpenEnv cho Học Tăng Cường Agent
- ›OpenEnv nhận được sự ủng hộ mạnh mẽ từ cộng đồng phát triển mã nguồn mở
- ›Nền tảng tập trung vào Reinforcement Learning (học tăng cường) dành cho huấn luyện agent AI
- ›Cung cấp môi trường mô phỏng để phát triển và kiểm thử agent tương tác
Latent.Space phát triển track dữ liệu: Cách tránh triển khai các môi trường RL kém chất lượng
- ›Latent.Space công bố bài viết khách mời từ Auriel, chuyên gia từng làm việc qua tất cả các lớp stack tại Google DeepMind
Cách dừng việc phát hành các môi trường Reinforcement Learning kém chất lượng (với ví dụ)
- ›Bài viết khách mời từ Auriel, chuyên gia Google DeepMind, giải quyết vấn đề phổ biến của các startup RL
Tái tạo, Phân tích và Phát hiện Reward Hacking trong Rubric-Based RL
- ›Rubric-based RL dùng LLM-as-a-Judge (LaaJ) để score model outputs theo rubrics làm rewards, nhưng policy models có thể exploit latent biases trong judge dẫn tới reward hacking và ineffective/unsafe training outcomes.
- ›Hacking behaviors trong thực tế thường subtle và entangled với multiple judge biases, khó analyze, detect, mitigate.
- ›CHERRL (Controllable Hacking Environment for Rubric-based RL) inject known biases vào LaaJ để enable stable reproduction, explicit observation reward divergence, precise identification reward hacking onset.
- ›Cung cấp clean experimental testbed cho studying mechanisms và mitigations của reward hacking, analyze judge biases từ perspectives discoverability và exploitability.
- ›Develop agent-based system để automatically detect reward hacking onset từ training logs.
- ›Code và environment công khai trên GitHub (THUAIS-Lab/CHERRL).
Bộ điều khiển RL Nhỏ, Mô hình Ngôn ngữ Lớn: Lấy mẫu Thích ứng Hướng dẫn RL cho Mở rộng Thời gian Kiểm tra
- ›Test-time scaling cải thiện hiệu suất suy luận của LLM nhưng tốn chi phí đáng kể về tính toán và độ trễ; các phương pháp lấy mẫu thích ứng hiện có thường dựa vào quy tắc heuristic hoặc giả định phân phối
- ›Công thức lấy mẫu thích ứng như Quá trình Quyết định Markov (MDP): huấn luyện bộ điều khiển lấy mẫu lightweight với RL để cân bằng độ chính xác câu trả lời, độ trễ và chi phí tính toán
- ›Ở mỗi vòng, bộ điều khiển quyết định dừng hay tiếp tục lấy mẫu; phương pháp lightweight chỉ dựa trên thống kê câu trả lời cuối cùng, có thể huấn luyện và triển khai trên CPU
- ›Framework thừa nhận giải thích như thư giãn Lagrangian của vấn đề tối ưu hoá có ràng buộc ngân sách rõ ràng
- ›So với baselines mạnh (ASC, ESC), phương pháp đạt cân bằng cải thiện giữa độ chính xác câu trả lời, vòng lấy mẫu và tổng số mẫu cần thiết
Harness-1: Học Tăng cường cho Agents Tìm kiếm với Harnesses Ngoại hoá Trạng thái
- ›Giải quyết vấn đề agents tìm kiếm phải lưu giữ quá nhiều thông tin trạng thái (lịch sử quan sát, bằng chứng hữu ích, ràng buộc mở, tuyên bố được xác minh) bên trong chính sách, làm phức tạp việc tối ưu hóa trong RL
- ›Giới thiệu Harness-1, một agent tìm kiếm 20B được huấn luyện với RL bên trong harness tìm kiếm có trạng thái, nơi môi trường duy trì bộ nhớ làm việc (nhóm ứng cử viên, tập hợp được gắn thẻ mức độ quan trọng, liên kết bằng chứng, hồ sơ xác minh, quan sát nén)
- ›Chính sách giữ lại các quyết định ngữ nghĩa: cái gì cần tìm kiếm, tài liệu nào cần giữ/loại bỏ, cái gì cần xác minh, khi nào dừng lại
- ›Đạt 0.730 điểm recall được soạn thảo trung bình trên tám benchmark, vượt trội agent tìm kiếm con mạnh nhất kế tiếp +11.4 điểm (web, finance, patents, multi-hop QA)
- ›Hiệu suất đặc biệt mạnh trên transfer benchmarks, cho thấy RL trên trạng thái tìm kiếm rõ ràng tạo ra hành vi truy xuất tổng quát hóa vượt ra ngoài các miền huấn luyện
Joint Agent Memory and Exploration Learning Qua Novelty Signals
- ›Giải quyết vấn đề mà các language model agents khó khăn trong khám phá (exploration) trong các môi trường mở rộng, nơi bộ nhớ đóng vai trò quan trọng để phân biệt các hành vi đã dùng hết từ các hành vi chưa được khám phá
- ›Giới thiệu JAMEL (Joint Agent Memory and Exploration Learning), khuôn khổ huấn luyện bộ nhớ agent và chính sách khám phá cùng nhau thông qua tương tác dựa trên tính mới lạ (novelty-driven interaction)
- ›Quan sát rằng bộ nhớ và khám phá tạo thành một vòng lặp phụ thuộc lẫn nhau: khám phá bền vững đòi hỏi bộ nhớ để phân biệt hành vi cũ từ hành vi mới, trong khi tương tác tìm kiếm tính mới lạ cung cấp giám sát cần thiết để làm cho bộ nhớ hữu ích cho khám phá tương lai
- ›Sử dụng các tín hiệu tính mới lạ xác định và bền vững như code coverage trong miền GUI để cung cấp giám sát tự nhiên, không cần chú thích cho mô-đun bộ nhớ
- ›Đánh giá thực nghiệm cho thấy JAMEL thành công trong việc khái quát hóa đến các môi trường chưa thấy; khả năng khám phá vượt trội so với các baseline trọng lượng mở trong khi giảm tiêu thụ token
- ›Mã nguồn và mô hình được phát hành công khai để hỗ trợ nghiên cứu
OpenWebRL: Làm Sáng Tỏ Reinforcement Learning Đa Vòng Trực Tuyến Cho Web Agents Nhìn Thấy
- ›Giới thiệu OpenWebRL, khuôn khổ mở để huấn luyện visual web agents với online multi-turn RL trực tiếp trên các trang web thực tế
- ›Giải quyết vấn đề phi thích ứng: các agent mở phụ thuộc nặng vào post-training được giám sát trên các tập quỹ đạo được sắp xếp lớn, tạo thắt cổ chai khả năng mở rộng vì các mô phỏng chất lượng cao tốn kém để thu thập
- ›Khuôn khổ bao gồm toàn bộ pipeline huấn luyện: cơ sở hạ tầng trình duyệt trực tiếp có thể mở rộng, khởi tạo được giám sát, quản lý ngữ cảnh đa phương thức, đánh giá thành công cấp quỹ đạo, và tối ưu hóa chính sách đa vòng hiệu quả
- ›OpenWebRL-4B đạt 67.0% thành công trên Online-Mind2Web và 64.0% trên DeepShop, vượt qua các agent mở trước đó cùng hoặc lớn hơn và cạnh tranh với các hệ thống độc quyền bao gồm OpenAI CUA và Gemini CUA
- ›Sử dụng chỉ 0.4K quỹ đạo khởi tạo và 2.2K nhiệm vụ huấn luyện RL mở rộng, đạt hiệu suất benchmark cao trong khi giảm chi phí tính toán
- ›Sẽ phát hành dữ liệu huấn luyện, mô hình và mã để hỗ trợ nghiên cứu tương lai
Đồng tập huấn Chính sách và Mô hình Thế giới cho Agents Ngôn ngữ
- ›RL cải thiện LLM agents bằng cách dạy hành động dẫn đến phần thưởng cao, nhưng cung cấp ít giám sát về tác động thực của hành động lên môi trường, đó là lý do cần world modeling (WM) bổ sung
- ›Giới thiệu PaW (Policy and World modeling co-training framework), thêm giám sát WM phụ trợ vào cùng chính sách trong quá trình RL mà không thay đổi cách suy luận
- ›PaW có ba thành phần: (1) lựa chọn dữ liệu WM dựa trên action entropy, (2) mất lạc WM chống nhiễu, (3) cân bằng mất lạc thích ứng với phần thưởng
- ›Thử nghiệm trên ba benchmark tác vụ agentic cho thấy cải thiện liên tục so với các cơ sở RL mạnh mẽ trên các mô hình và thuật toán RL khác nhau
- ›Kết luận: các rollout RL tiêu chuẩn chứa tín hiệu cần thiết để giám sát world modeling cho việc huấn luyện language agents
Top các bài báo AI của tuần (25-31 tháng 5)
- ›Bài báo về mô hình thế giới đa tác nhân (Gamma-World) và chiến lược tiến hóa kỹ năng tác nhân (SkillOpt) nổi bật tuần này.
GCPO: Gán tín dụng token mức độ đơn lẻ cho tối ưu policy rời rạc
- ›GCPO cải thiện credit assignment bằng cách gán advantage mức token thay vì gán đều ở mức sample như GRPO/DAPO.
- ›Sử dụng contrastive learning với positive/negative prompts để tính toán token-level advantages chính xác hơn.
- ›Hiệu quả vượt trội trên text-to-image generation và chain-of-thought reasoning, giúp model tập trung vào vùng ngữ nghĩa quan trọng.
SCOPE: Tự chơi bằng các chính sách tiến hóa chung cho tác vụ mở
- ›Self-play có thể train language models mà không cần supervision bên ngoài, nhưng phương pháp hiện tại cần rule-checkable answers.
- ›SCOPE là data-free framework co-evolving hai policy: Challenger tạo document-grounded tasks, Solver trả lời qua multi-turn retrieval.
- ›Frozen copy của mô hình ban đầu làm self-judge, viết task-specific rubrics từ source document và đánh giá responses.
- ›Cải thiện open-ended performance đến +10.4 điểm trên 8 benchmarks, match GRPO_data, vượt trên short-form QA +13.8 điểm.
DRIFT: Rollout độc lập và tinh chỉnh có trọng số cho tối ưu hóa đa lượt hiệu quả
- ›Tối ưu hóa multi-turn behavior gặp trade-off: online RL hiệu quả nhưng tốn kém, SFT hiệu quả nhưng bị distribution shift.
- ›DRIFT operationalize insight rằng KL-regularized RL objective tương đương với importance-weighted supervised learning.
- ›Phương pháp tách rollout khỏi optimization bằng cách sample offline trajectories, tính importance weights, optimize via weighted SFT.
- ›DRIFT match hoặc vượt multi-turn RL baselines nhưng giữ training efficiency của supervised fine-tuning.
iVGR: Nội hóa suy luận có căn cứ hình ảnh cho MLLM với học tăng cường
- ›Visually grounded Chain-of-Thought có tiềm năng nhưng bắt buộc explicit grounding trong inference thường làm giảm hiệu suất so với textual CoT.
- ›iVGR sử dụng RL để nội hóa khả năng localization vào quá trình suy luận textual, giúp mô hình định vị chính xác mà không cần grounding explicit.
- ›Dual-stream training strategy căn chỉnh textual stream với visually grounded stream thông qua consistency reward.
- ›Kết quả vượt baseline trên fine-grained benchmarks, giữ linh hoạt cho workflow có hỗ trợ công cụ.
Phần thưởng xác minh vượt ra ngoài Toán học: Giám sát Quá trình dựa trên Corpus cho Trả lời Câu hỏi Thực tế
- ›Giải quyết vấn đề thiết kế phần thưởng (reward design) trong reinforcement learning để cải thiện độ chính xác thực tế của hệ thống trả lời câu hỏi yêu cầu kiến thức
- ›Đề xuất CorVer (Corpus Verify) - một phần thưởng process nhẹ thay thế neural verifiers bằng tín hiệu dựa trên thống kê Wikipedia co-occurrence
- ›CorVer gán credit ở mức sentence và ánh xạ sang token-level advantages, chỉ cần extractor 0.5B và một tìm kiếm corpus duy nhất trên mỗi sentence
- ›Đánh giá trên 30 cells (6 mô hình từ 3B-14B, 5 benchmark QA): CorVer cải thiện +4.1 percentage points trên TriviaQA
- ›Vượt trội 4 neural-verifier baseline trong 18 của 20 cells và huấn luyện nhanh hơn 4.8-8.4 lần
Robotics: Endgame - Lộ trình giải quyết Physical AGI
- ›Video 'Robotics: Endgame' là tiếp tục của 'Physical Turing Test', trình bày lộ trình giải quyết Physical AGI song song với câu chuyện thành công của LLM
Khoảng cách Hiểu Biết về Khả Năng AI: Tại sao OpenAI Codex và Claude Code Gây Shock đối với Kỹ Sư
- ›Có khoảng cách lớn giữa hai nhóm: dùng ChatGPT free (cách đây vài tháng) vs dùng OpenAI Codex/Claude Code chuyên nghiệp - khả năng hoàn toàn khác.
Hội thoại về Constrained Reinforcement Learning với Probabilistic Incremental Improvement
- ›Yannic Kilcher tổ chức hội thoại trực tiếp về Constrained Reinforcement Learning with Probabilistic Incremental Improvement