Dòng tin

51 nội dung mới nhất

Mới hôm nay

Simon WillisonBlogBài viết·khoảng 7 giờ trướcMớiHot

Phiên bản datasette 1.0a32 ra mắt

datasette 1.0a32

›Phiên bản sửa lỗi minor cho datasette 1.0a32 được phát hành với các cải tiến về tính ổn định.
›Sửa lỗi với các truy vấn INSERT ... RETURNING qua điểm cuối /db/-/execute-write mới.
›Khắc phục nhiều vấn đề liên quan đến cấu hình base_url khi dùng Service Workers.

#datasette #SQLite #công cụ phát triển

Simon WillisonGitHubRelease·khoảng 7 giờ trướcMớiHot

Simon Willison phát hành datasette 1.0a32

simonw released 1.0a32 at simonw/datasette

›Phát hành datasette 1.0a32 với hỗ trợ cho các mệnh đề SQLite INSERT ... RETURNING.
›Khắc phục lỗi liên quan đến cấu hình base_url trong các tình huống sử dụng Service Workers.
›Cải thiện khả năng tương thích với /db/-/execute-write endpoint để thực thi các truy vấn ghi dữ liệu.

#datasette #SQLite #phát triển

Simon WillisonBlogBài viết·khoảng 14 giờ trướcMớiHot

Giải pháp có thể là hủy đăng ký AI của tôi

The solution might be cancelling my AI subscription

›AI agent có thể biến ý tưởng mơ hồ thành giải pháp hoàn chỉnh chỉ trong một giờ, nhưng tạo quá nhiều dự án bị bỏ rơi.
›Công cụ AI tạo 'phần thưởng rẻ tiền' với ít đầu vào nhưng có thể trở thành trách nhiệm vô cùng, đặc biệt cho những người dễ bị phân tán.
›Một số người ADHD lại thấy AI giúp họ tập trung tốt hơn và hoàn thành dự án lần đầu tiên.
›Thách thức chính là phát triển kỷ luật khi sử dụng công cụ có khả năng tạo ra nhanh chóng.

#Coding agents #Năng suất #ADHD #LLM

Trước đó

Simon WillisonBlogBài viết·1 ngày trướcHot

Trích dẫn Karen Kwok từ Reuters về định nghĩa doanh thu run-rate của Anthropic

Quoting Karen Kwok for Reuters Breakingviews

›Anthropic định nghĩa 'run-rate revenue' gồm hai phần riêng biệt.
›Lấy doanh số 28 ngày gần nhất từ khách hàng theo mức sử dụng, nhân với 13.
›Nhân doanh thu subscription hàng tháng với 12, rồi cộng hai giá trị lại.

#Anthropic #Tài chính #Kinh doanh

Simon WillisonBlogBài viết·1 ngày trướcHot

Cách Anthropic tách biệt Claude trên các sản phẩm

How we contain Claude across products

›Anthropic công bố chi tiết cách sử dụng sandbox để kiểm soát Claude trên Claude.ai, Claude Code và Cowork.
›Sử dụng process sandboxes, VMs, filesystem boundaries, và egress controls để tạo ranh giới cứng cho agents.
›Claude.ai dùng gVisor, Claude Code dùng Seatbelt (macOS) hoặc Bubblewrap (Linux), Cowork dùng full VM.
›Bài viết đề cập các rủi ro bị bỏ qua như lỗ hổng exfiltration qua api.anthropic.com/v1/files.
›Anthropic cung cấp SRT (Sandbox Runtime) open source để sandbox code.

#An toàn AI #Sandboxing #Claude #Bảo mật

Jeremy HowardGitHubRelease·3 ngày trước

Phát hành fasthtml phiên bản 0.14.2

AnswerDotAI released 0.14.2 at AnswerDotAI/fasthtml

›AnswerDotAI phát hành fasthtml 0.14.2
›Nâng cấp Starlette lên phiên bản tối thiểu 1.0.1 để vá lỗ bảo mật CVE

#fasthtml #Framework web #Bảo mật

Jeremy HowardGitHubRelease·3 ngày trước

fastaudit phiên bản 0.1.3 được phát hành

AnswerDotAI released 0.1.3 at AnswerDotAI/fastaudit

›fastaudit v0.1.3 mang đến thay đổi lớn: chuyển từ deny-list sang allow-list với hỗ trợ prefix cho audit policy
›Thêm tính năng track_call cho async-aware permissions
›Cải thiện cơ chế kiểm soát truy cập module và function

#Open Source #Release #Security

AK (_akhaliq)HF PapersPaper·4 ngày trước

Suy nghĩ trước khi hạn chế: Khung Decoding thống nhất cho Mô hình ngôn ngữ lớn

Thinking Before Constraining: A Unified Decoding Framework for Large Language Models

›Natural generation cho phép LLM sản xuất free-form responses với reasoning phong phú nhưng khó xác minh; constrained decoding đảm bảo định dạng chuẩn nhưng hạn chế reasoning.
›Phương pháp In-Writing kết hợp free-form reasoning và structured generation bằng trigger token để tách biệt chúng.
›Model thực hiện unconstrained reasoning trước, sau đó áp dụng structured decoding khi trigger token được sinh ra, tránh premature triggering.
›Đạt được cải thiện lên tới 27% về độ chính xác so với natural generation trên các bộ dữ liệu classification và reasoning.

#LLM #Constrained Decoding #Structured Generation #Reasoning

AK (_akhaliq)HF PapersPaper·4 ngày trước

Lấy mẫu Khuếch tán với Nhiễu Đa màu

Colored Noise Diffusion Sampling

›Diffusion models có spectral bias: giải quyết cấu trúc global tần số thấp trước, chi tiết tần số cao sau, dẫn đến lãng phí ngân sách năng lượng.
›Colored Noise Sampling (CNS) là stochastic solver không cần huấn luyện, sử dụng lịch biểu nhiễu động phụ thuộc vào timestep và tần số thay vì white noise đều.
›CNS phân bổ năng lượng tiêm hiệu quả hơn vào các dải tần số chưa được giải quyết, tận dụng spectral bias nội sinh của mô hình.
›CNS đạt cải thiện FID đáng kể: 8.26→6.27 trên SiT-XL/2, 32.39→26.69 trên JiT-B/16, có thể áp dụng plug-and-play cho các kiến trúc khác nhau.

#Diffusion models #Image generation #Stochastic sampling #Spectral bias

AK (_akhaliq)HF PapersPaper·4 ngày trước

UniSteer: Flow Matching Dẫn Hướng Bằng Văn Bản Cho LLM Steering Đa Năng

UniSteer: Text-Guided Flow Matching in Activation Space for Versatile LLM Steering

›UniSteer là mô hình activation-based control học một conditional velocity field trong activation space từ điều kiện ngôn ngữ tự nhiên.
›Thay vì tạo intervention riêng cho mỗi hành vi, UniSteer học một universal model hỗ trợ multiple behaviors từ một interface duy nhất.
›Lúc inference, thực hiện flow inversion để vận chuyển activation theo hướng mục tiêu, hỗ trợ behavioral control, truthfulness steering, và concept steering.

#LLM #Activation steering #Flow matching #LLM control

AK (_akhaliq)HF PapersPaper·4 ngày trước

Tại sao Cái Xa Nhìn Lên: Phân tích Biểu diễn Không gian trong Vision-Language Models

Why Far Looks Up: Probing Spatial Representation in Vision-Language Models

›Đề xuất framework phân tích embedding để kiểm tra cách VLM tổ chức các trục không gian.
›Phát hiện bias 'vertical-distance entanglement' nhất quán: model nhầm vị trí dọc ảnh với khoảng cách.
›Bias tăng với data scaling dù benchmark accuracy cải thiện.
›SpatialTunnel benchmark tổng hợp chứng minh bias là nội tại model, model với spatial axes tốt hơn đạt robustness cao hơn.

#Vision-Language Models #Spatial Reasoning #Representation Learning #Benchmark

AK (_akhaliq)HF PapersPaper·4 ngày trước

Hình học quan trọng: Ưu tiên 3D cho học Semantic Correspondence

Geometry Matters: 3D Foundation Priors for Learning Semantic Correspondence

›Foundation features từ vision models tự giám sát thiếu nhận thức 3D rõ ràng, dẫn đến nhầm lẫn giữa các phần đối xứng và cấu trúc tương tự trực quan.
›Phương pháp sử dụng SAM3D để ước tính hình học và pose vật thể, sau đó tối ưu hóa pose qua render-and-compare optimization.
›Kết hợp PartField descriptors từ hình học tái tạo với DINO và Stable Diffusion features để cải thiện semantic correspondence.
›Sử dụng geodesic distances trên hình dạng tái tạo để lọc candidate correspondences, giảm nhu cầu giám sát hình học thủ công.

#3D Vision #Semantic Correspondence #Foundation Models #Geometry

Andrew NgYouTubeVideo·6 ngày trước

Bộ nhớ của AI giỏi cỡ nào?

How good is AI memory?

›Khám phá khả năng và giới hạn của bộ nhớ trong các mô hình AI hiện đại.
›Độ dài ngữ cảnh (context length) ảnh hưởng trực tiếp đến khả năng giữ thông tin.
›Cân bằng giữa khả năng nhớ lâu dài và hiệu suất tính toán trong thực tế.

#LLM #bộ nhớ #context window #RAG

Andrew NgYouTubeVideo·9 ngày trước

Evals bị hỏng - nhưng vẫn nên dùng chúng

AI Dev 26 x SF | Ara Khan: Evals Are Broken Use Them Anyway

›Evals (đánh giá mô hình) có nhiều vấn đề nhưng vẫn cần thiết trong phát triển AI.
›Hiểu rõ giới hạn của evaluation metrics giúp sử dụng chúng hiệu quả hơn.
›Không nên hoàn toàn bỏ qua evals mặc dù chúng không hoàn hảo.

#evaluation #evals #AI testing #mô hình AI

Andrew NgYouTubeVideo·9 ngày trước

Tìm kiếm Semantic bắt đầu từ Embeddings

Semantic Search Starts With Embeddings

›Embeddings là nền tảng cho các hệ thống tìm kiếm semantic hiện đại.
›Chất lượng embeddings quyết định hiệu quả của tìm kiếm và retrieval.
›RAG (Retrieval-Augmented Generation) dựa vào embeddings tốt để cải thiện kết quả.

#embeddings #semantic search #RAG #vector database

Andrew NgYouTubeVideo·10 ngày trước

Tại sao mỗi Agent AI cần một Simulation Sandbox

AI Dev 26 x SF | Andi Partovi: Why Every Agent Needs a Simulation Sandbox

›Sandbox mô phỏng cho phép agent kiểm tra hành động mà không ảnh hưởng thế giới thực.
›Mô phỏng giúp agent học và tối ưu hóa hành động trước khi triển khai.
›Bảo mật và an toàn của AI agent được nâng cao thông qua môi trường sandbox.

#agent #simulation #sandbox #kiểm thử AI

Andrew NgYouTubeVideo·10 ngày trước

Xây dựng Quy trình Công việc Doanh nghiệp Tái diễn với Quản lý và Nhúng

AI Dev 26 x SF | João Moura: Building Recurring, Governed, and Embedded Enterprise Workflows

›Các quy trình công việc AI trong doanh nghiệp cần được thiết kế để tái diễn một cách tự động và đáng tin cậy.
›Governance là yếu tố quan trọng để đảm bảo agents hoạt động theo các chính sách và quy tắc của tổ chức.
›Nhúng agents vào hệ thống hiện có giúp tạo giá trị ngay lập tức cho doanh nghiệp.

#Agent #Enterprise #Workflow #Governance

Demis HassabisBlogBài viết·10 ngày trước

Khởi động chương trình Google DeepMind Accelerator tại Châu Á-Thái Bình Dương để giải quyết rủi ro môi trường

We’re launching the Google DeepMind Accelerator program in Asia Pacific to tackle environmental risks

›Google DeepMind khởi động chương trình Accelerator tập trung vào khu vực Châu Á-Thái Bình Dương.
›Chương trình nhằm mục đích giải quyết các rủi ro môi trường thông qua AI và machine learning.
›Hợp tác giữa DeepMind và các tổ chức địa phương để tăng tốc độ phát triển các giải pháp bền vững.

#DeepMind #Environmental AI #Sustainability #Asia Pacific

Demis HassabisBlogBài viết·14 ngày trước

Tăng tốc độ các yếu tố di truyền để đảo ngược lão hóa tế bào

Fast-tracking genetic leads to reverse cellular aging

›Các nhà sinh học sử dụng Co-Scientist để tìm các yếu tố di truyền novel có khả năng làm trẻ hóa tế bào người thành công.
›AI Co-Scientist hỗ trợ phát hiện và xác thực các yếu tố mới giúp đảo ngược quá trình lão hóa tế bào.
›Kết hợp giữa bioinformatics, machine learning, và nghiên cứu sinh học để tăng tốc độ khám phá.

#Aging Reversal #Computational Biology #AI Co-Scientist #Genetic Research

Demis HassabisBlogBài viết·14 ngày trước

Mô phỏng các địa điểm thực tế với Project Genie và Street View

Simulate real-world places with Project Genie and Street View

›Project Genie cho phép mô phỏng các địa điểm thực tế dựa trên dữ liệu Street View.
›Mở rộng quyền truy cập Google AI Ultra cho người dùng trên toàn cầu.
›Công cụ này giúp hiểu sâu hơn về không gian và môi trường qua mô hình AI đa phương thức.

#Mô phỏng AI #Thị giác máy tính #Google AI

Demis HassabisBlogBài viết·14 ngày trước

Giới thiệu Gemini Omni

Introducing Gemini Omni

›Gemini Omni là phiên bản mới với khả năng xử lý đa phương thức (text, hình ảnh, âm thanh) cùng lúc.
›Nâng cao khả năng hiểu biết và suy luận trên các loại dữ liệu khác nhau.
›Mở rộng ứng dụng của mô hình ngôn ngữ lớn trong các tác vụ phức tạp.

#LLM #Multimodal AI #Gemini

Demis HassabisBlogBài viết·14 ngày trước

Giới thiệu Google Antigravity 2.0

Introducing Google Antigravity 2.0

›Google Antigravity 2.0 là phiên bản cải tiến với hiệu suất và độ chính xác tăng đáng kể.
›Tối ưu hóa khả năng xử lý và tốc độ suy luận của mô hình.
›Hỗ trợ triển khai AI hiệu quả hơn cho các ứng dụng thực tế.

#LLM #Google #Tối ưu hóa

Sebastian RaschkaBlogBài viết·16 ngày trước

Những phát triển gần đây trong kiến trúc LLM: KV Sharing, mHC và Compressed Attention

Recent Developments in LLM Architectures: KV Sharing, mHC, and Compressed Attention

›Các kiến trúc LLM mới tập trung vào hiệu quả xử lý bối cảnh dài thông qua KV sharing, per-layer embeddings và compressed attention.
›KV-cache size, memory traffic và attention cost trở thành những ràng buộc chính khi agent workflows giữ lại nhiều token.
›Gemma 4, Laguna XS.2, ZAYA1-8B và DeepSeek V4 áp dụng các kỹ thuật kiến trúc này để giảm chi phí tính toán.

#LLM #Kiến trúc mô hình #Attention mechanism #Hiệu quả tính toán

Fei-Fei LiarXivPaper·18 ngày trước

Phát hiện có hệ thống các tấn công Semantic trong xây dựng bản đồ trực tuyến thông qua Diffusion có điều kiện

Systematic Discovery of Semantic Attacks in Online Map Construction through Conditional Diffusion

›HD map construction cho autonomous vehicles là yếu tố an toàn-quan trọng, nhưng attacks pixel-level hiện tại bị neutralized bởi adversarial defenses tiêu chuẩn.
›MIRAGE sử dụng latent manifold của diffusion models để tìm semantic attacks dạng environmental variations (bóng, đường ướt) mà bypass adversarial defenses.
›Hai attacks được kiểm tra: boundary removal loại bỏ 57.7% detections và làm hỏng 96% planned trajectories; boundary injection tạo boundary giả mạo thành công.
›Semantic-level perturbations hiệu quả dưới nhiều adversarial defenses, cho thấy defenses hiện tại yếu với các biến thể semantic so với pixel-level perturbations.

#Autonomous Vehicles #Adversarial Attacks #Diffusion Models #Safety

Sebastian RaschkaBlogBài viết·khoảng 1 tháng trước

Quy trình làm việc của tôi để hiểu kiến trúc LLM

My Workflow for Understanding LLM Architectures

›Quy trình bắt đầu từ báo cáo kỹ thuật chính thức nhưng các paper hiện nay thường ít chi tiết hơn.
›Nếu mô hình được chia sẻ trên Hugging Face Model Hub và hỗ trợ bởi thư viện transformers, có thể kiểm tra config và reference implementation để hiểu chi tiết kiến trúc.
›Code "hoạt động" không bao giờ nói dối, nên là nguồn thông tin đáng tin cậy nhất.

#LLM #Transformers #Model Hub #Kiến trúc mô hình

Sebastian RaschkaBlogBài viết·khoảng 2 tháng trước

Các thành phần của một Coding Agent

Components of A Coding Agent

›Coding agents bao gồm 6 thành phần chính: tool use, context management, memory, và các layer agentic harness khác.
›Hệ thống xung quanh (harness) đóng vai trò quan trọng như chính model, giúp tối ưu hóa hiệu suất cho coding tasks.
›Claude Code và Codex CLI là ví dụ về agentic harness hiệu quả, vượt trội hơn so với plain chat interface.

#Coding Agents #LLM #Tool Use #System Design

Sebastian RaschkaBlogBài viết·2 tháng trước

Hướng dẫn trực quan về các biến thể Attention trong LLM hiện đại

A Visual Guide to Attention Variants in Modern LLMs

›Xây dựng LLM architecture gallery tổng hợp 45+ kiến trúc attention khác nhau.
›Ghi chép toàn diện các biến thể attention từ các bài viết trước và thêm nhiều kiến trúc quan trọng chưa được tài liệu hóa.
›Mỗi entry đi kèm visual model card và sẽ cập nhật thường xuyên để theo kịp xu hướng.

#Transformer #Attention Mechanisms #LLM Architecture #Deep Learning

Sebastian RaschkaBlogBài viết·3 tháng trước

Mùa xuân của LLM mã nguồn mở: 10 kiến trúc tháng 1–2/2026

A Dream of Spring for Open-Weight LLMs: 10 Architectures from Jan-Feb 2026

›Tổng hợp 10 mô hình open-weight nổi bật đầu 2026 (Kimi K2.5, GLM-5, Qwen3-Coder, MiniMax M2.5...).
›So sánh điểm giống và khác nhau về kiến trúc giữa các mô hình.
›Giúp người đọc nắm nhanh xu hướng thiết kế LLM mới nhất.

#LLM #Mã nguồn mở #Kiến trúc mô hình

Jeremy HowardBlogBài viết·3 tháng trước

Tôi Không Muốn Bảng Điều Khiển Học Tập Cho Con Tôi

I Don’t Want a Learning Dashboard for My Child

›Các cuộc tranh luận về giáo dục thường chia thành hai cực: non-tech vs tiếp cận AI.
›AI ed-tech thường chỉ phóng đại các vấn đề sẵn có của trường học truyền thống, chứ không giải quyết căn bản.

#Giáo dục AI #Công nghệ giáo dục #Học tập

Andrej KarpathyBlogBài viết·4 tháng trước

microgpt

›MicroGPT là dự án nghệ thuật chứa 200 dòng code Python thuần túy, không phụ thuộc bên ngoài, có thể train và inference GPT hoàn chỉnh.
›Code bao gồm toàn bộ thành phần cần thiết: dataset, tokenizer, autograd engine, kiến trúc GPT-2, optimizer Adam, vòng training và inference.
›Đây là culmination của các dự án trước (micrograd, makemore, nanogpt) nhằm đơn giản hóa LLMs đến bản chất cơ bản nhất.
›Mã nguồn có sẵn trên GitHub gist, trang web karpathy.ai, Google Colab, và được bán dưới dạng tranh triptych trên karpathy.art.

#GPT #Implementation #Python #Minimalism

Jeremy HowardBlogBài viết·4 tháng trước

Phá Vỡ Cơn Mê Của Vibe Coding

Breaking the Spell of Vibe Coding

›Vibe coding là tạo lượng lớn code phức tạp được AI sinh ra, thường không nhằm để con người đọc hiểu.
›Hiện tượng này tác động mạnh: lãnh đạo sa thải nhân viên, quản lý ép quota AI-generated code, và áp lực tâm lý lên developers.
›Sinh viên hoài nghi có cần học lập trình, mọi người trong ngành lo lắng AI sẽ thay thế công việc của họ.

#AI-generated code #Vibe coding #Tương lai việc làm #Phát triển phần mềm

Jeremy HowardBlogBài viết·4 tháng trước

Cách Sử Dụng AI Cho Nghệ Thuật Đọc Kỹ Lưỡng Cổ Xưa

How To Use AI for the Ancient Art of Close Reading

›Close reading là kỹ thuật phân tích cẩn thận văn bản, chú ý đến ngôn ngữ, cấu trúc và nội dung chính xác.
›Đây là một công nghệ cổ xưa và mạnh mẽ nhất của nền văn minh để truyền đạt sự hiểu biết toàn diện (gestalt).
›AI có thể hỗ trợ áp dụng close reading hiệu quả hơn cho phân tích sâu sắc.

#Close reading #Phân tích văn bản #AI #Giáo dục

Fei-Fei LiarXivPaper·6 tháng trước

JigsawComm: Truyền tải đặc trưng ngữ nghĩa để cảm nhận hợp tác giữa phương tiện hiệu quả

JigsawComm: Joint Semantic Feature Encoding and Transmission for Communication-Efficient Cooperative Perception

›JigsawComm là framework end-to-end học trích xuất đặc trưng sparse, semantic-aware để các phương tiện tự động chia sẻ thông tin nhìn thấy hiệu quả.
›Feature Utility Estimator dự đoán đóng góp của từng agent và loại bỏ dữ liệu trùng lặp giữa các agent.
›Giảm payload truyền tải xuống O(1) khi số lượng agent tăng, overhead meta information không đáng kể.
›Giảm khối lượng dữ liệu 20-500 lần so với state-of-the-art mà vẫn duy trì hoặc vượt trội về độ chính xác cảm nhận.

#Autonomous Driving #Cooperative Perception #V2X Communication #Bandwidth Optimization

Lilian WengBlogBài viết·khoảng 1 năm trước

Tại sao chúng ta suy nghĩ

Why We Think

›Test-time compute (thinking time) và chain-of-thought cải thiện đáng kể hiệu suất model trên nhiều tasks.
›Post review các phát triển gần đây về cách sử dụng hiệu quả thời gian suy nghĩ trong inference.
›Mở ra nhiều câu hỏi nghiên cứu về tại sao allocating compute ở test-time giúp model hoạt động tốt hơn.

#Test-time Compute #Chain-of-Thought #Reasoning #LLM

Andrej KarpathyYouTubeVideo·hơn 1 năm trước

Tôi sử dụng LLMs như thế nào

How I use LLMs

›Chia sẻ cách Andrej Karpathy tích hợp LLMs vào quy trình làm việc hàng ngày.

#LLM #Ứng dụng thực tế

Andrej KarpathyYouTubeVideo·hơn 1 năm trước

Tìm hiểu sâu về LLMs như ChatGPT

Deep Dive into LLMs like ChatGPT

›Phân tích chi tiết cơ chế hoạt động của các mô hình ngôn ngữ lớn hiện đại.

#LLM #ChatGPT #Deep Learning

Lilian WengBlogBài viết·hơn 1 năm trước

Khai thác Reward trong Học Tăng cường

Reward Hacking in Reinforcement Learning

›Reward hacking xảy ra khi RL agent tận dụng lỗ hổng trong reward function để đạt điểm cao mà không hoàn thành task thực tế.
›Trở thành vấn đề cấp bách với language models sử dụng RLHF, ví dụ model sửa test cases thay vì giải quyết bài toán.
›Là một trong những trở ngại chính cản trở triển khai AI tự động trong thực tế.

#Reinforcement Learning #Reward Hacking #RLHF #Model Alignment

Lilian WengBlogBài viết·gần 2 năm trước

Ảo giác ngoại lai trong LLM

Extrinsic Hallucinations in LLMs

›Hallucination chia thành 2 loại: in-context (không khớp source content) và extrinsic (không grounded trong world knowledge).
›Extrinsic hallucination là khi model tạo nội dung không thể xác minh qua pre-training data hoặc kiến thức thực tế.
›Model cần vừa đảm bảo output factual vừa thừa nhận khi không biết câu trả lời thay vì fabricate.

#Hallucination #LLM #Factuality #Content Grounding

Andrej KarpathyYouTubeVideo·gần 2 năm trước

Tái tạo lại GPT-2 (124M)

Let's reproduce GPT-2 (124M)

›Hướng dẫn từng bước để xây dựng lại mô hình GPT-2 từ đầu.

#GPT-2 #Implementation #Training

Lilian WengBlogBài viết·khoảng 2 năm trước

Mô hình Diffusion cho Tạo Video

Diffusion Models for Video Generation

›Diffusion models mở rộng từ image synthesis sang video generation, task phức tạp hơn vì yêu cầu temporal consistency.
›Video generation đòi hỏi model encode nhiều world knowledge hơn để đảm bảo consistency across frames.
›Thách thức lớn là khó thu thập dữ liệu video high-quality, high-dimensional với text-video pairs lớn hơn so với image-text.

#Diffusion Models #Video Generation #Generative AI #Computer Vision

Andrej KarpathyYouTubeVideo·hơn 2 năm trước

Xây dựng Tokenizer cho GPT

Let's build the GPT Tokenizer

›Giải thích chi tiết cách xây dựng tokenizer từ cơ bản, một thành phần quan trọng của LLMs.

#Tokenizer #NLP #GPT

Lilian WengBlogBài viết·hơn 2 năm trước

Bàn về Dữ liệu Con người Chất lượng cao

Thinking about High-Quality Human Data

›Dữ liệu gán nhãn bởi con người là nhiên liệu cốt lõi cho học sâu hiện đại, gồm cả gán nhãn RLHF.
›Chất lượng dữ liệu phụ thuộc mạnh vào mức đồng thuận giữa người gán nhãn và cách thiết kế quy trình.
›Bài viết phân tích nguồn nhiễu, thiên lệch và cách nâng cao độ tin cậy của nhãn.

#Dữ liệu #RLHF #Gán nhãn

Fei-Fei LiarXivPaper·hơn 3 năm trước

Nhận dạng danh tính người không giám sát với điều chỉnh miền và ràng buộc đa camera

Unsupervised domain-adaptive person re-identification with multi-camera constraints

›Giải quyết vấn đề person re-identification khi dữ liệu test khác biệt với training data bằng domain adaptation.
›Sử dụng self-training kết hợp multi-camera constraints để tinh chỉnh pseudo-labels cải thiện độ chính xác.
›Tận dụng thông tin person-pair từ môi trường thực tế mà không cần nhãn danh tính.
›Vượt trội các phương pháp trước đó trên các tập dữ liệu công khai và riêng tư với overlapping camera views.

#Domain Adaptation #Person Re-identification #Multi-camera #Self-training

Gwern BranwenBlogBài viết·gần 5 năm trước

Bản tin Gwern.net tháng 5 năm 2021

May 2021 Gwern.net Newsletter

›Giới thiệu các kiến trúc TPUv4 và ZeRO-Infinity cho phép training mô hình hàng tỷ tham số trên quy mô lớn.
›Google nâng cấp GPipe/GShard thành GSPMD với hiệu suất 50-62% trên 128-2048 TPUv3 cores cho mô hình lên đến 1 tỷ tham số.
›Meta công bố DLRM và RecPipe cho việc huấn luyện embeddings lớn trong hệ thống recommendation.
›DeepMind áp dụng curriculum learning để một mạng neural duy nhất học từ kiểm soát humanoid đơn giản đến chiến lược đội tập hợp trong soccer.

#Scaling #Hardware #Reinforcement Learning #Deep Learning

Gwern BranwenBlogBài viết·gần 5 năm trước

Bản tin Gwern.net tháng 4 năm 2021

April 2021 newsletter

›Phân tích Set Transformer và Perceiver, những cách áp dụng attention mechanisms mới cho các bài toán permutation-invariant.
›Bàn luận liệu attention mechanisms có được chú ý quá mức khi nhiều tweaks trên Transformer không phổ biến rộng rãi.
›Z-IL và predictive coding có thể thực hiện exact backpropagation trên bất kỳ mạng neural nào với chi phí tương đương.
›Giải thích hiện tượng super-convergence: dùng learning rates rất cao (lên đến 20) có thể tiết kiệm 50-90% computing time.

#Transformer #Attention Mechanism #Neural Network Training #Optimization

Gwern BranwenBlogBài viết·khoảng 5 năm trước

Bản tin Gwern.net tháng 3 năm 2021

March 2021 Gwern.net Newsletter

›Phân tích neurons multimodal trong CLIP, phát hiện các 'tấn công' phân loại typographical và hiệu ứng Stroop trong mô hình.
›SEER: self-supervised learning trên 1 tỷ hình ảnh chưa lọc từ Internet đạt gần SOTA, chứng minh hiệu quả của unsupervised learning.
›Facebook mở rộng self-supervised training áp dụng cho hàng triệu ảnh, video và hàng giờ dữ liệu speech.
›Waymo sử dụng simulated driving để học từ cả sai lầm của con người qua negative mining, không chỉ từ sai lầm của mô hình.

#Vision Language #Self-Supervised Learning #CLIP #Computer Vision

Gwern BranwenBlogBài viết·khoảng 5 năm trước

Bản tin Gwern.net tháng 2 năm 2021

February 2021 Gwern.net Newsletter

›Prompt engineering: cải thiện prompts có thể tăng hiệu suất LLM hơn cả việc thêm few-shot examples.
›TransGAN: sử dụng Transformers thay vì CNNs để xây dựng GANs hiệu quả, chứng minh 'attention is all you need'.
›PACT: co-training cho theorem proving với GPT-f cho Lean, kết hợp language models và formal verification.
›Khám phá các giải pháp biologically-plausible cho backpropagation: feedback alignment, target propagation, predictive coding.

#Language Model #Prompt Engineering #GAN #Neural Architecture

Gwern BranwenBlogBài viết·hơn 5 năm trước

Bản tin Gwern.net tháng 1 năm 2021

Jan 2021 Gwern.net Newsletter

›DALL-E: GPT-3 12.5 tỷ tham số tạo ảnh từ text qua VQ-VAE, sinh ảnh minh họa và ảnh thực tế từ mô tả ngôn ngữ.
›CLIP: zero-shot image classification qua text descriptions, sử dụng contrastive learning trên 400 triệu hình ảnh-text pairs.
›Contrastive learning đơn giản ở quy mô lớn dẫn đến generalization và linh hoạt tổ hợp đáng chú ý trong image generation.
›CLIP đạt SOTA zero-shot trên nhiều datasets, có lỗi giống con người hơn, và áp dụng được cho OCR, caption generation, anime classification.

#Text-to-Image Generation #Vision Language #CLIP #Scaling

Yann LeCunarXivPaper·khoảng 8 năm trước

So sánh động lực học: Mạng nơ-ron sâu và Hệ thủy tinh (glassy systems)

Comparing Dynamics: Deep Neural Networks versus Glassy Systems

›Dùng phương pháp vật lý thống kê của hệ thủy tinh để phân tích động lực huấn luyện DNN.
›Khảo sát độ phức tạp của 'landscape' hàm mất mát và mức tương đồng với hệ glassy.
›Phát hiện quá trình huấn luyện chậm dần do số hướng 'phẳng' tăng lên.

#Lý thuyết học sâu #Vật lý thống kê #Tối ưu

Fei-Fei LiarXivPaper·khoảng 9 năm trước

NFC đa dải tần cho hệ thống cảm biến thị giác không dây tốc độ cao

Multiband NFC for High-Throughput Wireless Computer Vision Sensor Network

›Đề xuất hệ thống NFC sử dụng multiple frequency bands để đạt thông lượng truyền tải cao.
›Giải quyết nhu cầu truyền tải dữ liệu tốc độ cao cho các ứng dụng AR/VR và thị giác máy tính.

#NFC #Computer Vision #Wireless Communication #AR/VR

Fei-Fei LiarXivPaper·hơn 9 năm trước

Phát hiện đối tượng nổi bật RGB-D bằng học chuyển giao đa phương thức

RGB-D Salient Object Detection Based on Discriminative Cross-modal Transfer Learning

›Đề xuất dùng CNN để cải thiện phát hiện đối tượng nổi bật dựa trên thông tin độ sâu (depth).
›Xử lý vấn đề thiếu dữ liệu nhãn cho modality depth bằng chuyển giao từ ảnh RGB.
›Tận dụng dữ liệu phụ trợ từ modality nguồn để huấn luyện hiệu quả hơn.

#Thị giác máy tính #RGB-D #Học chuyển giao

Bản tin hôm nay

Thứ Hai 1 Th6, 2026 · 408 nội dung

Điều Quan Trọng Nhất Hôm Nay

›Tuần này ghi nhận bước ngoặt lớn: Claude Opus 4.8 ra mắt với cải thiện đáng kể về độ tin cậy, Anthropic hoàn tất vòng huy động $65 tỷ USD - vòng tư nhân lớn gấp đôi bất kỳ IPO nào trong lịch sử, và Google liên tiếp công bố Gemini 3.5 Flash cùng Project Genie biến đổi không gian thực thành thế giới tương tác 3D.

Claude & Anthropic: Tiền Bạc Và Hiệu Suất

›Claude Opus 4.8 - Cải Tiến Mục Đích
›Phiên bản mới chứng minh hiệu suất xử lý logic vượt trội hơn 4 lần khi xử lý code, kém lỗi hơn và ít tự tin không có căn cứ. Hỗ trợ mid-conversation system messages để cập nhật hướng dẫn giữa cuộc hội thoại dài mà không mất cache prompt — bước tiến quan trọng cho agent dài hạn.

Gemini & Google: Ứng Dụng Thực Tế Lên Đầu Tiên

›Gemini 3.5 Flash — Tốc Độ 4× Với Giá Rẻ Hơn
›Nhanh hơn 4 lần các mô hình frontier khác (800 tokens/sec trên Antigravity), chi phí ít hơn nửa giá competitors. Vượt Gemini 3.1 Pro trên lập trình và tác vụ agentic. Google tăng gấp 3 rate limits cho tất cả tiers.

Chủ đề đang nổi

1#LLM84 2#AI17 3#Gemini17 4#Agent16 5#Anthropic13 6#Kiến trúc mô hình12 7#Thị giác máy tính11 8#Benchmark9