Dòng tin

51 nội dung mới nhất
Mới hôm nay
Simon Willison
Simon WillisonBlogBài viết·khoảng 7 giờ trướcMớiHot
Phiên bản datasette 1.0a32 ra mắt
datasette 1.0a32
  • Phiên bản sửa lỗi minor cho datasette 1.0a32 được phát hành với các cải tiến về tính ổn định.
  • Sửa lỗi với các truy vấn INSERT ... RETURNING qua điểm cuối /db/-/execute-write mới.
  • Khắc phục nhiều vấn đề liên quan đến cấu hình base_url khi dùng Service Workers.
Simon Willison
Simon WillisonGitHubRelease·khoảng 7 giờ trướcMớiHot
Simon Willison phát hành datasette 1.0a32
simonw released 1.0a32 at simonw/datasette
  • Phát hành datasette 1.0a32 với hỗ trợ cho các mệnh đề SQLite INSERT ... RETURNING.
  • Khắc phục lỗi liên quan đến cấu hình base_url trong các tình huống sử dụng Service Workers.
  • Cải thiện khả năng tương thích với /db/-/execute-write endpoint để thực thi các truy vấn ghi dữ liệu.
Simon Willison
Simon WillisonBlogBài viết·khoảng 14 giờ trướcMớiHot
Giải pháp có thể là hủy đăng ký AI của tôi
The solution might be cancelling my AI subscription
  • AI agent có thể biến ý tưởng mơ hồ thành giải pháp hoàn chỉnh chỉ trong một giờ, nhưng tạo quá nhiều dự án bị bỏ rơi.
  • Công cụ AI tạo 'phần thưởng rẻ tiền' với ít đầu vào nhưng có thể trở thành trách nhiệm vô cùng, đặc biệt cho những người dễ bị phân tán.
  • Một số người ADHD lại thấy AI giúp họ tập trung tốt hơn và hoàn thành dự án lần đầu tiên.
  • Thách thức chính là phát triển kỷ luật khi sử dụng công cụ có khả năng tạo ra nhanh chóng.
Trước đó
Simon Willison
Simon WillisonBlogBài viết·1 ngày trướcHot
Trích dẫn Karen Kwok từ Reuters về định nghĩa doanh thu run-rate của Anthropic
Quoting Karen Kwok for Reuters Breakingviews
  • Anthropic định nghĩa 'run-rate revenue' gồm hai phần riêng biệt.
  • Lấy doanh số 28 ngày gần nhất từ khách hàng theo mức sử dụng, nhân với 13.
  • Nhân doanh thu subscription hàng tháng với 12, rồi cộng hai giá trị lại.
Simon Willison
Simon WillisonBlogBài viết·1 ngày trướcHot
Cách Anthropic tách biệt Claude trên các sản phẩm
How we contain Claude across products
  • Anthropic công bố chi tiết cách sử dụng sandbox để kiểm soát Claude trên Claude.ai, Claude Code và Cowork.
  • Sử dụng process sandboxes, VMs, filesystem boundaries, và egress controls để tạo ranh giới cứng cho agents.
  • Claude.ai dùng gVisor, Claude Code dùng Seatbelt (macOS) hoặc Bubblewrap (Linux), Cowork dùng full VM.
  • Bài viết đề cập các rủi ro bị bỏ qua như lỗ hổng exfiltration qua api.anthropic.com/v1/files.
  • Anthropic cung cấp SRT (Sandbox Runtime) open source để sandbox code.
Jeremy Howard
Jeremy HowardGitHubRelease·3 ngày trước
Phát hành fasthtml phiên bản 0.14.2
AnswerDotAI released 0.14.2 at AnswerDotAI/fasthtml
  • AnswerDotAI phát hành fasthtml 0.14.2
  • Nâng cấp Starlette lên phiên bản tối thiểu 1.0.1 để vá lỗ bảo mật CVE
Jeremy Howard
Jeremy HowardGitHubRelease·3 ngày trước
fastaudit phiên bản 0.1.3 được phát hành
AnswerDotAI released 0.1.3 at AnswerDotAI/fastaudit
  • fastaudit v0.1.3 mang đến thay đổi lớn: chuyển từ deny-list sang allow-list với hỗ trợ prefix cho audit policy
  • Thêm tính năng track_call cho async-aware permissions
  • Cải thiện cơ chế kiểm soát truy cập module và function
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·4 ngày trước
Suy nghĩ trước khi hạn chế: Khung Decoding thống nhất cho Mô hình ngôn ngữ lớn
Thinking Before Constraining: A Unified Decoding Framework for Large Language Models
  • Natural generation cho phép LLM sản xuất free-form responses với reasoning phong phú nhưng khó xác minh; constrained decoding đảm bảo định dạng chuẩn nhưng hạn chế reasoning.
  • Phương pháp In-Writing kết hợp free-form reasoning và structured generation bằng trigger token để tách biệt chúng.
  • Model thực hiện unconstrained reasoning trước, sau đó áp dụng structured decoding khi trigger token được sinh ra, tránh premature triggering.
  • Đạt được cải thiện lên tới 27% về độ chính xác so với natural generation trên các bộ dữ liệu classification và reasoning.
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·4 ngày trước
Lấy mẫu Khuếch tán với Nhiễu Đa màu
Colored Noise Diffusion Sampling
  • Diffusion models có spectral bias: giải quyết cấu trúc global tần số thấp trước, chi tiết tần số cao sau, dẫn đến lãng phí ngân sách năng lượng.
  • Colored Noise Sampling (CNS) là stochastic solver không cần huấn luyện, sử dụng lịch biểu nhiễu động phụ thuộc vào timestep và tần số thay vì white noise đều.
  • CNS phân bổ năng lượng tiêm hiệu quả hơn vào các dải tần số chưa được giải quyết, tận dụng spectral bias nội sinh của mô hình.
  • CNS đạt cải thiện FID đáng kể: 8.26→6.27 trên SiT-XL/2, 32.39→26.69 trên JiT-B/16, có thể áp dụng plug-and-play cho các kiến trúc khác nhau.
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·4 ngày trước
UniSteer: Flow Matching Dẫn Hướng Bằng Văn Bản Cho LLM Steering Đa Năng
UniSteer: Text-Guided Flow Matching in Activation Space for Versatile LLM Steering
  • UniSteer là mô hình activation-based control học một conditional velocity field trong activation space từ điều kiện ngôn ngữ tự nhiên.
  • Thay vì tạo intervention riêng cho mỗi hành vi, UniSteer học một universal model hỗ trợ multiple behaviors từ một interface duy nhất.
  • Lúc inference, thực hiện flow inversion để vận chuyển activation theo hướng mục tiêu, hỗ trợ behavioral control, truthfulness steering, và concept steering.
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·4 ngày trước
Tại sao Cái Xa Nhìn Lên: Phân tích Biểu diễn Không gian trong Vision-Language Models
Why Far Looks Up: Probing Spatial Representation in Vision-Language Models
  • Đề xuất framework phân tích embedding để kiểm tra cách VLM tổ chức các trục không gian.
  • Phát hiện bias 'vertical-distance entanglement' nhất quán: model nhầm vị trí dọc ảnh với khoảng cách.
  • Bias tăng với data scaling dù benchmark accuracy cải thiện.
  • SpatialTunnel benchmark tổng hợp chứng minh bias là nội tại model, model với spatial axes tốt hơn đạt robustness cao hơn.
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·4 ngày trước
Hình học quan trọng: Ưu tiên 3D cho học Semantic Correspondence
Geometry Matters: 3D Foundation Priors for Learning Semantic Correspondence
  • Foundation features từ vision models tự giám sát thiếu nhận thức 3D rõ ràng, dẫn đến nhầm lẫn giữa các phần đối xứng và cấu trúc tương tự trực quan.
  • Phương pháp sử dụng SAM3D để ước tính hình học và pose vật thể, sau đó tối ưu hóa pose qua render-and-compare optimization.
  • Kết hợp PartField descriptors từ hình học tái tạo với DINO và Stable Diffusion features để cải thiện semantic correspondence.
  • Sử dụng geodesic distances trên hình dạng tái tạo để lọc candidate correspondences, giảm nhu cầu giám sát hình học thủ công.
Andrew Ng
Andrew NgYouTubeVideo·6 ngày trước
Bộ nhớ của AI giỏi cỡ nào?
How good is AI memory?
  • Khám phá khả năng và giới hạn của bộ nhớ trong các mô hình AI hiện đại.
  • Độ dài ngữ cảnh (context length) ảnh hưởng trực tiếp đến khả năng giữ thông tin.
  • Cân bằng giữa khả năng nhớ lâu dài và hiệu suất tính toán trong thực tế.
Andrew Ng
Andrew NgYouTubeVideo·9 ngày trước
Evals bị hỏng - nhưng vẫn nên dùng chúng
AI Dev 26 x SF | Ara Khan: Evals Are Broken Use Them Anyway
  • Evals (đánh giá mô hình) có nhiều vấn đề nhưng vẫn cần thiết trong phát triển AI.
  • Hiểu rõ giới hạn của evaluation metrics giúp sử dụng chúng hiệu quả hơn.
  • Không nên hoàn toàn bỏ qua evals mặc dù chúng không hoàn hảo.
Andrew Ng
Andrew NgYouTubeVideo·9 ngày trước
Tìm kiếm Semantic bắt đầu từ Embeddings
Semantic Search Starts With Embeddings
  • Embeddings là nền tảng cho các hệ thống tìm kiếm semantic hiện đại.
  • Chất lượng embeddings quyết định hiệu quả của tìm kiếm và retrieval.
  • RAG (Retrieval-Augmented Generation) dựa vào embeddings tốt để cải thiện kết quả.
Andrew Ng
Andrew NgYouTubeVideo·10 ngày trước
Tại sao mỗi Agent AI cần một Simulation Sandbox
AI Dev 26 x SF | Andi Partovi: Why Every Agent Needs a Simulation Sandbox
  • Sandbox mô phỏng cho phép agent kiểm tra hành động mà không ảnh hưởng thế giới thực.
  • Mô phỏng giúp agent học và tối ưu hóa hành động trước khi triển khai.
  • Bảo mật và an toàn của AI agent được nâng cao thông qua môi trường sandbox.
Andrew Ng
Andrew NgYouTubeVideo·10 ngày trước
Xây dựng Quy trình Công việc Doanh nghiệp Tái diễn với Quản lý và Nhúng
AI Dev 26 x SF | João Moura: Building Recurring, Governed, and Embedded Enterprise Workflows
  • Các quy trình công việc AI trong doanh nghiệp cần được thiết kế để tái diễn một cách tự động và đáng tin cậy.
  • Governance là yếu tố quan trọng để đảm bảo agents hoạt động theo các chính sách và quy tắc của tổ chức.
  • Nhúng agents vào hệ thống hiện có giúp tạo giá trị ngay lập tức cho doanh nghiệp.
Demis Hassabis
Demis HassabisBlogBài viết·10 ngày trước
Khởi động chương trình Google DeepMind Accelerator tại Châu Á-Thái Bình Dương để giải quyết rủi ro môi trường
We’re launching the Google DeepMind Accelerator program in Asia Pacific to tackle environmental risks
  • Google DeepMind khởi động chương trình Accelerator tập trung vào khu vực Châu Á-Thái Bình Dương.
  • Chương trình nhằm mục đích giải quyết các rủi ro môi trường thông qua AI và machine learning.
  • Hợp tác giữa DeepMind và các tổ chức địa phương để tăng tốc độ phát triển các giải pháp bền vững.
Demis Hassabis
Demis HassabisBlogBài viết·14 ngày trước
Tăng tốc độ các yếu tố di truyền để đảo ngược lão hóa tế bào
Fast-tracking genetic leads to reverse cellular aging
  • Các nhà sinh học sử dụng Co-Scientist để tìm các yếu tố di truyền novel có khả năng làm trẻ hóa tế bào người thành công.
  • AI Co-Scientist hỗ trợ phát hiện và xác thực các yếu tố mới giúp đảo ngược quá trình lão hóa tế bào.
  • Kết hợp giữa bioinformatics, machine learning, và nghiên cứu sinh học để tăng tốc độ khám phá.
Demis Hassabis
Demis HassabisBlogBài viết·14 ngày trước
Mô phỏng các địa điểm thực tế với Project Genie và Street View
Simulate real-world places with Project Genie and Street View
  • Project Genie cho phép mô phỏng các địa điểm thực tế dựa trên dữ liệu Street View.
  • Mở rộng quyền truy cập Google AI Ultra cho người dùng trên toàn cầu.
  • Công cụ này giúp hiểu sâu hơn về không gian và môi trường qua mô hình AI đa phương thức.
Demis Hassabis
Demis HassabisBlogBài viết·14 ngày trước
Giới thiệu Gemini Omni
Introducing Gemini Omni
  • Gemini Omni là phiên bản mới với khả năng xử lý đa phương thức (text, hình ảnh, âm thanh) cùng lúc.
  • Nâng cao khả năng hiểu biết và suy luận trên các loại dữ liệu khác nhau.
  • Mở rộng ứng dụng của mô hình ngôn ngữ lớn trong các tác vụ phức tạp.
Demis Hassabis
Demis HassabisBlogBài viết·14 ngày trước
Giới thiệu Google Antigravity 2.0
Introducing Google Antigravity 2.0
  • Google Antigravity 2.0 là phiên bản cải tiến với hiệu suất và độ chính xác tăng đáng kể.
  • Tối ưu hóa khả năng xử lý và tốc độ suy luận của mô hình.
  • Hỗ trợ triển khai AI hiệu quả hơn cho các ứng dụng thực tế.
Sebastian Raschka
Sebastian RaschkaBlogBài viết·16 ngày trước
Những phát triển gần đây trong kiến trúc LLM: KV Sharing, mHC và Compressed Attention
Recent Developments in LLM Architectures: KV Sharing, mHC, and Compressed Attention
  • Các kiến trúc LLM mới tập trung vào hiệu quả xử lý bối cảnh dài thông qua KV sharing, per-layer embeddings và compressed attention.
  • KV-cache size, memory traffic và attention cost trở thành những ràng buộc chính khi agent workflows giữ lại nhiều token.
  • Gemma 4, Laguna XS.2, ZAYA1-8B và DeepSeek V4 áp dụng các kỹ thuật kiến trúc này để giảm chi phí tính toán.
Fei-Fei Li
Fei-Fei LiarXivPaper·18 ngày trước
Phát hiện có hệ thống các tấn công Semantic trong xây dựng bản đồ trực tuyến thông qua Diffusion có điều kiện
Systematic Discovery of Semantic Attacks in Online Map Construction through Conditional Diffusion
  • HD map construction cho autonomous vehicles là yếu tố an toàn-quan trọng, nhưng attacks pixel-level hiện tại bị neutralized bởi adversarial defenses tiêu chuẩn.
  • MIRAGE sử dụng latent manifold của diffusion models để tìm semantic attacks dạng environmental variations (bóng, đường ướt) mà bypass adversarial defenses.
  • Hai attacks được kiểm tra: boundary removal loại bỏ 57.7% detections và làm hỏng 96% planned trajectories; boundary injection tạo boundary giả mạo thành công.
  • Semantic-level perturbations hiệu quả dưới nhiều adversarial defenses, cho thấy defenses hiện tại yếu với các biến thể semantic so với pixel-level perturbations.
Sebastian Raschka
Sebastian RaschkaBlogBài viết·khoảng 1 tháng trước
Quy trình làm việc của tôi để hiểu kiến trúc LLM
My Workflow for Understanding LLM Architectures
  • Quy trình bắt đầu từ báo cáo kỹ thuật chính thức nhưng các paper hiện nay thường ít chi tiết hơn.
  • Nếu mô hình được chia sẻ trên Hugging Face Model Hub và hỗ trợ bởi thư viện transformers, có thể kiểm tra config và reference implementation để hiểu chi tiết kiến trúc.
  • Code "hoạt động" không bao giờ nói dối, nên là nguồn thông tin đáng tin cậy nhất.
Sebastian Raschka
Sebastian RaschkaBlogBài viết·khoảng 2 tháng trước
Các thành phần của một Coding Agent
Components of A Coding Agent
  • Coding agents bao gồm 6 thành phần chính: tool use, context management, memory, và các layer agentic harness khác.
  • Hệ thống xung quanh (harness) đóng vai trò quan trọng như chính model, giúp tối ưu hóa hiệu suất cho coding tasks.
  • Claude Code và Codex CLI là ví dụ về agentic harness hiệu quả, vượt trội hơn so với plain chat interface.
Sebastian Raschka
Sebastian RaschkaBlogBài viết·2 tháng trước
Hướng dẫn trực quan về các biến thể Attention trong LLM hiện đại
A Visual Guide to Attention Variants in Modern LLMs
  • Xây dựng LLM architecture gallery tổng hợp 45+ kiến trúc attention khác nhau.
  • Ghi chép toàn diện các biến thể attention từ các bài viết trước và thêm nhiều kiến trúc quan trọng chưa được tài liệu hóa.
  • Mỗi entry đi kèm visual model card và sẽ cập nhật thường xuyên để theo kịp xu hướng.
Sebastian Raschka
Sebastian RaschkaBlogBài viết·3 tháng trước
Mùa xuân của LLM mã nguồn mở: 10 kiến trúc tháng 1–2/2026
A Dream of Spring for Open-Weight LLMs: 10 Architectures from Jan-Feb 2026
  • Tổng hợp 10 mô hình open-weight nổi bật đầu 2026 (Kimi K2.5, GLM-5, Qwen3-Coder, MiniMax M2.5...).
  • So sánh điểm giống và khác nhau về kiến trúc giữa các mô hình.
  • Giúp người đọc nắm nhanh xu hướng thiết kế LLM mới nhất.
Jeremy Howard
Jeremy HowardBlogBài viết·3 tháng trước
Tôi Không Muốn Bảng Điều Khiển Học Tập Cho Con Tôi
I Don’t Want a Learning Dashboard for My Child
  • Các cuộc tranh luận về giáo dục thường chia thành hai cực: non-tech vs tiếp cận AI.
  • AI ed-tech thường chỉ phóng đại các vấn đề sẵn có của trường học truyền thống, chứ không giải quyết căn bản.
Andrej Karpathy
Andrej KarpathyBlogBài viết·4 tháng trước
MicroGPT
microgpt
  • MicroGPT là dự án nghệ thuật chứa 200 dòng code Python thuần túy, không phụ thuộc bên ngoài, có thể train và inference GPT hoàn chỉnh.
  • Code bao gồm toàn bộ thành phần cần thiết: dataset, tokenizer, autograd engine, kiến trúc GPT-2, optimizer Adam, vòng training và inference.
  • Đây là culmination của các dự án trước (micrograd, makemore, nanogpt) nhằm đơn giản hóa LLMs đến bản chất cơ bản nhất.
  • Mã nguồn có sẵn trên GitHub gist, trang web karpathy.ai, Google Colab, và được bán dưới dạng tranh triptych trên karpathy.art.
Jeremy Howard
Jeremy HowardBlogBài viết·4 tháng trước
Phá Vỡ Cơn Mê Của Vibe Coding
Breaking the Spell of Vibe Coding
  • Vibe coding là tạo lượng lớn code phức tạp được AI sinh ra, thường không nhằm để con người đọc hiểu.
  • Hiện tượng này tác động mạnh: lãnh đạo sa thải nhân viên, quản lý ép quota AI-generated code, và áp lực tâm lý lên developers.
  • Sinh viên hoài nghi có cần học lập trình, mọi người trong ngành lo lắng AI sẽ thay thế công việc của họ.
Jeremy Howard
Jeremy HowardBlogBài viết·4 tháng trước
Cách Sử Dụng AI Cho Nghệ Thuật Đọc Kỹ Lưỡng Cổ Xưa
How To Use AI for the Ancient Art of Close Reading
  • Close reading là kỹ thuật phân tích cẩn thận văn bản, chú ý đến ngôn ngữ, cấu trúc và nội dung chính xác.
  • Đây là một công nghệ cổ xưa và mạnh mẽ nhất của nền văn minh để truyền đạt sự hiểu biết toàn diện (gestalt).
  • AI có thể hỗ trợ áp dụng close reading hiệu quả hơn cho phân tích sâu sắc.
Fei-Fei Li
Fei-Fei LiarXivPaper·6 tháng trước
JigsawComm: Truyền tải đặc trưng ngữ nghĩa để cảm nhận hợp tác giữa phương tiện hiệu quả
JigsawComm: Joint Semantic Feature Encoding and Transmission for Communication-Efficient Cooperative Perception
  • JigsawComm là framework end-to-end học trích xuất đặc trưng sparse, semantic-aware để các phương tiện tự động chia sẻ thông tin nhìn thấy hiệu quả.
  • Feature Utility Estimator dự đoán đóng góp của từng agent và loại bỏ dữ liệu trùng lặp giữa các agent.
  • Giảm payload truyền tải xuống O(1) khi số lượng agent tăng, overhead meta information không đáng kể.
  • Giảm khối lượng dữ liệu 20-500 lần so với state-of-the-art mà vẫn duy trì hoặc vượt trội về độ chính xác cảm nhận.
Lilian Weng
Lilian WengBlogBài viết·khoảng 1 năm trước
Tại sao chúng ta suy nghĩ
Why We Think
  • Test-time compute (thinking time) và chain-of-thought cải thiện đáng kể hiệu suất model trên nhiều tasks.
  • Post review các phát triển gần đây về cách sử dụng hiệu quả thời gian suy nghĩ trong inference.
  • Mở ra nhiều câu hỏi nghiên cứu về tại sao allocating compute ở test-time giúp model hoạt động tốt hơn.
Andrej Karpathy
Andrej KarpathyYouTubeVideo·hơn 1 năm trước
Tôi sử dụng LLMs như thế nào
How I use LLMs
  • Chia sẻ cách Andrej Karpathy tích hợp LLMs vào quy trình làm việc hàng ngày.
Andrej Karpathy
Andrej KarpathyYouTubeVideo·hơn 1 năm trước
Tìm hiểu sâu về LLMs như ChatGPT
Deep Dive into LLMs like ChatGPT
  • Phân tích chi tiết cơ chế hoạt động của các mô hình ngôn ngữ lớn hiện đại.
Lilian Weng
Lilian WengBlogBài viết·hơn 1 năm trước
Khai thác Reward trong Học Tăng cường
Reward Hacking in Reinforcement Learning
  • Reward hacking xảy ra khi RL agent tận dụng lỗ hổng trong reward function để đạt điểm cao mà không hoàn thành task thực tế.
  • Trở thành vấn đề cấp bách với language models sử dụng RLHF, ví dụ model sửa test cases thay vì giải quyết bài toán.
  • Là một trong những trở ngại chính cản trở triển khai AI tự động trong thực tế.
Lilian Weng
Lilian WengBlogBài viết·gần 2 năm trước
Ảo giác ngoại lai trong LLM
Extrinsic Hallucinations in LLMs
  • Hallucination chia thành 2 loại: in-context (không khớp source content) và extrinsic (không grounded trong world knowledge).
  • Extrinsic hallucination là khi model tạo nội dung không thể xác minh qua pre-training data hoặc kiến thức thực tế.
  • Model cần vừa đảm bảo output factual vừa thừa nhận khi không biết câu trả lời thay vì fabricate.
Andrej Karpathy
Andrej KarpathyYouTubeVideo·gần 2 năm trước
Tái tạo lại GPT-2 (124M)
Let's reproduce GPT-2 (124M)
  • Hướng dẫn từng bước để xây dựng lại mô hình GPT-2 từ đầu.
Lilian Weng
Lilian WengBlogBài viết·khoảng 2 năm trước
Mô hình Diffusion cho Tạo Video
Diffusion Models for Video Generation
  • Diffusion models mở rộng từ image synthesis sang video generation, task phức tạp hơn vì yêu cầu temporal consistency.
  • Video generation đòi hỏi model encode nhiều world knowledge hơn để đảm bảo consistency across frames.
  • Thách thức lớn là khó thu thập dữ liệu video high-quality, high-dimensional với text-video pairs lớn hơn so với image-text.
Andrej Karpathy
Andrej KarpathyYouTubeVideo·hơn 2 năm trước
Xây dựng Tokenizer cho GPT
Let's build the GPT Tokenizer
  • Giải thích chi tiết cách xây dựng tokenizer từ cơ bản, một thành phần quan trọng của LLMs.
Lilian Weng
Lilian WengBlogBài viết·hơn 2 năm trước
Bàn về Dữ liệu Con người Chất lượng cao
Thinking about High-Quality Human Data
  • Dữ liệu gán nhãn bởi con người là nhiên liệu cốt lõi cho học sâu hiện đại, gồm cả gán nhãn RLHF.
  • Chất lượng dữ liệu phụ thuộc mạnh vào mức đồng thuận giữa người gán nhãn và cách thiết kế quy trình.
  • Bài viết phân tích nguồn nhiễu, thiên lệch và cách nâng cao độ tin cậy của nhãn.
Fei-Fei Li
Fei-Fei LiarXivPaper·hơn 3 năm trước
Nhận dạng danh tính người không giám sát với điều chỉnh miền và ràng buộc đa camera
Unsupervised domain-adaptive person re-identification with multi-camera constraints
  • Giải quyết vấn đề person re-identification khi dữ liệu test khác biệt với training data bằng domain adaptation.
  • Sử dụng self-training kết hợp multi-camera constraints để tinh chỉnh pseudo-labels cải thiện độ chính xác.
  • Tận dụng thông tin person-pair từ môi trường thực tế mà không cần nhãn danh tính.
  • Vượt trội các phương pháp trước đó trên các tập dữ liệu công khai và riêng tư với overlapping camera views.
Gwern Branwen
Gwern BranwenBlogBài viết·gần 5 năm trước
Bản tin Gwern.net tháng 5 năm 2021
May 2021 Gwern.net Newsletter
  • Giới thiệu các kiến trúc TPUv4 và ZeRO-Infinity cho phép training mô hình hàng tỷ tham số trên quy mô lớn.
  • Google nâng cấp GPipe/GShard thành GSPMD với hiệu suất 50-62% trên 128-2048 TPUv3 cores cho mô hình lên đến 1 tỷ tham số.
  • Meta công bố DLRM và RecPipe cho việc huấn luyện embeddings lớn trong hệ thống recommendation.
  • DeepMind áp dụng curriculum learning để một mạng neural duy nhất học từ kiểm soát humanoid đơn giản đến chiến lược đội tập hợp trong soccer.
Gwern Branwen
Gwern BranwenBlogBài viết·gần 5 năm trước
Bản tin Gwern.net tháng 4 năm 2021
April 2021 newsletter
  • Phân tích Set Transformer và Perceiver, những cách áp dụng attention mechanisms mới cho các bài toán permutation-invariant.
  • Bàn luận liệu attention mechanisms có được chú ý quá mức khi nhiều tweaks trên Transformer không phổ biến rộng rãi.
  • Z-IL và predictive coding có thể thực hiện exact backpropagation trên bất kỳ mạng neural nào với chi phí tương đương.
  • Giải thích hiện tượng super-convergence: dùng learning rates rất cao (lên đến 20) có thể tiết kiệm 50-90% computing time.
Gwern Branwen
Gwern BranwenBlogBài viết·khoảng 5 năm trước
Bản tin Gwern.net tháng 3 năm 2021
March 2021 Gwern.net Newsletter
  • Phân tích neurons multimodal trong CLIP, phát hiện các 'tấn công' phân loại typographical và hiệu ứng Stroop trong mô hình.
  • SEER: self-supervised learning trên 1 tỷ hình ảnh chưa lọc từ Internet đạt gần SOTA, chứng minh hiệu quả của unsupervised learning.
  • Facebook mở rộng self-supervised training áp dụng cho hàng triệu ảnh, video và hàng giờ dữ liệu speech.
  • Waymo sử dụng simulated driving để học từ cả sai lầm của con người qua negative mining, không chỉ từ sai lầm của mô hình.
Gwern Branwen
Gwern BranwenBlogBài viết·khoảng 5 năm trước
Bản tin Gwern.net tháng 2 năm 2021
February 2021 Gwern.net Newsletter
  • Prompt engineering: cải thiện prompts có thể tăng hiệu suất LLM hơn cả việc thêm few-shot examples.
  • TransGAN: sử dụng Transformers thay vì CNNs để xây dựng GANs hiệu quả, chứng minh 'attention is all you need'.
  • PACT: co-training cho theorem proving với GPT-f cho Lean, kết hợp language models và formal verification.
  • Khám phá các giải pháp biologically-plausible cho backpropagation: feedback alignment, target propagation, predictive coding.
Gwern Branwen
Gwern BranwenBlogBài viết·hơn 5 năm trước
Bản tin Gwern.net tháng 1 năm 2021
Jan 2021 Gwern.net Newsletter
  • DALL-E: GPT-3 12.5 tỷ tham số tạo ảnh từ text qua VQ-VAE, sinh ảnh minh họa và ảnh thực tế từ mô tả ngôn ngữ.
  • CLIP: zero-shot image classification qua text descriptions, sử dụng contrastive learning trên 400 triệu hình ảnh-text pairs.
  • Contrastive learning đơn giản ở quy mô lớn dẫn đến generalization và linh hoạt tổ hợp đáng chú ý trong image generation.
  • CLIP đạt SOTA zero-shot trên nhiều datasets, có lỗi giống con người hơn, và áp dụng được cho OCR, caption generation, anime classification.
Yann LeCun
Yann LeCunarXivPaper·khoảng 8 năm trước
So sánh động lực học: Mạng nơ-ron sâu và Hệ thủy tinh (glassy systems)
Comparing Dynamics: Deep Neural Networks versus Glassy Systems
  • Dùng phương pháp vật lý thống kê của hệ thủy tinh để phân tích động lực huấn luyện DNN.
  • Khảo sát độ phức tạp của 'landscape' hàm mất mát và mức tương đồng với hệ glassy.
  • Phát hiện quá trình huấn luyện chậm dần do số hướng 'phẳng' tăng lên.
Fei-Fei Li
Fei-Fei LiarXivPaper·khoảng 9 năm trước
NFC đa dải tần cho hệ thống cảm biến thị giác không dây tốc độ cao
Multiband NFC for High-Throughput Wireless Computer Vision Sensor Network
  • Đề xuất hệ thống NFC sử dụng multiple frequency bands để đạt thông lượng truyền tải cao.
  • Giải quyết nhu cầu truyền tải dữ liệu tốc độ cao cho các ứng dụng AR/VR và thị giác máy tính.
Fei-Fei Li
Fei-Fei LiarXivPaper·hơn 9 năm trước
Phát hiện đối tượng nổi bật RGB-D bằng học chuyển giao đa phương thức
RGB-D Salient Object Detection Based on Discriminative Cross-modal Transfer Learning
  • Đề xuất dùng CNN để cải thiện phát hiện đối tượng nổi bật dựa trên thông tin độ sâu (depth).
  • Xử lý vấn đề thiếu dữ liệu nhãn cho modality depth bằng chuyển giao từ ảnh RGB.
  • Tận dụng dữ liệu phụ trợ từ modality nguồn để huấn luyện hiệu quả hơn.