Dòng tin

14 nội dung mới nhất
Bản tin hôm nay

Thứ Bảy 13 Th6, 2026 · 294 nội dung
Điều Quan Trọng Nhất Hôm Nay
  • Google công bố Gemini 3.5 và Omni tại I/O 2026 với khả năng agentic đột phá, đồng thời Anthropic buộc dừng Fable 5/Mythos 5 do lệnh kiểm soát xuất khẩu Mỹ. Xu hướng rõ ràng: thế giới đang bước vào "Agent Era" nơi AI không chỉ trả lời câu hỏi mà tự thực hiện công việc phức tạp.
Tất cả
Ethan Mollick
Ethan MollickXBài đăng·1 ngày trước
Các mô hình LLM tiên tiến vẫn thất bại với bài kiểm tra dịch thuật Beninatto-Trombetti
  • Valerio Capraro giới thiệu 'Beninatto-Trombetti test', bài kiểm tra dịch thuật chuyên nghiệp để đánh giá khả năng suy luận ngữ cảnh và cập nhật hình thức của các LLM
Yann LeCun
Yann LeCunXBài đăng·3 ngày trước
Bài Báo Ngoài Lề Năm Nay: Tại Sao AGI Là Ảo Tưởng Sinh Học và SAI Là Con Đường Đúng
  • Yann LeCun (Turing Award winner) và các cộng tác viên công bố bài báo thách thức quan niệm AGI (Artificial General Intelligence) là mục tiêu cuối cùng của ngành AI
OpenAI
OpenAIXBài đăng·4 ngày trước
Mục tiêu của OpenAI: Đảm bảo AGI có lợi cho toàn thể nhân loại
  • OpenAI đặt các mục tiêu 'north stars' xoay quanh sứ mệnh chính: đảm bảo AGI (Artificial General Intelligence) mang lại lợi ích cho toàn thể nhân loại
#AGI#Đạo đức AI
OpenAI
OpenAIBlogBài viết·5 ngày trước
Xây dựng để mang lợi ích cho mọi người: kế hoạch của chúng tôi
  • OpenAI công bố tầm nhìn về tương lai của AI tập trung vào ba trụ cột chính: tiếp cận toàn rộng, an toàn AI, và thịnh vượng chung
  • Cam kết đảm bảo rằng AGI mang lợi ích cho tất cả mọi người trong xã hội, không chỉ một nhóm nhỏ
swyx (Shawn Wang)
swyx (Shawn Wang)BlogBài viết·8 ngày trước
Thực tế: Đánh giá Cuối cùng — Lukas Petersson và Axel Backlund của Andon Labs
  • Website AIEWF mới đã ra mắt; khảo sát AI Engineering cung cấp hơn $2k credits và vé miễn phí cho hội thảo.
  • Các benchmark ngành (SWE-Bench Pro, MMLU, Humanity's Last Exam) nén khả năng trí tuệ thành điểm số nhưng không phản ánh đầy đủ hiệu suất thực tế của model.
  • Vending Bench của Andon Labs là một eval thực tiễn, mô phỏng hoạt động kinh doanh thực tế thay vì chỉ là kỳ thi.
  • Andon là eval bên thứ ba duy nhất được Anthropic nhắc tên riêng trong System Card của Mythos Preview, quan sát hành vi quyết tâm ngày càng lo ngại.
  • Xu hướng hiện tại là các eval tốt nhất tiến tới kiểm tra khả năng model hoạt động trong môi trường thực, không chỉ trên bảng xếp hạng trừu tượng.
swyx (Shawn Wang)
swyx (Shawn Wang)BlogBài viết·9 ngày trước
Vượt qua giới hạn AI không chính thức: Xác minh hóa và chứng minh chính thức từ Axiom Math
  • Axiom (startup 7 tháng tuổi) đã giải quyết tất cả 12 bài toán kỳ thi Putnam năm 2025, ghi 8/12 trong thời gian giới hạn, với tổng điểm 12/12 tốt hơn sinh viên hàng đầu (110/120) và DeepSeek (103/120)
  • Claude Code và Codex đang phát triển mạnh từ mid-2026, nhưng CEO Carina Hong của Axiom thấy rằng khả năng lập trình chỉ là bước cần thiết nhưng không đủ trên đường tới AGI
  • Tồn tại 'informal bottleneck' - mặc dù AI suy luận tốt trong lập trình nhưng vẫn có những khoảng trống đáng ngạc nhiên ngoài coding sẽ cản trở tiến bộ AI tới đó
  • Khái niệm 'Verified AI' của Axiom không phải regulatory broccoli-and-taxes verification mà là 'scaling brilliance, compounding brilliance' - tối ưu hóa khả năng thông qua chứng minh chính thức
  • Carina lấy ví dụ nhà toán học huyền thoại Srinivasa Ramanujan: khi G.H. Hardy thuyết phục Ramanujan chứng minh định lý chính thức thay vì dựa trực giác, nó cải thiện khả năng của chính Ramanujan vì buộc phải articulate chi tiết mở ra cách tư duy mới
  • Chứng minh chính thức cũng cho phép người khác hưởng lợi từ trực giác của Ramanujan - chứng minh là cách giao tiếp trực giác và thuyết phục người khác - đó là scaling (nhiều người sử dụng kết quả) và compounding (người khác học hỏi và xây dựng dựa trên công việc)
  • Verified AI của Axiom xuất hiện cả trong training và inference, sử dụng Lean và formal verification để chứng minh các suy luận toán học một cách chính thức thay vì dựa vào trực giác
swyx (Shawn Wang)
swyx (Shawn Wang)XBài đăng·10 ngày trước
Codex là AGI
  • swyx nhận xét về Codex là Artificial General Intelligence (AGI) với một video demonstration.
#Codex#AGI#Code Generation
Rowan Cheung
Rowan CheungXBài đăng·17 ngày trước
Phỏng vấn CEO Google DeepMind Demis Hassabis về AGI và tương lai nhân loại
  • Demis Hassabis, CEO của Google DeepMind, cho rằng chúng ta đang ở 'foothills of the singularity' - giai đoạn tiến gần đến điểm kỳ dị công nghệ
Rowan Cheung
Rowan CheungXBài đăng·18 ngày trước
Ghép hình: CEO Google DeepMind Demis Hassabis nói rằng chúng ta ở 'những ngọn đồi của sự kỳ dị'
  • Phỏng vấn với CEO Google DeepMind Demis Hassabis, người cho rằng chúng ta đang ở 'những ngọn đồi của sự kỳ dị' (foothills of the singularity) — giai đoạn sơ khai của AGI
Rowan Cheung
Rowan CheungXBài đăng·23 ngày trước
Hậu trường với Sundar Pichai và Demis Hassabis, hai nhân vật quan trọng nhất trong AI
  • Bài viết giới thiệu phỏng vấn hậu trường với hai người lãnh đạo AI hàng đầu: Sundar Pichai (Google CEO) và Demis Hassabis (Google DeepMind CEO)
Jack Clark
Jack ClarkXBài đăng·khoảng 1 tháng trước
Bài viết phản biện tuyên bố 'RSI 60% trước cuối 2028' với các benchmark cụ thể cho cái nhìn thận trọng hơn
  • Jack Clark ca ngợi bài viết phản biện tuyên bố 'RSI (Recursive Self-Improvement) đạt 60% trước cuối 2028' của ông
Riley Goodside
Riley GoodsideXBài đăng·khoảng 1 tháng trước
Dự báo 60% xác suất RSI năm 2028 có ý nghĩa quan trọng hơn các vấn đề khác
  • Jack Clark ước tính xác suất Recursive Self-Improvement xảy ra vào cuối 2028 là 60%.
#RSI#Dự báo AI#AGI
Riley Goodside
Riley GoodsideXBài đăng·khoảng 1 tháng trước
Đồng sáng lập Anthropic: 60% khả năng RSI xảy ra vào cuối 2028
  • Jack Clark phân tích hơn 100 nguồn dữ liệu công cộng để ước tính khả năng RSI.
#RSI#Self-Improvement#AGI
Jack Clark
Jack ClarkXBài đăng·khoảng 1 tháng trước
Jack Clark dự báo: 60% cơ hội recursive self-improvement xảy ra trước cuối 2028
  • Sau khi phân tích hàng trăm nguồn dữ liệu công khai về phát triển AI, Jack Clark ước tính recursive self-improvement (AI tự cải thiện) có 60% cơ hội xảy ra trước cuối 2028