Dòng tin
Tất cả
GPIC trở thành tiêu chuẩn benchmark mới cho mô hình sinh tạo hình ảnh
RT by @drfeifei: GPIC should be the new standard benchmark for generative modeling. Training 1 epoch on GPIC is the same cost as 100 epochs on ImageNet, but is a much better proxy for real-world problems. If you work in generative modeling, try GPIC for your next project!
- ›GPIC (Giant Permissive Image Corpus) chứa 100 triệu cặp image-text được tạo caption bằng VLM và 1 triệu cặp cho benchmarking, tổng cộng ~28 tỷ pixels.
GPIC - dataset benchmark mới phù hợp với thời đại mô hình sinh tạo quy mô lớn
I’m very excited by this new benchmark dataset for visual generation that is suitable for the modern era of large scale generative models!🤩
- ›Fei-Fei Li hào hứng với GPIC vì đây là dataset benchmark được thiết kế cho kỷ nguyên large-scale generative models.
Fei-Fei Li vinh dự nhận bằng tiến sĩ danh dự từ Đại học Brown
It’s a real honor to receive an honorary doctorate of science from @BrownUniversity . 😍
- ›Fei-Fei Li nhận bằng tiến sĩ danh dự khoa học tại lễ kỷ niệm lần thứ 258 của Brown University.
OpenArt biến một ảnh thành thế giới 3D bền vững với điều khiển chính xác nhờ World Labs API
RT by @drfeifei: OpenArt now lets you turn a single image into a persistent 3D world creators can direct with precise control.
Wide shots, top-down views, over-the-shoulder framing. All from the same environment, acting like a permanent virtual set.
Powered by the World Labs API. Learn more ↓
- ›OpenArt tích hợp World Labs API cho phép chuyển đổi một ảnh đơn lẻ thành thế giới 3D bền vững (persistent 3D world).
Những tác phẩm chiến thắng World Jam lần đầu tiên được trưng bày tại Museum tương tác
RT by @drfeifei: The winners of the first ever World Jam have arrived! 🏆
Step into the Museum, an interactive archive showcasing the winning creations from the World Jam. Where every portal opens into a new spatial experience.
👉 http://jam.worldlabs.ai
- ›World Jam là cuộc thi sáng tạo lần đầu tiên do World Labs tổ chức, tập hợp các tác phẩm chiến thắng.
Biến một bức ảnh thành thế giới 3D đầy đủ chỉ trong vài phút
RT by @drfeifei: Turn a single image into a fully meshed 3D world in minutes 👀
Built by a World Labs team member, image-blaster combines Marble + Claude skills + @fal to generate 3DGS environments, meshes, interactive physics objects and SFX from one image.
learn more + try it yourself ↓
- ›image-blaster kết hợp Marble, Claude skills và fal để sinh môi trường 3DGS hoàn chỉnh từ một bức ảnh đơn.
Phát hiện có hệ thống các tấn công Semantic trong xây dựng bản đồ trực tuyến thông qua Diffusion có điều kiện
Systematic Discovery of Semantic Attacks in Online Map Construction through Conditional Diffusion
- ›HD map construction cho autonomous vehicles là yếu tố an toàn-quan trọng, nhưng attacks pixel-level hiện tại bị neutralized bởi adversarial defenses tiêu chuẩn.
- ›MIRAGE sử dụng latent manifold của diffusion models để tìm semantic attacks dạng environmental variations (bóng, đường ướt) mà bypass adversarial defenses.
- ›Hai attacks được kiểm tra: boundary removal loại bỏ 57.7% detections và làm hỏng 96% planned trajectories; boundary injection tạo boundary giả mạo thành công.
- ›Semantic-level perturbations hiệu quả dưới nhiều adversarial defenses, cho thấy defenses hiện tại yếu với các biến thể semantic so với pixel-level perturbations.
Thiết kế không gian liên tục thay vì khung hình riêng lẻ
RT by @drfeifei: Summer vibes ☀️🍃🐱
Built with Marble, Spark, and Three.js. Persistent World Models let you design for cohesive spaces instead of isolated frames.
World Jam ends this weekend! There’s still time to build something magical with Marble. More info 👇
- ›Persistent World Models cho phép xây dựng các không gian nhất quán thay vì các khung hình độc lập.
Chúc mừng Astrocade và đội ngũ phát triển tạo game AI
So proud of you guys @_amirabs @sadeghian_ali ; it's been wonderful working with you guys, and seeing the progress of @PlayAstrocade !🚀
- ›Fei-Fei Li hoan hỉ với tiến bộ của Astrocade và đội của Amir Sadeghian.
Astrocade gọi vốn 56 triệu đô xây dựng kỷ nguyên giải trí tương tác
RT by @drfeifei: We raised $56M to help build the next era of interactive entertainment. Series B led by @sequoia, Series A led by Sea.
Astrocade lets anyone create games with AI, play them with friends, and share them with millions.
But this isn’t about replacing creativity. It’s about giving more people the tool to bring their taste, humor, stories, and craft to life.
Today, the fun goes public.
- ›Astrocade hoàn thành vòng Series B dẫn đầu bởi Sequoia Capital với tổng cộng 56 triệu đô.
60 triệu Gaussian splats - thế giới tối kỳ ảo sẵn sàng khám phá
RT by @drfeifei: 60 million Gaussian splats. One massive dark fantasy world ready to explore! ⚔️
Created entirely with Marble, this persistent world is brought to life in-browser via our Spark 2.0 LoD system and Three.js
Fly through it yourself and learn more about how it was made 👇
- ›Tạo một thế giới fantasy tối tạo hoàn toàn bằng Marble với 60 triệu Gaussian splats.
Tính năng Expand hiện đã mở rộng cho tất cả người dùng
RT by @drfeifei: Expand is now available to everyone!
Extend your world in any direction you choose: around corners, into rooms, and beyond what you can see 👀
- ›Công cụ Expand cho phép mở rộng cảnh 3D theo bất kỳ hướng nào mà người dùng lựa chọn.
Xây dựng công cụ 3D tùy chỉnh cho quy trình công việc chuyên biệt với GPT-5.5, Spark và Marble
RT by @drfeifei: Really cool we’re at the point where you can build custom, personalized tools for your own niche 3D workflows.
Built this with GPT-5.5, Spark, and Marble yesterday to get better precision + control for creating collider meshes for 3DGS experiences.
Live:
https://splat-collider-builder.netlify.app
- ›Có thể xây dựng các công cụ tùy chỉnh cho quy trình công việc 3D niche cụ thể bằng cách kết hợp GPT-5.5, Spark và Marble.
World Jam: Cuộc thi xây dựng thế giới 3D tương tác với Marble 1.1 và Spark LoD
RT by @drfeifei: 2 Weeks. New Tools. Infinite Worlds🚀
The World Jam is LIVE. Build the future of interactive 3D with Marble 1.1 + Spark LoD.
Join our Discord to start building.
More info below 👇
- ›World Jam là sự kiện xây dựng thế giới 3D tương tác sử dụng Marble 1.1 và Spark LoD.
PointWorld: Tầm quan trọng của world models 3D trong robotics và lý thuyết scaling
RT by @drfeifei: I recently gave some talks on PointWorld. In this latest version, I discussed: Why world models? Why 3D? Why it matters amidst scaling data in robotics? Why it’s a missing side of the coin for “The Bitter Lesson”?
(It’s more than just a better backbone for training policies)
https://www.youtube.com/watch?v=0vfgm8LshmY
- ›PointWorld là một mô hình thế giới 3D với ý nghĩa quan trọng đối với robot learning và scaling dữ liệu.
Sparkjs 2.0: Hỗ trợ 3D Gaussian Splatting lớn trên web, mobile và VR
RT by @drfeifei: Sparkjs 2.0 is out! Support for arbitrarily large splats on web, mobile, and VR. Tons of features: LoD, streaming, editing, multi-splat, mesh integration, ray casting etc. etc.
If you're worried that AI is going to take over all coding, work on a splat renderer for a bit :)
- ›Sparkjs 2.0 cho phép render các splat 3D có kích thước lớn tùy ý trên web, mobile và VR.
Spark 2.0: Hệ thống Level-of-Detail streamable cho 3D Gaussian Splatting trên web
RT by @drfeifei: Spark 2.0 is here! 🚀
We’re redefining what’s possible on the web with a streamable LoD system for 3D Gaussian Splatting.
Built on Three.js, you can now stream massive 100M+ splat worlds to any device from mobile to VR using WebGL2. All open-source.
Dive into the tech 👇
- ›Spark 2.0 giới thiệu hệ thống LoD streamable cho 3D Gaussian Splatting, mở rộng khả năng web 3D.
Marble 1.1: Từ ảnh thực tế tới thế giới 3D tùy chỉnh trong vài phút
RT by @drfeifei: Capture your space. Create worlds.
Use Marble 1.1 to reconstruct real-world locations from a few images, then restyle them however you want.
Go from a real place to a custom persistent 3D world in minutes.
- ›Marble 1.1 có thể tái tạo vị trí thực tế từ một vài bức ảnh thành mô hình 3D chi tiết.
Nhìn xuyên qua góc với Marble 1.1 Plus
RT by @drfeifei: see around corners with Marble 1.1 Plus 👀
- ›Marble 1.1 Plus có khả năng nhìn xuyên qua góc (vision around corners).
Cập nhật Marble - cải tiến chất lượng và khả năng mở rộng
Making improvements one step at a time for Marble. In the case of generating bigger worlds, it's quite literal ;) 🤩🌐
- ›Marble 1.1 cải thiện ánh sáng, độ tương phản và giảm artifacts trực quan.
Năm thứ 11 giảng dạy CS231N - AI trở thành công nghệ ngang hàng
It’s 11th year and counting! Teaching the first lecture of @cs231n every year has been a highlight of my spring seasons. As usual, I asked students which departments or schools they come from @Stanford . Increasingly, students raise their hands to indicate that they come from all seven schools on campus, from @StanfordEng to @StanfordMed @StanfordHumSci @StanfordGSB @StanfordLaw @StanfordEd @stanforddoerr . AI is truly a horizontal technology that excites students across all backgrounds and disciplines!🤩
- ›Fei-Fei Li giảng dạy CS231N năm thứ 11, sinh viên từ tất cả 7 khoa của Stanford quan tâm.
JigsawComm: Truyền tải đặc trưng ngữ nghĩa để cảm nhận hợp tác giữa phương tiện hiệu quả
JigsawComm: Joint Semantic Feature Encoding and Transmission for Communication-Efficient Cooperative Perception
- ›JigsawComm là framework end-to-end học trích xuất đặc trưng sparse, semantic-aware để các phương tiện tự động chia sẻ thông tin nhìn thấy hiệu quả.
- ›Feature Utility Estimator dự đoán đóng góp của từng agent và loại bỏ dữ liệu trùng lặp giữa các agent.
- ›Giảm payload truyền tải xuống O(1) khi số lượng agent tăng, overhead meta information không đáng kể.
- ›Giảm khối lượng dữ liệu 20-500 lần so với state-of-the-art mà vẫn duy trì hoặc vượt trội về độ chính xác cảm nhận.
Nhận dạng danh tính người không giám sát với điều chỉnh miền và ràng buộc đa camera
Unsupervised domain-adaptive person re-identification with multi-camera constraints
- ›Giải quyết vấn đề person re-identification khi dữ liệu test khác biệt với training data bằng domain adaptation.
- ›Sử dụng self-training kết hợp multi-camera constraints để tinh chỉnh pseudo-labels cải thiện độ chính xác.
- ›Tận dụng thông tin person-pair từ môi trường thực tế mà không cần nhãn danh tính.
- ›Vượt trội các phương pháp trước đó trên các tập dữ liệu công khai và riêng tư với overlapping camera views.
NFC đa dải tần cho hệ thống cảm biến thị giác không dây tốc độ cao
Multiband NFC for High-Throughput Wireless Computer Vision Sensor Network
- ›Đề xuất hệ thống NFC sử dụng multiple frequency bands để đạt thông lượng truyền tải cao.
- ›Giải quyết nhu cầu truyền tải dữ liệu tốc độ cao cho các ứng dụng AR/VR và thị giác máy tính.
Phát hiện đối tượng nổi bật RGB-D bằng học chuyển giao đa phương thức
RGB-D Salient Object Detection Based on Discriminative Cross-modal Transfer Learning
- ›Đề xuất dùng CNN để cải thiện phát hiện đối tượng nổi bật dựa trên thông tin độ sâu (depth).
- ›Xử lý vấn đề thiếu dữ liệu nhãn cho modality depth bằng chuyển giao từ ảnh RGB.
- ›Tận dụng dữ liệu phụ trợ từ modality nguồn để huấn luyện hiệu quả hơn.