Dòng tin

1 nội dung mới nhất
Bản tin hôm nay

Điều quan trọng nhất hôm nay là khoảng cách giữa AI mã nguồn mở và đóng đang dần bị xóa …

Thứ Tư 17 Th6, 2026 · 156 nội dung
🚀 Mã nguồn mở & Kỷ nguyên Hậu huấn luyện (Post-Training)
  • GLM-5.2 phá vỡ giới hạn: Mô hình mở GLM-5.2 ra mắt với giấy phép MIT, cửa sổ ngữ cảnh 1 triệu token và khả năng lập trình frontend vượt trội, chứng minh AI mở đã bắt kịp các mô hình đóng đắt đỏ.
💻 Thực tế "Vibe-Coding" & Hạ tầng cho AI Agent
  • Làn sóng cấm Vibe-coding: Nhiều công ty bắt đầu cấm đưa code do AI tự sinh lên môi trường production, nhắc nhở chúng ta rằng AI giỏi viết code nhưng con người phải chịu trách nhiệm về bảo mật và kiến trúc.
🤖 Agent Tự hành & Vòng lặp Phản hồi (Feedback Loops)
  • Robot tự nghiên cứu: Hệ thống ENPIRE của NVIDIA giao quyền điều khiển robot cho 8 AI agent tự thử nghiệm và sửa lỗi, đạt độ chính xác 99% mà không cần con người can thiệp.
📊 Đánh giá (Evals) & Giá trị Thực tế
  • Từ bỏ Benchmark lý thuyết: OpenAI chuyển sang dùng dữ liệu thực tế để mô phỏng hành vi mô hình trước khi phát hành, nhấn mạnh việc eval trên benchmark tĩnh là không còn đủ.
🧠 Tư duy & Triết lý cho Người học
  • Quy tắc 10 giờ: Ethan Mollick khuyên bạn phải kiên nhẫn vượt qua 10 giờ đầu tiên làm việc với AI để phá vỡ rào cản tâm lý, tránh việc vội vã kết luận AI "chỉ là một công cụ tìm kiếm".
Tất cả
AK (_akhaliq)
AK (_akhaliq)HF PapersPaper·20 ngày trước
SwanVoice: Tổng hợp Tiếng nói Dài hạn Biểu cảm Zero-Shot cho Độc thoại và Đối thoại
  • Giải quyết khó khăn của TTS multi-speaker dialogue bằng mô hình zero-shot xử lý cả monologue và dialogue trong cùng inference.
  • SwanData-Speech: corpus xây từ audio thực tế sử dụng Swan Forced Aligner và RobustMegaTTS3 cho alignment chính xác.
  • SwanVoice kết hợp VAE 25Hz, raw-text conditioning với ký hiệu pause-aware, flow-matching DiT với speaker-turn conditioning.
  • Đạt hiệu suất cao hơn baseline trên SwanBench-Speech cho cả monologue và dialogue, giữ consistency âm thanh xuyên suốt.