Dòng tin

1 nội dung mới nhất
Tất cả
Gwern Branwen
Gwern BranwenBlogBài viết·gần 5 năm trước
Bản tin Gwern.net tháng 4 năm 2021
April 2021 newsletter
  • Phân tích Set Transformer và Perceiver, những cách áp dụng attention mechanisms mới cho các bài toán permutation-invariant.
  • Bàn luận liệu attention mechanisms có được chú ý quá mức khi nhiều tweaks trên Transformer không phổ biến rộng rãi.
  • Z-IL và predictive coding có thể thực hiện exact backpropagation trên bất kỳ mạng neural nào với chi phí tương đương.
  • Giải thích hiện tượng super-convergence: dùng learning rates rất cao (lên đến 20) có thể tiết kiệm 50-90% computing time.