Vincent教你学 AI
小红书(rednote): https://www.xiaohongshu.com/user/profile/67af6461000000000e01ef10
Bilibili https://space.bilibili.com/494163254
微信群: greekdance, ethsha(两个都可以)
twitter: https://x.com/vtaohu
main page: https://taohu.me
email: [email protected]
当视频生成 也能“打包压缩”: NeurIPS 25 的 FramePack 怎么做到的?
聊聊Google的 Dream4
NeurIPS 25 重磅:Edit-Flow,让扩散模型学会“增删改查”!
苹果放大招!ATOKEN要让图像、视频、3D“说同一种语言”
ICCV25炸场🔥! 多模态信号也能统一? DiT教你视频生成术!
CVPR25: DiT太强了! 连判别任务都 开始“生成式”解决?
苹果树上结出的‘香蕉’大模型
Veo3 = 零样本学习者 + 推理王者
原来扩散模型和VAE还有这种关系!
NeurIPS 25 Oral 论文揭秘:如何用激活蒸馏轻松嫁接 Mamba
DINOv3 怎么用?
paper阅读的范式要改变了
DIT-Air网络结构简析
2025年9月了,AR和Diffusion,到底谁更胜一筹?
Diffusion的第一次掷骰子, 有多重要?
为什么大家都不信 FID了?
Discrete Latent Code
Meanflow解读和shortcut模型的关系
Flux采样代码解读
Flux训练代码讲解
ICML25: 谈谈MDM中的 token 顺序 misalignment
Diffusion才是未来,为什么我建议你放弃GAN?
MeanFlow代码讲解
Stable Diffusion博士后亲述:科研新手最容易掉入的“心态陷阱”!
我用什么工具画图
科研写作指南: 来自Stable Diffusion组 Postdoc的一线经验
Transition Matching: 下一代Flow matching?
REPA又一延伸: CLS token 也一起生成
暴论: paper现如今是写给审稿人看的,不是写给读者看的
为什么我推荐你用webdataset?