Vincent教你学 AI

Generative AI

AI 学习

小红书(rednote): https://www.xiaohongshu.com/user/profile/67af6461000000000e01ef10
Bilibili https://space.bilibili.com/494163254
微信群: greekdance, ethsha(两个都可以)
twitter: https://x.com/vtaohu
main page: https://taohu.me
email: [email protected]

当视频生成也能“打包压缩”： NeurIPS 25 的 FramePack 怎么做到的？

当视频生成也能“打包压缩”： NeurIPS 25 的 FramePack 怎么做到的？

聊聊Google的 Dream4

聊聊Google的 Dream4

NeurIPS 25 重磅：Edit-Flow，让扩散模型学会“增删改查”！

NeurIPS 25 重磅：Edit-Flow，让扩散模型学会“增删改查”！

苹果放大招！ATOKEN要让图像、视频、3D“说同一种语言”

苹果放大招！ATOKEN要让图像、视频、3D“说同一种语言”

ICCV25炸场🔥！多模态信号也能统一？ DiT教你视频生成术！

ICCV25炸场🔥！多模态信号也能统一？ DiT教你视频生成术！

CVPR25: DiT太强了！连判别任务都开始“生成式”解决？

CVPR25: DiT太强了！连判别任务都开始“生成式”解决？

苹果树上结出的‘香蕉’大模型

Veo3 = 零样本学习者 + 推理王者

Veo3 = 零样本学习者 + 推理王者

原来扩散模型和VAE还有这种关系！

原来扩散模型和VAE还有这种关系！

NeurIPS 25 Oral 论文揭秘：如何用激活蒸馏轻松嫁接 Mamba

NeurIPS 25 Oral 论文揭秘：如何用激活蒸馏轻松嫁接 Mamba

DINOv3 怎么用?

paper阅读的范式要改变了

DIT-Air网络结构简析

2025年9月了，AR和Diffusion，到底谁更胜一筹？

2025年9月了，AR和Diffusion，到底谁更胜一筹？

Diffusion的第一次掷骰子，有多重要？

Diffusion的第一次掷骰子，有多重要？

为什么大家都不信 FID了？

Discrete Latent Code

Discrete Latent Code

Meanflow解读和shortcut模型的关系

Meanflow解读和shortcut模型的关系

Flux采样代码解读

Flux训练代码讲解

ICML25: 谈谈MDM中的 token 顺序 misalignment

ICML25: 谈谈MDM中的 token 顺序 misalignment

Diffusion才是未来,为什么我建议你放弃GAN?

Diffusion才是未来,为什么我建议你放弃GAN?

MeanFlow代码讲解

Stable Diffusion博士后亲述：科研新手最容易掉入的“心态陷阱”！

Stable Diffusion博士后亲述：科研新手最容易掉入的“心态陷阱”！

我用什么工具画图

科研写作指南：来自Stable Diffusion组 Postdoc的一线经验

科研写作指南：来自Stable Diffusion组 Postdoc的一线经验

Transition Matching: 下一代Flow matching?

Transition Matching: 下一代Flow matching?

REPA又一延伸: CLS token 也一起生成

REPA又一延伸: CLS token 也一起生成

暴论: paper现如今是写给审稿人看的，不是写给读者看的

暴论: paper现如今是写给审稿人看的，不是写给读者看的

为什么我推荐你用webdataset?

为什么我推荐你用webdataset?