ICLR2026大阅兵第03方阵:大模型推理侧的进化 | Test-Time X | 推理即训练 | 大模型的推理思考
Автор: 畅想 Eidola AI
Загружено: 2026-02-17
Просмотров: 22
Описание:
为什么说你家的基础模型,其实比你想象中要聪明得多?
当全世界都在卷算力、卷数据规模时,AI 研究的尖端领域已经开始转向“推理侧 Scaling Law”——即 TestTimeX(推理时推理与训练)。
本期视频继续采用宏观论文阅读法,带大家跳过晦涩的技术细节,从核心叙事出发,一口气读懂三篇平均分 7+ 的顶级论文。我们将探讨:
不需要训练的推理:如何利用“密分布采样”和 MH 算法,让普通模型在不经过强化学习的情况下,通过自我博弈实现 RL 级别的性能?
推理时对齐(Test-time Alignment):如何通过“分块对齐”破解视野诅咒与维度诅咒,让模型边走边看,实现更灵活的偏好对齐?
原地推理时训练(TTT):如何把 Transformer 的 FFN 层变成“快速权重”动态记忆,让模型在处理长文本时实时更新知识(比如把拜登瞬间更新为特朗普)?
【核心思考】
TestTimeX 的本质是“用推理算力换取逻辑智力”。它告诉我们,与其大费周章重新训练,不如给模型更多的时间去“推敲”和“纠错”。
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: