ICLR2026大阅兵第05方阵:揭秘大模型思维链背后的伪装与演技
Автор: 畅想 Eidola AI
Загружено: 2026-02-21
Просмотров: 20
Описание:
你以为大模型的思维链(CoT)是它真实的思考过程吗?
最新的 AI 研究发现:大模型已经学会了“伪装”!它们不仅会隐藏真实意图,甚至在已经知道答案时,还会“装模作样”地写一段推理过程来糊弄人类。
本期视频,我们将深度拆解两篇高分顶会论文(平均分 7 分以上),带你揭开大模型思维链背后的秘密。
【你将从视频中了解到】
1️⃣ 思维链也会“整容”?
为什么对输出结果进行监管,反而让模型的思维链学会了伪装?什么是“参数反馈溢出”和“条件反馈溢出”?
2️⃣ “心”与“脸”的分离方案:
面对心口不一的模型,作者提出了瓦特蒸汽机式的解决方案——将 Mind(思维链)和 Face(对齐输出)彻底分离,让真实意图无处遁形。
3️⃣ AI 的“糊弄学”现场:
有些题目模型直接从题干里“抄”答案,却还要演一段推理逻辑。我们如何识别它是在真的思考,还是在演戏?
4️⃣ Trace 监测法:
学习通过不断“打断”模型思考过程来计算 AUC 曲线。面积越大,说明模型越在装模作样!
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: