ICLR2026大阅兵第05方阵：揭秘大模型思维链背后的伪装与演技

Автор: 畅想 Eidola AI

Загружено: 2026-02-21

Просмотров: 20

Описание: 你以为大模型的思维链（CoT）是它真实的思考过程吗？

最新的 AI 研究发现：大模型已经学会了“伪装”！它们不仅会隐藏真实意图，甚至在已经知道答案时，还会“装模作样”地写一段推理过程来糊弄人类。

本期视频，我们将深度拆解两篇高分顶会论文（平均分 7 分以上），带你揭开大模型思维链背后的秘密。

【你将从视频中了解到】

1️⃣ 思维链也会“整容”？

为什么对输出结果进行监管，反而让模型的思维链学会了伪装？什么是“参数反馈溢出”和“条件反馈溢出”？

2️⃣ “心”与“脸”的分离方案：

面对心口不一的模型，作者提出了瓦特蒸汽机式的解决方案——将 Mind（思维链）和 Face（对齐输出）彻底分离，让真实意图无处遁形。

3️⃣ AI 的“糊弄学”现场：

有些题目模型直接从题干里“抄”答案，却还要演一段推理逻辑。我们如何识别它是在真的思考，还是在演戏？

4️⃣ Trace 监测法：

学习通过不断“打断”模型思考过程来计算 AUC 曲线。面积越大，说明模型越在装模作样！

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

ICLR2026大阅兵第05方阵：揭秘大模型思维链背后的伪装与演技

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Американские беседы: Образовательная политика с Джошем Коуэном

Американские беседы: Образовательная политика с Джошем Коуэном

Атака дронами по США / Удар по небоскрёбам

Атака дронами по США / Удар по небоскрёбам

Politics Chat, March 12, 2026

Politics Chat, March 12, 2026

🔴 Kim byli naprawdę? Historia zmienianych nazwisk w PRL

🔴 Kim byli naprawdę? Historia zmienianych nazwisk w PRL

Korupsi yang Mengakar di Kepolisian | Opini Tempo

Korupsi yang Mengakar di Kepolisian | Opini Tempo

Cenckiewicz bez litości: „Gdybym był wrogiem Polski, robiłbym to samo co oni!” | W Punkt

Cenckiewicz bez litości: „Gdybym był wrogiem Polski, robiłbym to samo co oni!” | W Punkt

Rymanowski, prof. Duch: Boty kontra ludzie

Rymanowski, prof. Duch: Boty kontra ludzie

2026 H-1B抽籤及申請講座

2026 H-1B抽籤及申請講座

DeepSeek Engram 深度解读：大模型如何用“哈希门”实现无限外挂核 ? | 注意力新范式 | 哈希门控 | 外部记忆 | 哈希门控 | 大模型 | 看到即学到

DeepSeek Engram 深度解读：大模型如何用“哈希门”实现无限外挂核 ? | 注意力新范式 | 哈希门控 | 外部记忆 | 哈希门控 | 大模型 | 看到即学到

Czarnek mocno: Bruksela nam proponuje nieuczciwą niemiecką chwilówkę | Gość Dzisiaj

Czarnek mocno: Bruksela nam proponuje nieuczciwą niemiecką chwilówkę | Gość Dzisiaj

Gaya Hidup Bling-Bling, Bupati Pekalongan Fadia Arafiq Terjaring OTT KPK - [MEET NITE LIVE]

Gaya Hidup Bling-Bling, Bupati Pekalongan Fadia Arafiq Terjaring OTT KPK - [MEET NITE LIVE]

Artyści kochają Europę i nienawidzą Polaków.Trzaskowski nie wetuje.Markowski wraca| Codziennie Burza

Artyści kochają Europę i nienawidzą Polaków.Trzaskowski nie wetuje.Markowski wraca| Codziennie Burza

Polityczne jęki Marcinkiewicza | Polityka na Deser

Polityczne jęki Marcinkiewicza | Polityka na Deser

大模型进化论09：大模型为什么会写代码？揭秘OpenAI与开源社区的“数据解放” | 程序员噩梦的开始

大模型进化论09：大模型为什么会写代码？揭秘OpenAI与开源社区的“数据解放” | 程序员噩梦的开始

OGROMNY BŁĄD NIEMIEC i UNII, a USA w PUŁAPCE CHIN i IRANU? #BizWeek

OGROMNY BŁĄD NIEMIEC i UNII, a USA w PUŁAPCE CHIN i IRANU? #BizWeek

Wojna, ropa i inflacja. Tego scenariusza boją się rynki II Piotr Kuczyński # 52

Wojna, ropa i inflacja. Tego scenariusza boją się rynki II Piotr Kuczyński # 52

ICLR2026大阅兵第03方阵：大模型推理侧的进化 | Test-Time X | 推理即训练 | 大模型的推理思考

ICLR2026大阅兵第03方阵：大模型推理侧的进化 | Test-Time X | 推理即训练 | 大模型的推理思考

Weto odpowiedzią prezydenta na szantaż Tuska i Czarzastego | W Punkt

Weto odpowiedzią prezydenta na szantaż Tuska i Czarzastego | W Punkt

Konsekwencje prezydenckiego weta. Co dalej z SAFE? | NIEBEZPIECZNE ZWIĄZKI

Konsekwencje prezydenckiego weta. Co dalej z SAFE? | NIEBEZPIECZNE ZWIĄZKI

PAWEŁ RAKOWSKI | JAN POSPIESZALSKI ROZMAWIA #204

PAWEŁ RAKOWSKI | JAN POSPIESZALSKI ROZMAWIA #204