Почему ваши темы для диссертаций не работают: секрет успешной подготовки к получению степени маги...
Автор: Martin Andrews
Загружено: 2025-12-09
Просмотров: 174
Описание:
Вы когда-нибудь задумывались, почему идеально составленная подсказка или тщательно подобранный набор данных для тонкой настройки оказываются неэффективными? Проблема не всегда в ваших инструкциях — возможно, вы боретесь с фундаментальной природой модели.
В этом видео подробно рассматривается важный урок из обучения с подкреплением на основе больших языковых моделей (LLM): принцип взаимодействия «по политике». Мы разбираем, почему принуждение LLM следовать сценарию, на котором она не обучалась («вне политики»), может привести к низкой производительности, нестабильности и даже галлюцинациям.
Вы освоите новую ментальную модель работы с LLM, понимая их не как простые машины, выполняющие инструкции, а как системы с собственным глубоко усвоенным распределением знаний. Мы рассматриваем практические методы взаимодействия «по политике», которые вы можете применять уже сегодня:
*Подсказки:* Как заставить модель раскрыть свои собственные внутренние структуры данных и предпочтительную формулировку для получения более надежных результатов.
* *Тонкая настройка:* Более безопасные способы внедрения новых фактов и моделей поведения без искажения основных знаний модели.
Прекратите бороться с моделью: научитесь быть «мастером работы с моделями» и создавайте более надежные и предсказуемые приложения ИИ, работая в гармонии с природой LLM, а не против нее.
Статьи и ресурсы
Упомянута лекция Денни Чжоу в Стэнфорде: • Stanford CS25: V5 I Large Language Model R...
[LLM могут рассуждать без подсказок](https://arxiv.org/abs/2402.10200) - Google (2024)
[Самосогласованность улучшает цепочку рассуждений в языковых моделях](https://arxiv.org/abs/2203.11171) - Google (2022)
[ReFT: Рассуждения с усиленной тонкой настройкой](https://arxiv.org/abs/2401.08967) - ByteDance (2024)
Фреймворк DSPy для автоматического запроса «по политике»: https://github.com/stanfordnlp/dspy
Разделы
00:00 - Введение: Уроки обучения с подкреплением
01:06 - Как обучаются модели с подкреплением (и почему это проблема)
04:05 - Парадокс вывода: модели, не обученные для собственных результатов
06:14 - Обучение с подкреплением: последствия обучения моделей
08:10 - Три ключевых урока от исследователей ИИ
11:32 - Критическое правило: Политика «в рамках» против политики «вне»
14:38 - Практическое подсказывание: перестаньте принуждать, начните спрашивать
15:50 - Пример 1: Извлечение ограничивающих рамок
17:35 - Пример 2: Создание маркетинговых портретов
22:06 - Более безопасная тонкая настройка с помощью методов «в рамках»
26:17 - Заключение: Станьте «шептуном» моделей
О КАНАЛЕ
Мой канал посвящен «Искусственному интеллекту» Строитель: разработчик, экспериментатор и энтузиаст практического применения. Мы выходим за рамки заголовков, чтобы понять *механизмы*, лежащие в основе последних исследований, и помогаем вам строить будущее. От лаборатории до вашего ноутбука.
СОЦИАЛЬНЫЕ СЕТИ
GitHub: https://github.com/mdda
LinkedIn: / martinandrews
X / Twitter: https://x.com/mdda123
#AI #LLM #MachineLearning #PromptEngineering #FineTuning #ReinforcementLearning #OnPolicy
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: