Почему ваши темы для диссертаций не работают: секрет успешной подготовки к получению степени маги...

Автор: Martin Andrews

Загружено: 2025-12-09

Просмотров: 174

Описание: Вы когда-нибудь задумывались, почему идеально составленная подсказка или тщательно подобранный набор данных для тонкой настройки оказываются неэффективными? Проблема не всегда в ваших инструкциях — возможно, вы боретесь с фундаментальной природой модели.

В этом видео подробно рассматривается важный урок из обучения с подкреплением на основе больших языковых моделей (LLM): принцип взаимодействия «по политике». Мы разбираем, почему принуждение LLM следовать сценарию, на котором она не обучалась («вне политики»), может привести к низкой производительности, нестабильности и даже галлюцинациям.

Вы освоите новую ментальную модель работы с LLM, понимая их не как простые машины, выполняющие инструкции, а как системы с собственным глубоко усвоенным распределением знаний. Мы рассматриваем практические методы взаимодействия «по политике», которые вы можете применять уже сегодня:

*Подсказки:* Как заставить модель раскрыть свои собственные внутренние структуры данных и предпочтительную формулировку для получения более надежных результатов.

* *Тонкая настройка:* Более безопасные способы внедрения новых фактов и моделей поведения без искажения основных знаний модели.

Прекратите бороться с моделью: научитесь быть «мастером работы с моделями» и создавайте более надежные и предсказуемые приложения ИИ, работая в гармонии с природой LLM, а не против нее.

Статьи и ресурсы
Упомянута лекция Денни Чжоу в Стэнфорде: • Stanford CS25: V5 I Large Language Model R...
[LLM могут рассуждать без подсказок](https://arxiv.org/abs/2402.10200) - Google (2024)
[Самосогласованность улучшает цепочку рассуждений в языковых моделях](https://arxiv.org/abs/2203.11171) - Google (2022)
[ReFT: Рассуждения с усиленной тонкой настройкой](https://arxiv.org/abs/2401.08967) - ByteDance (2024)
Фреймворк DSPy для автоматического запроса «по политике»: https://github.com/stanfordnlp/dspy

Разделы

00:00 - Введение: Уроки обучения с подкреплением
01:06 - Как обучаются модели с подкреплением (и почему это проблема)
04:05 - Парадокс вывода: модели, не обученные для собственных результатов
06:14 - Обучение с подкреплением: последствия обучения моделей
08:10 - Три ключевых урока от исследователей ИИ
11:32 - Критическое правило: Политика «в рамках» против политики «вне»
14:38 - Практическое подсказывание: перестаньте принуждать, начните спрашивать
15:50 - Пример 1: Извлечение ограничивающих рамок
17:35 - Пример 2: Создание маркетинговых портретов
22:06 - Более безопасная тонкая настройка с помощью методов «в рамках»
26:17 - Заключение: Станьте «шептуном» моделей

О КАНАЛЕ
Мой канал посвящен «Искусственному интеллекту» Строитель: разработчик, экспериментатор и энтузиаст практического применения. Мы выходим за рамки заголовков, чтобы понять *механизмы*, лежащие в основе последних исследований, и помогаем вам строить будущее. От лаборатории до вашего ноутбука.

СОЦИАЛЬНЫЕ СЕТИ
GitHub: https://github.com/mdda
LinkedIn: / martinandrews
X / Twitter: https://x.com/mdda123

#AI #LLM #MachineLearning #PromptEngineering #FineTuning #ReinforcementLearning #OnPolicy

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Почему ваши темы для диссертаций не работают: секрет успешной подготовки к получению степени маги...

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Рассуждение о скрытом пространстве: взгляд на исследование

Рассуждение о скрытом пространстве: взгляд на исследование

AlphaEvolve and Darwin Gödel Machines : LLMs for Code Evolution in 2025

AlphaEvolve and Darwin Gödel Machines : LLMs for Code Evolution in 2025

NoteGPT Full Tutorial | Turn Videos & PDFs into Smart Notes with AI

NoteGPT Full Tutorial | Turn Videos & PDFs into Smart Notes with AI

Цепи Маркова — математика предсказаний [Veritasium]

Цепи Маркова — математика предсказаний [Veritasium]

Взлом личности магистра права с помощью инженерии представлений

Взлом личности магистра права с помощью инженерии представлений

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Лучший Гайд по Kafka для Начинающих За 1 Час

Лучший Гайд по Kafka для Начинающих За 1 Час

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Автоматизация «чёрной магии» программирования графических процессоров с помощью ИИ

Автоматизация «чёрной магии» программирования графических процессоров с помощью ИИ

ИИ, который развивает собственные подсказки

ИИ, который развивает собственные подсказки

Экспресс-курс RAG для начинающих

Экспресс-курс RAG для начинающих

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Модели мира и нейронные активы: механика моделирования ИИ

Модели мира и нейронные активы: механика моделирования ИИ

Отказ от территорий? / Войска оставили позиции

Отказ от территорий? / Войска оставили позиции

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Вы ОТСТОЙ в подсказках ИИ (Вот в чем секрет)

Вы ОТСТОЙ в подсказках ИИ (Вот в чем секрет)

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Кто пишет код лучше всех? Сравнил GPT‑5.2, Opus 4.5, Sonnet 4.5, Gemini 3, Qwen 3 Max, Kimi, GLM

Кто пишет код лучше всех? Сравнил GPT‑5.2, Opus 4.5, Sonnet 4.5, Gemini 3, Qwen 3 Max, Kimi, GLM

Как ИИ-агент выиграл золото на олимпиаде по физике (с пояснениями)

Как ИИ-агент выиграл золото на олимпиаде по физике (с пояснениями)

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение