Диффузия LLM? Новое открытие Inception Labs со Стефано Эрмоном
Автор: The Neuron
Загружено: 2025-12-08
Просмотров: 751
Описание:
В этом интервью Кори беседует с соучредителем Inception Labs Стефано Эрмоном, чтобы обсудить новое смелое направление в области искусственного интеллекта: диффузионные модели больших языков (dLLM).
В то время как диффузия годами использовалась для создания изображений и видео, Inception Labs применяет её к тексту, представляя Mercury и Mercury Coder — две dLLM, разработанные для расширения возможностей традиционных LLM на базе трансформеров, таких как ChatGPT.
Мы разбираем, как работает диффузия для текста, почему она может масштабироваться иначе и что этот сдвиг может означать для рассуждений, программирования и будущего архитектур ИИ. Если вам интересно узнать, что будет после трансформеров, посмотрите это интервью.
Подпишитесь на рассылку The Neuron: https://theneuron.ai
➤ ГЛАВЫ
0:00 — Введение
00:34 — Что такое Inception Labs?
00:55 — Зачем нужны диффузионные модели для языка?
01:46 — Как работают модели языка диффузии
02:18 — Ранний прорыв: соответствие качеству GPT-2 в 10 раз быстрее
03:30 — Знакомство с Mercury: первый коммерческий диффузионный языковой алгоритм
04:07 — Преимущества встроенной коррекции ошибок
05:17 — Законы масштабирования: эффективнее, чем модели авторегрессии
06:19 — Эффективность вывода и значительный прирост пропускной способности
07:50 — Стоимость против скорости: модели авторегрессии с доминированием Парето
08:33 — Обучение с подкреплением для моделей диффузии и более быстрая сходимость
09:48 — Посевной раунд на 50 миллионов долларов и основные инвесторы
10:22 — Выпуск и улучшения новой модели Mercury
11:43 — Как использовать Mercury (доступ к API и чату)
13:18 — Заключение
Ведущий: Кори Ноулз
Гость: Стефано Эрмон, генеральный директор и соучредитель
Издатель: Маник Сантос
Редактор: Куш Фелисильда
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: