Al Jam — Без токенизации нет понимания: Как LLM воспринимают информацию
Автор: Guide DAO
Загружено: 2026-01-14
Просмотров: 161
Описание:
В этом выпуске джема разберем:
— Почему LLM не умеет "просто посчитать буквы" и в чем ее настоящий язык.
— Что такое токенизация и как модель разбивает текст на "кирпичики" (токены).
— Как устроен токенайзер (на примере GPT-2) и почему "Hello" и "hello" для модели — разные вещи.
— Что такое служебные токены (начало текста, конец текста, unknown) и зачем они нужны.
— В чем фундаментальная разница между токеном (цифровой код) и эмбеддингом (векторное представление в многомерном пространстве).
— Зачем нужен этот "слоеный пирог" данных и как это связано с обучением модели "понимать" мир через язык.
По промокоду NEWLIFE2026 скидка -45% на guidedao.xyz до15 января 🤘
Хочешь узнать про все наши направления и забрать бесплатные бонусы? Проходи бота в TG @GuideDAO_hallo_bot
____
Guide DAO — web3-школа и крупное комьюнити с курсами по Solidity, web3-фуллстеку, DeFi-аналитике и аудиту контрактов, а также приваткой в дискорде с ежедневными лекциями и войсами с экспертами из криптоиндустрии. Онбордим в крипту, оформляем портфолио, помогаем развивать нетворкинг и уходить работать в компании мирового уровня.
Наш сайт: https://www.guidedao.xyz/ru
Наш телеграм: https://t.me/guidedao
Бот: @GuideDAO_hallo_bot
#blockchain #crypto #cryptocurrency #education #блокчейн #криптовалюта
____
0:00 - Вступление. О чем будем говорить и зачем нужен этот "шаг назад".
0:30 - Проблема: Почему "подкрутка промптов" — это тупик. Зачем нужно понимание устройства LLM.
3:50 - LLM как "черный ящик". Объяснение на уровне функции и предсказания токенов.
5:50 - Основные этапы: Претренинг, архитектура сети, механизм внимания (attention).
9:30 - Язык как модель мира. Что на самом деле "понимает" нейросеть.
15:10 - Ключевой вопрос: Почему LLM плохо считает буквы? Переход к токенизации.
20:30 - Токенизация на пальцах. Как текст превращается в последовательность чисел.
25:00 - Пример работы простого токенайзера. Разбор текста на слова и знаки препинания.
32:10 - Служебные токены. Что такое [BOS], [EOS], [UNK] и зачем они нужны.
40:00 - Демонстрация реального токенайзера (GPT-2). Почему пробел — это не отдельный токен, а часть слова.
44:50 - Как генерация работает на уровне токенов. Предсказание следующего "кирпичика".
50:30 - Чанки и контекст. Как это связано с токенизацией.
52:00 - Главный переход: Токены vs. Эмбеддинги. Чем цифровой код отличается от векторного представления. Ответ на вопрос из чата.
56:30 - Итоги и анонс. Что мы разобрали сегодня и что ждет на следующем занятии (тренировка эмбеддингов).
1:01:00 - Ответы на вопросы из чата (чанки, разница между токенами и эмбеддингами).
1:03:00 - Резюме и рекомендация книги.
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: