Al Jam — Без токенизации нет понимания: Как LLM воспринимают информацию

Автор: Guide DAO

Загружено: 2026-01-14

Просмотров: 161

Описание: В этом выпуске джема разберем:

— Почему LLM не умеет "просто посчитать буквы" и в чем ее настоящий язык.
— Что такое токенизация и как модель разбивает текст на "кирпичики" (токены).
— Как устроен токенайзер (на примере GPT-2) и почему "Hello" и "hello" для модели — разные вещи.
— Что такое служебные токены (начало текста, конец текста, unknown) и зачем они нужны.
— В чем фундаментальная разница между токеном (цифровой код) и эмбеддингом (векторное представление в многомерном пространстве).
— Зачем нужен этот "слоеный пирог" данных и как это связано с обучением модели "понимать" мир через язык.

По промокоду NEWLIFE2026 скидка -45% на guidedao.xyz до15 января 🤘
Хочешь узнать про все наши направления и забрать бесплатные бонусы? Проходи бота в TG @GuideDAO_hallo_bot
____

Guide DAO — web3-школа и крупное комьюнити с курсами по Solidity, web3-фуллстеку, DeFi-аналитике и аудиту контрактов, а также приваткой в дискорде с ежедневными лекциями и войсами с экспертами из криптоиндустрии. Онбордим в крипту, оформляем портфолио, помогаем развивать нетворкинг и уходить работать в компании мирового уровня.

Наш сайт: https://www.guidedao.xyz/ru
Наш телеграм: https://t.me/guidedao
Бот: @GuideDAO_hallo_bot

#blockchain #crypto #cryptocurrency #education #блокчейн #криптовалюта
____

0:00 - Вступление. О чем будем говорить и зачем нужен этот "шаг назад".
0:30 - Проблема: Почему "подкрутка промптов" — это тупик. Зачем нужно понимание устройства LLM.
3:50 - LLM как "черный ящик". Объяснение на уровне функции и предсказания токенов.
5:50 - Основные этапы: Претренинг, архитектура сети, механизм внимания (attention).
9:30 - Язык как модель мира. Что на самом деле "понимает" нейросеть.
15:10 - Ключевой вопрос: Почему LLM плохо считает буквы? Переход к токенизации.
20:30 - Токенизация на пальцах. Как текст превращается в последовательность чисел.
25:00 - Пример работы простого токенайзера. Разбор текста на слова и знаки препинания.
32:10 - Служебные токены. Что такое [BOS], [EOS], [UNK] и зачем они нужны.
40:00 - Демонстрация реального токенайзера (GPT-2). Почему пробел — это не отдельный токен, а часть слова.
44:50 - Как генерация работает на уровне токенов. Предсказание следующего "кирпичика".
50:30 - Чанки и контекст. Как это связано с токенизацией.
52:00 - Главный переход: Токены vs. Эмбеддинги. Чем цифровой код отличается от векторного представления. Ответ на вопрос из чата.
56:30 - Итоги и анонс. Что мы разобрали сегодня и что ждет на следующем занятии (тренировка эмбеддингов).
1:01:00 - Ответы на вопросы из чата (чанки, разница между токенами и эмбеддингами).
1:03:00 - Резюме и рекомендация книги.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Al Jam — Без токенизации нет понимания: Как LLM воспринимают информацию

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Al Jam — Почему AI не умеет считать буквы? Разбираем архитектуру LLM с нуля

Al Jam — Почему AI не умеет считать буквы? Разбираем архитектуру LLM с нуля

Правда о Web3 для новичков: Путь от полного нуля к $4000 в месяц

Правда о Web3 для новичков: Путь от полного нуля к $4000 в месяц

Al Jam — Как нейросеть понимает смысл. Разбираем сердце GPT — механизм внимания

Al Jam — Как нейросеть понимает смысл. Разбираем сердце GPT — механизм внимания

AI Jam — RAG для CEO: что работает в 2025 году?

AI Jam — RAG для CEO: что работает в 2025 году?

Почему «хороших» людей не уважают? Сделайте это, и вас зауважает даже самый гордый!

Почему «хороших» людей не уважают? Сделайте это, и вас зауважает даже самый гордый!

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

ОБЫЧНЫЙ VPN УМЕР: Чем обходить блокировки в 2026

ОБЫЧНЫЙ VPN УМЕР: Чем обходить блокировки в 2026

ПОСЛЕДНИЙ Выбор ЧЕЛОВЕЧЕСТВА | Либерманы

ПОСЛЕДНИЙ Выбор ЧЕЛОВЕЧЕСТВА | Либерманы

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Гренландия, Трамп, Канада и Макрон | Что происходит в Давосе (English subtitles)

Гренландия, Трамп, Канада и Макрон | Что происходит в Давосе (English subtitles)

Почему Web3 может изменить всё? То, о чем молчат

Почему Web3 может изменить всё? То, о чем молчат

КЛОНИРОВАНИЕ ГОЛОСА БЕСПЛАТНО! НОВАЯ МОДЕЛЬ CosyVoice 3 в ComfyUI ЛОКАЛЬНО, ЛУЧШАЯ СВЯЗКА!

КЛОНИРОВАНИЕ ГОЛОСА БЕСПЛАТНО! НОВАЯ МОДЕЛЬ CosyVoice 3 в ComfyUI ЛОКАЛЬНО, ЛУЧШАЯ СВЯЗКА!

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

ВОЕНКОМАТ срочно вызывает через работу. ЗАЧЕМ? #армия, #призыв, #военкомат, #мобилизация

ВОЕНКОМАТ срочно вызывает через работу. ЗАЧЕМ? #армия, #призыв, #военкомат, #мобилизация

Алгоритмический скальпель: как Python помогает находить и использовать рыночные неэффективности

Алгоритмический скальпель: как Python помогает находить и использовать рыночные неэффективности

Как находить баги в смарт-контрактах до деплоя

Как находить баги в смарт-контрактах до деплоя

Налоги для сверхбогатых, падение рынка акций, цифровые валюты. Михаил Хазин

Налоги для сверхбогатых, падение рынка акций, цифровые валюты. Михаил Хазин

Анатомия уязвимостей DeFi: от частых ошибок до пропущенных багов

Анатомия уязвимостей DeFi: от частых ошибок до пропущенных багов

Al Jam: Как убить свой AI-проект без датасета — ошибки в RAG и ретривере

Al Jam: Как убить свой AI-проект без датасета — ошибки в RAG и ретривере