GPT Tokenizer: почему это важно. Лекция от Andrej Karpathy (20 февраля 2024)

Автор: Peter Hanzo

Загружено: 2025-03-31

Просмотров: 997

Описание: 🌟 Узнайте, как работают большие языковые модели и агенты LLM!
Простые объяснения и примеры. Как применять в образовании, медицине, финансах и других областях. Подкаст для всех, кто хочет понять будущее искусственного интеллекта.

Пишу полезное в блоге Telegram: https://t.me/blog_hanzo
Ссылки на оригинальное видео в первом комментарии
👇👇👇

👨🏻‍💻 Кто я?
Я создаю автоматизации для бизнеса через чат-боты в telegram и whatsapp.
Активно использую нейросети в своих проектах.
Мой путь это 10 лет инженерного опыта, диплом MBA, управление процессами на заводе IKEA и 3 года бизнес-анализа в 15 компаниях.

Ключевые моменты

Введение в токенизацию
Значение токенизации в языковых моделях
Примеры на базе Shakespeare

Современные методы токенизации
Byte Pair Encoding (BPE)
Пример GPT-2 и его токенизатор

Проблемы токенизации
Ошибки в написании и арифметике
Влияние на производительность для неанглийских языков

Создание токенизатора
Алгоритм BPE для сжатия словаря
Пример замены токенов

Кодирование и декодирование
Преобразование токенов в строки
Обработка ошибок в UTF-8

Использование библиотек для токенизации
TikToken и его особенности
SentencePiece и его применение

Заключение
Влияние токенизации на производительность модели
Значение осознания нюансов токенизации

Үлкен тілдік модельдер мен LLM агенттері қалай жұмыс істейтінін біліңіз! Түсінікті мысалдар, қарапайым түсіндірулер және олардың білім беру, медицина, қаржы сияқты салалардағы қолданылуы. Жасанды интеллекттің болашағын түсінгісі келетіндерге арналған подкаст.

Discover how large language models and LLM agents work! Simple explanations, real-world examples, and their applications in education, medicine, finance, and more. A podcast for anyone curious about the future of artificial intelligence.

Odkryj, jak działają duże modele językowe i agenci LLM! Proste wyjaśnienia, przykłady z życia wzięte i ich zastosowania w edukacji, medycynie, finansach i nie tylko. Podcast dla każdego, kto jest ciekawy przyszłości sztucznej inteligencji.

Foundation of LLMs
Reasoning
Planning, tool use
LLM agent infrastructure
Retrieval-augmented generation
Multimodal agents,
Evaluation and benchmarking on agent applications
Privacy, safety and ethics
Human-agent interaction, personalization, alignment
Multi-agent collaboration
pretraining data (internet)
tokenization
neural network
pretraining to post-training
post-training data (conversations)
hallucinations, tool use, knowledge, working memory

#llm #onlinebusiness #нейросети #ai

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

GPT Tokenizer: почему это важно. Лекция от Andrej Karpathy (20 февраля 2024)

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Обучение LLM: сбор данных и кодирование. Лекция от Andrej Karpathy (23 ноября 2023)

Обучение LLM: сбор данных и кодирование. Лекция от Andrej Karpathy (23 ноября 2023)

ИИ-агенты — вот что действительно изменит разработку. Пишем ИИ-агент на Python, LangChain и GigaChat

ИИ-агенты — вот что действительно изменит разработку. Пишем ИИ-агент на Python, LangChain и GigaChat

ЗА ПЕРЕВОДЫ на карту начали БЛОКИРОВАТЬ! Как избежать блокировки карты в 2025. НОВЫЕ правила

ЗА ПЕРЕВОДЫ на карту начали БЛОКИРОВАТЬ! Как избежать блокировки карты в 2025. НОВЫЕ правила

ChatGPT на каждый день. Лекция от Andrej Karpathy (март 2025)

ChatGPT на каждый день. Лекция от Andrej Karpathy (март 2025)

Атака на правительственный кортеж / Встреча Путина и Трампа

Атака на правительственный кортеж / Встреча Путина и Трампа

Как работает GPT внутри. Тайна скрытого состояния

Как работает GPT внутри. Тайна скрытого состояния

Срочное обращение президента / Внезапные протесты против власти

Срочное обращение президента / Внезапные протесты против власти

«Мы ПОЖАЛЕЕМ о создании искусственного интеллекта»: | Роман Ямпольский, исследователь | «Как теперь»

«Мы ПОЖАЛЕЕМ о создании искусственного интеллекта»: | Роман Ямпольский, исследователь | «Как теперь»

Yann LeCun про ограничения всех LLM. Чуда AGI не будет. (35 мин, вместо 3 часов)

Yann LeCun про ограничения всех LLM. Чуда AGI не будет. (35 мин, вместо 3 часов)

Введение в большие языковые модели от Andrej Karpathy

Введение в большие языковые модели от Andrej Karpathy