GPT Tokenizer: почему это важно. Лекция от Andrej Karpathy (20 февраля 2024)
Автор: Peter Hanzo
Загружено: 2025-03-31
Просмотров: 997
Описание:
🌟 Узнайте, как работают большие языковые модели и агенты LLM!
Простые объяснения и примеры. Как применять в образовании, медицине, финансах и других областях. Подкаст для всех, кто хочет понять будущее искусственного интеллекта.
Пишу полезное в блоге Telegram: https://t.me/blog_hanzo
Ссылки на оригинальное видео в первом комментарии
👇👇👇
👨🏻💻 Кто я?
Я создаю автоматизации для бизнеса через чат-боты в telegram и whatsapp.
Активно использую нейросети в своих проектах.
Мой путь это 10 лет инженерного опыта, диплом MBA, управление процессами на заводе IKEA и 3 года бизнес-анализа в 15 компаниях.
Ключевые моменты
Введение в токенизацию
Значение токенизации в языковых моделях
Примеры на базе Shakespeare
Современные методы токенизации
Byte Pair Encoding (BPE)
Пример GPT-2 и его токенизатор
Проблемы токенизации
Ошибки в написании и арифметике
Влияние на производительность для неанглийских языков
Создание токенизатора
Алгоритм BPE для сжатия словаря
Пример замены токенов
Кодирование и декодирование
Преобразование токенов в строки
Обработка ошибок в UTF-8
Использование библиотек для токенизации
TikToken и его особенности
SentencePiece и его применение
Заключение
Влияние токенизации на производительность модели
Значение осознания нюансов токенизации
Үлкен тілдік модельдер мен LLM агенттері қалай жұмыс істейтінін біліңіз! Түсінікті мысалдар, қарапайым түсіндірулер және олардың білім беру, медицина, қаржы сияқты салалардағы қолданылуы. Жасанды интеллекттің болашағын түсінгісі келетіндерге арналған подкаст.
Discover how large language models and LLM agents work! Simple explanations, real-world examples, and their applications in education, medicine, finance, and more. A podcast for anyone curious about the future of artificial intelligence.
Odkryj, jak działają duże modele językowe i agenci LLM! Proste wyjaśnienia, przykłady z życia wzięte i ich zastosowania w edukacji, medycynie, finansach i nie tylko. Podcast dla każdego, kto jest ciekawy przyszłości sztucznej inteligencji.
Foundation of LLMs
Reasoning
Planning, tool use
LLM agent infrastructure
Retrieval-augmented generation
Multimodal agents,
Evaluation and benchmarking on agent applications
Privacy, safety and ethics
Human-agent interaction, personalization, alignment
Multi-agent collaboration
pretraining data (internet)
tokenization
neural network
pretraining to post-training
post-training data (conversations)
hallucinations, tool use, knowledge, working memory
#llm #onlinebusiness #нейросети #ai
Повторяем попытку...

Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: