Overview of Large Language Models

Автор: Data Science Gems

Загружено: 2023-03-05

Просмотров: 6108

Описание: Large language models have resulted in huge success for rich text generation in terms of text, speech, images, videos as well as code. In this video I will talk about a brief history of evolution of such large language models. I will start with Transformers, BERT and GPT. Then we will talk about further natural language understanding models like RoBERTa, ELECTRA, DeBERTa. We will also talk about natural language generation models like BART, and T5. Then we will talk about multilingual models like XLM, Unicoder, mBART, mT5, DeltaLM; and multimodal models like VisualBERT, vilBERT, CLIP. To be able to deploy these models in the real-world settings, model compression and distributed training became essential. Hence, we will talk about topics like distillation, adapters and mixture of experts. Recently, prompt-based models have become popular. Hence, we will talk about GPT3, InstructGPT and in general about prompting. This is the story of modern NLP from the lens of large language models.

Here is the agenda:

00:00:00 Rich text generation
00:03:14 Transformers, BERT, GPT, T5
00:08:35 Natural Language Understanding: RoBERTa, ELECTRA, DeBERTa
00:13:21 Natural Language Generation: BART, T5
00:16:20 Multi-lingual models: XLM, Unicoder, mBART, mT5, DeltaLM
00:22:42 Multi-modal models: VisualBERT, vilBERT, CLIP
00:28:00 Compression and distributed training: Distillation, Adapters, Mixture of Experts
00:41:20 Prompt based models: GPT3, InstructGPT, Prompting

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Overview of Large Language Models

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

OpenAI GPT-4

BLIP2: BLIP с кодировщиками замороженных изображений и LLM

BLIP2: BLIP с кодировщиками замороженных изображений и LLM

2018: The Birth of LLMs: BERT Architecture

2018: The Birth of LLMs: BERT Architecture

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

LSTM is dead. Long Live Transformers!

LSTM is dead. Long Live Transformers!

9 Скрытых Фишек ChatGPT о которых никто не говорит

9 Скрытых Фишек ChatGPT о которых никто не говорит

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

Когда газовая промышленность потерпела крах, мы выживали на солевых газах.

Когда газовая промышленность потерпела крах, мы выживали на солевых газах.

16 AI-инструментов, которые реально работают в 2026 (честный рейтинг)

16 AI-инструментов, которые реально работают в 2026 (честный рейтинг)

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Gemini 3 ОБГОНЯЕТ всех! ПОЛНЫЙ ОБЗОР Nano Banana, Veo 3, Deep Research

Gemini 3 ОБГОНЯЕТ всех! ПОЛНЫЙ ОБЗОР Nano Banana, Veo 3, Deep Research

Stanford CS25: V3 I Retrieval Augmented Language Models

Stanford CS25: V3 I Retrieval Augmented Language Models

Нейронка, которая УНИЧТОЖИЛА ChatGPT 5! / Обзор бесплатной нейросети и ее возможности

Нейронка, которая УНИЧТОЖИЛА ChatGPT 5! / Обзор бесплатной нейросети и ее возможности

Гипотеза Пуанкаре — Алексей Савватеев на ПостНауке

Гипотеза Пуанкаре — Алексей Савватеев на ПостНауке

Как я автоматизировал NotebookLM с помощью Claude Code и Telegram

Как я автоматизировал NotebookLM с помощью Claude Code и Telegram

#295 Ограниченное внимание к студентам магистратуры

#295 Ограниченное внимание к студентам магистратуры

18 КРУТЫХ способов для ChatGPT (что кажется нелегально)

18 КРУТЫХ способов для ChatGPT (что кажется нелегально)

GPT Image 1.5 vs Nano Banana Pro — кто реально работает для бизнеса

GPT Image 1.5 vs Nano Banana Pro — кто реально работает для бизнеса