ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

End-to-End (small) Vision Language Model Fine-tuning Tutorial | On DGX Spark

Автор: Daniel Bourke

Загружено: 2026-01-16

Просмотров: 2477

Описание: In this video we fine-tune Hugging Face's SmolVLM2-500M Vision Language Model do structured data extraction from images.

Because the SmolVLM2-500M model is is quite small in world of LLMs/VLMs, we're able to do all of the training locally on a NVIDIA DGX Spark (see here for more: https://nvda.ws/4iQXZU4).

The code should also run in Google Colab.

If you have any issues, please let me know in a comment.

Links:
Google Colab Notebook - https://colab.research.google.com/dri...
GitHub - https://github.com/mrdbourke/learn-hu...
Learn Hugging Face Book Version - https://www.learnhuggingface.com/note...
Dataset - https://huggingface.co/datasets/mrdbo...
Base model (SmolVLM2-500M) - https://huggingface.co/HuggingFaceTB/...
Demo - https://huggingface.co/spaces/mrdbour...

Livestreams (where I build this project from scratch):
Part 1: Creating a VLM dataset - https://www.youtube.com/live/cZVU559B...
Part 2: Fine-tuning a VLM with LoRA and QLoRA and getting many errors (mostly my fault) - https://www.youtube.com/live/Lgcp9hBq...
Part 3: Switching from using LoRA and QLoRA (we’ll do these in a future video) to fine-tuning a smaller model (SmolVLM2) successfully, uploading it to the Hugging Face Hub and then creating an publishing a demo - https://youtube.com/live/cZVU559BLLM?...

Courses I teach:
Learn AI/ML (beginner-friendly course) - https://dbourke.link/ZTMMLcourse
Learn Hugging Face - https://dbourke.link/ZTMHuggingFace
Learn TensorFlow - https://dbourke.link/ZTMTFcourse
Learn PyTorch - https://dbourke.link/ZTMPyTorch

Connect elsewhere:
Download Nutrify (my startup) - https://apple.co/4ahM7Wc
My website - https://www.mrdbourke.com
X/Twitter -   / mrdbourke  
LinkedIn - www.linkedin.com/in/mrdbourke
Get email updates on my work - https://dbourke.link/newsletter
Read my novel Charlie Walks - https://www.charliewalks.com

Timestamps:
00:00:00 - Introduction
00:02:19 - What is a VLM?
00:03:45 - Why fine-tune your own model?
00:06:05 - LLM fine-tuning mindset
00:06:51 - Case study: Nutrify
00:09:16 - Case study: Invoice Extractor
00:11:06 - Ingredients and tools we're going to use
00:12:16 - Exploring the FoodExtract-1k-Vision dataset
00:15:52 - My setup
00:16:13 - Dataset formatting for VLMs
00:16:54 - Dataset Creation for VLMs
00:17:20 - Getting a model to fine-tune
00:18:13 - Our task overview (structured data extraction from images)
00:20:11 - What we're going to end up with
00:22:38 - Code Starts
00:23:31 - Viewing a single data sample
00:29:08 - Splitting our data into train and test sets
00:34:25 - Inspecting our model's architecture
00:40:03 - Reading the recipe of the SmolDocling paper
00:45:29 - Freezing the vision encoder in our model
00:47:34 - Discussing batch sizes
00:49:06 - Setting up SFTConfig
00:52:03 - Training our model with SFTTrainer
00:54:11 - Model training starts
00:54:19 - Model training finishes
00:56:13 - Inspecting our model's loss curves
00:57:10 - Uploading our trained model to Hugging Face
00:58:19 - Model uploading to Hugging Face begins
00:58:26 - Model uploading finishes
00:59:38 - Comparing the base model to the fine-tuned model
01:01:06 - Viewing our fine-tuned model's first predictions
01:03:35 - Creating a demo with Gradio
01:06:46 - Uploading our demo to the Hugging Face Hub
01:07:35 - Trying out our demo
01:08:27 - What's next and extensions

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
End-to-End (small) Vision Language Model Fine-tuning Tutorial | On DGX Spark

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

Распаковка, настройка и первые впечатления от NVIDIA DGX Spark — One plug AI.

Распаковка, настройка и первые впечатления от NVIDIA DGX Spark — One plug AI.

MIT Researchers DESTROY the Context Window Limit

MIT Researchers DESTROY the Context Window Limit

6 Ways to Make Money with AI Video (FULL Business Models)

6 Ways to Make Money with AI Video (FULL Business Models)

EASIEST Way to Fine-Tune a LLM and Use It With Ollama

EASIEST Way to Fine-Tune a LLM and Use It With Ollama

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Day in the Life of a Software Engineer at Amazon | REALISTIC

Day in the Life of a Software Engineer at Amazon | REALISTIC

Бывший рекрутер Google объясняет, почему «ложь» помогает получить работу.

Бывший рекрутер Google объясняет, почему «ложь» помогает получить работу.

A recipe for 50x faster local LLM inference | AI & ML Monthly

A recipe for 50x faster local LLM inference | AI & ML Monthly

Прекратите делиться ключами API с магистрами права — используйте вместо этого каталог Docker MCP! 🤖💡

Прекратите делиться ключами API с магистрами права — используйте вместо этого каталог Docker MCP! 🤖💡

Я в опасности

Я в опасности

The unhinged world of tech in 2026...

The unhinged world of tech in 2026...

5 методов, которые отличают лучших инженеров-агентств прямо сейчас

5 методов, которые отличают лучших инженеров-агентств прямо сейчас

Boris Cherny (Creator of Claude Code) On What Grew His Career And Building at Anthropic

Boris Cherny (Creator of Claude Code) On What Grew His Career And Building at Anthropic

Эд Зитрон: По меньшей мере четверть центров обработки данных для ИИ останутся неиспользованными.

Эд Зитрон: По меньшей мере четверть центров обработки данных для ИИ останутся неиспользованными.

DGX Spark | The $6,000 Mistake for AI Box?

DGX Spark | The $6,000 Mistake for AI Box?

Don't learn AI Agents without Learning these Fundamentals

Don't learn AI Agents without Learning these Fundamentals

5 Rules of The Top 1% That Changed My Life

5 Rules of The Top 1% That Changed My Life

Don’t Waste Money: Which AI Subscription Is Worth It?

Don’t Waste Money: Which AI Subscription Is Worth It?

Microsoft begs for mercy

Microsoft begs for mercy

XPENG IRON - China's MOST HUMAN Robot Ever Built!

XPENG IRON - China's MOST HUMAN Robot Ever Built!

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]