FineWeb: Rewolucja w danych treningowych dla LLM | Deep Dive

Автор: Głęboki Odczyt

Загружено: 2025-12-19

Просмотров: 15

Описание: 🎙️ Odkryj przełomową metodologię przygotowania danych treningowych, która może zmienić zasady gry w otwartym rozwoju AI. FineWeb i FineWeb-Edu to transparentne, masywne zbiory danych stworzone przez Hugging Face, które pokazują, że kluczem do sukcesu najnowszych modeli językowych nie jest tylko architektura, ale przede wszystkim jakość i sposób kuracji danych.

W tym odcinku omawiamy:
• Metodologię Data Ablation - naukowe podejście do każdej decyzji w procesie kuracji danych
• Dwa kluczowe zbiory: FineWeb (15T tokenów) i FineWeb-Edu (1.3T tokenów edukacyjnych)
• Zaskakujące odkrycie globalnej deduplikacji i jej wpływ na jakość modeli
• Inteligentne filtrowanie z użyciem C4 - redukcja odrzuconych danych z 30% do 10%
• FineWeb-Edu: innowacyjną metodologię, gdzie AI uczy AI (Llama 3 70B jako klasyfikator jakości)
• Spektakularne rezultaty - modele trenowane na FineWeb-Edu osiągają +12% do +24% lepsze wyniki na MMLU i ARC
• Kompromis specjalizacji - jak filtrowanie edukacyjne zmienia profil tematyczny danych
• Transparentność i open source - udostępnienie nie tylko zbiorów danych, ale całej metodologii i kodu

📄 Oryginalny artykuł: https://arxiv.org/abs/2406.17557

Autorzy: Guilherme Penedo, Hynek Kydlíček, Loubna Ben allal, Anton Lozhkov, Margaret Mitchell, Colin Raffel, Leandro Von Werra, Thomas Wolf (Hugging Face)

💡 Masz propozycję artykułu? Zgłoś: https://github.com/Automaat/youtube-w...

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

FineWeb: Rewolucja w danych treningowych dla LLM | Deep Dive

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

LLaMA 3: Perfekcja w Niespotykane Skali | Deep Dive

LLaMA 3: Perfekcja w Niespotykane Skali | Deep Dive

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Ускоренный курс LLM по тонкой настройке | Учебное пособие LLM по тонкой настройке

Ускоренный курс LLM по тонкой настройке | Учебное пособие LLM по тонкой настройке

Алгоритмы на Python 3. Лекция №1

Алгоритмы на Python 3. Лекция №1

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

Projektowanie narzędzi dla modeli językowych i agentów AI | LIVE AI_devs 4

Projektowanie narzędzi dla modeli językowych i agentów AI | LIVE AI_devs 4

История Linux и UNIX! Кто породил ВСЕ современные системы!

История Linux и UNIX! Кто породил ВСЕ современные системы!

Путин объявил о победе / Конец спецоперации / Судьба оккупированных земель / Итоги 2025

Путин объявил о победе / Конец спецоперации / Судьба оккупированных земель / Итоги 2025

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Аналоговые компьютеры возвращаются? Часть 2 [Veritasium]

Аналоговые компьютеры возвращаются? Часть 2 [Veritasium]

Problem Bizantyjskich Generałów | Deep Dive

Problem Bizantyjskich Generałów | Deep Dive

Twierdzenie FLP: Dlaczego Konsensus Jest Niemożliwy | Deep Dive

Twierdzenie FLP: Dlaczego Konsensus Jest Niemożliwy | Deep Dive

Paxos: Algorytm Konsensusu i Grecki Parlament | Deep Dive

Paxos: Algorytm Konsensusu i Grecki Parlament | Deep Dive

Понимание исчисления (для инженеров)

Понимание исчисления (для инженеров)

Понимание GD&T

The $200M Machine that Prints Microchips: The EUV Photolithography System

The $200M Machine that Prints Microchips: The EUV Photolithography System

Финал юбилейного сезона Что? Где? Когда? 27.12.2025

Финал юбилейного сезона Что? Где? Когда? 27.12.2025

DeepSeek-V2: Przełamanie paradygmatu

DeepSeek-V2: Przełamanie paradygmatu "mądrzej = drożej" | Deep Dive

OLMoE: Otwarte Modele Językowe Mixture of Experts | Deep Dive

OLMoE: Otwarte Modele Językowe Mixture of Experts | Deep Dive

QLoRA: Dostrajanie Gigantycznych Modeli na Jednej Karcie GPU | Deep Dive

QLoRA: Dostrajanie Gigantycznych Modeli na Jednej Karcie GPU | Deep Dive