FineWeb: Rewolucja w danych treningowych dla LLM | Deep Dive
Автор: Głęboki Odczyt
Загружено: 2025-12-19
Просмотров: 15
Описание:
🎙️ Odkryj przełomową metodologię przygotowania danych treningowych, która może zmienić zasady gry w otwartym rozwoju AI. FineWeb i FineWeb-Edu to transparentne, masywne zbiory danych stworzone przez Hugging Face, które pokazują, że kluczem do sukcesu najnowszych modeli językowych nie jest tylko architektura, ale przede wszystkim jakość i sposób kuracji danych.
W tym odcinku omawiamy:
• Metodologię Data Ablation - naukowe podejście do każdej decyzji w procesie kuracji danych
• Dwa kluczowe zbiory: FineWeb (15T tokenów) i FineWeb-Edu (1.3T tokenów edukacyjnych)
• Zaskakujące odkrycie globalnej deduplikacji i jej wpływ na jakość modeli
• Inteligentne filtrowanie z użyciem C4 - redukcja odrzuconych danych z 30% do 10%
• FineWeb-Edu: innowacyjną metodologię, gdzie AI uczy AI (Llama 3 70B jako klasyfikator jakości)
• Spektakularne rezultaty - modele trenowane na FineWeb-Edu osiągają +12% do +24% lepsze wyniki na MMLU i ARC
• Kompromis specjalizacji - jak filtrowanie edukacyjne zmienia profil tematyczny danych
• Transparentność i open source - udostępnienie nie tylko zbiorów danych, ale całej metodologii i kodu
📄 Oryginalny artykuł: https://arxiv.org/abs/2406.17557
Autorzy: Guilherme Penedo, Hynek Kydlíček, Loubna Ben allal, Anton Lozhkov, Margaret Mitchell, Colin Raffel, Leandro Von Werra, Thomas Wolf (Hugging Face)
💡 Masz propozycję artykułu? Zgłoś: https://github.com/Automaat/youtube-w...
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: