OLMoE: Otwarte Modele Językowe Mixture of Experts | Deep Dive
Автор: Głęboki Odczyt
Загружено: 2025-12-19
Просмотров: 3
Описание:
🎙️ OLMoE od Allen Institute for AI to pierwszy w pełni otwarty model MoE z pełną transparentnością - wagi, dane treningowe, kod i 244 punkty kontrolne (checkpoints). Model oferuje najlepszy stosunek wydajności do kosztu w swojej klasie, przewyższając modele gęste przy użyciu tylko 1.3 miliarda aktywnych parametrów.
W tym odcinku omawiamy:
• Architektura Mixture of Experts i kompromis wydajność vs koszt
• Filozofia pełnej otwartości - dlaczego to przełom dla badań
• Kluczowe pytania projektowe: liczba ekspertów i sparse upcycling
• Stabilność treningu - Load Balancing Loss i Router's Z-loss
• Jak krystalizuje się specjalizacja ekspertów podczas uczenia
• Odkrywanie specjalizacji domenowej i na poziomie słownictwa
• OLMoE jako platforma badawcza dla społeczności
📄 Oryginalny artykuł: https://arxiv.org/abs/2409.02060
Autorzy: Niklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, et al. (Allen Institute for AI)
💡 Masz propozycję artykułu? Zgłoś: https://github.com/Automaat/youtube-w...
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: