OLMoE: Otwarte Modele Językowe Mixture of Experts | Deep Dive

Автор: Głęboki Odczyt

Загружено: 2025-12-19

Просмотров: 3

Описание: 🎙️ OLMoE od Allen Institute for AI to pierwszy w pełni otwarty model MoE z pełną transparentnością - wagi, dane treningowe, kod i 244 punkty kontrolne (checkpoints). Model oferuje najlepszy stosunek wydajności do kosztu w swojej klasie, przewyższając modele gęste przy użyciu tylko 1.3 miliarda aktywnych parametrów.

W tym odcinku omawiamy:
• Architektura Mixture of Experts i kompromis wydajność vs koszt
• Filozofia pełnej otwartości - dlaczego to przełom dla badań
• Kluczowe pytania projektowe: liczba ekspertów i sparse upcycling
• Stabilność treningu - Load Balancing Loss i Router's Z-loss
• Jak krystalizuje się specjalizacja ekspertów podczas uczenia
• Odkrywanie specjalizacji domenowej i na poziomie słownictwa
• OLMoE jako platforma badawcza dla społeczności

📄 Oryginalny artykuł: https://arxiv.org/abs/2409.02060

Autorzy: Niklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, et al. (Allen Institute for AI)

💡 Masz propozycję artykułu? Zgłoś: https://github.com/Automaat/youtube-w...

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

OLMoE: Otwarte Modele Językowe Mixture of Experts | Deep Dive

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

InstructGPT: Jak 1.3B parametrów pokonało 175B? Rewolucja RLHF | Deep Dive

InstructGPT: Jak 1.3B parametrów pokonało 175B? Rewolucja RLHF | Deep Dive

Gen. Leon Komornicki: Polowanie na żołnierza i drony. Nowa faza wojny niszczy Ukrainę krok po kroku

Gen. Leon Komornicki: Polowanie na żołnierza i drony. Nowa faza wojny niszczy Ukrainę krok po kroku

Asteriks: Osiedle Bogów, Laury Cezara - prezentacja wydań w twardej oprawie

Asteriks: Osiedle Bogów, Laury Cezara - prezentacja wydań w twardej oprawie

kurs podstaw Pythona w godzinę

kurs podstaw Pythona w godzinę

Czy Chiny szykują się na upadek Rosji?

Czy Chiny szykują się na upadek Rosji?

PaLM: Model 540 miliardów parametrów, który zmienił zasady skalowania AI | Deep Dive

PaLM: Model 540 miliardów parametrów, który zmienił zasady skalowania AI | Deep Dive

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Madis - Reflecte (Full Album 2025)

Madis - Reflecte (Full Album 2025)

POLACY WRACAJĄ z NIEMIEC, a PKP CARGO PÓJDZIE na SPRZEDAŻ? #BizWeek

POLACY WRACAJĄ z NIEMIEC, a PKP CARGO PÓJDZIE na SPRZEDAŻ? #BizWeek

Dokąd zmierza wojna? Co nas czeka na froncie w 2026 roku? płk Piotr Lewandowski i M. Lachowski.

Dokąd zmierza wojna? Co nas czeka na froncie w 2026 roku? płk Piotr Lewandowski i M. Lachowski.

LLaMA 3: Perfekcja w Niespotykane Skali | Deep Dive

LLaMA 3: Perfekcja w Niespotykane Skali | Deep Dive

Megatron-Turing NLG 530B: Jak Microsoft i NVIDIA zbudowali gigantyczny model AI | Deep Dive

Megatron-Turing NLG 530B: Jak Microsoft i NVIDIA zbudowali gigantyczny model AI | Deep Dive

Od Teorii do Produkcji: Wdrożenie Paxos w Google | Deep Dive

Od Teorii do Produkcji: Wdrożenie Paxos w Google | Deep Dive

Dzisiaj Informacje Telewizja Republika 30.12.2025 | TV Republika

Dzisiaj Informacje Telewizja Republika 30.12.2025 | TV Republika

FineWeb: Rewolucja w danych treningowych dla LLM | Deep Dive

FineWeb: Rewolucja w danych treningowych dla LLM | Deep Dive

Mamba-2: Transformery to SSM-y. Synteza Dwóch Światów AI | Deep Dive

Mamba-2: Transformery to SSM-y. Synteza Dwóch Światów AI | Deep Dive

DeepSeek-V2: Przełamanie paradygmatu

DeepSeek-V2: Przełamanie paradygmatu "mądrzej = drożej" | Deep Dive

Mistral 7B: Inteligentna Architektura Zamiast Brutalnej Skali | Deep Dive

Mistral 7B: Inteligentna Architektura Zamiast Brutalnej Skali | Deep Dive

NotebookLM. Kompletny przewodnik (2025)

NotebookLM. Kompletny przewodnik (2025)

Problem Bizantyjskich Generałów | Deep Dive

Problem Bizantyjskich Generałów | Deep Dive