AIの学習データは全部同じ場所から来ている ― Common Crawl【機械学習】

Автор: 【ずんだもん解説】経験と判断

Загружено: 2026-02-18

Просмотров: 24

Описание: ChatGPT、Claude、Gemini、LLaMA…世界中のAIが持つ膨大な知識。
その知識の「素材」は、実はほぼすべて同じ場所から来ています。

Common Crawl ― たった3人のスタッフで毎月インターネット全体をクロールし、
そのデータを無料で公開している非営利団体。
数兆ドル規模のAI産業が、この小さなNPOの上に成り立っているという驚くべき構造を、
基礎の基礎から丁寧に解説します。

▼ 目次
2:00 AIが賢くなるにはデータが必要
3:12 データを集めるのは大変
5:22 Common Crawlの登場
7:07 生データから学習データへ ― フィルタリング
9:02 すべてのAIが同じ食材を食べている
10:28 データの偏りと課題
11:56 データの民主化と未来

▼ 登場する概念
・LLM（大規模言語モデル）― ChatGPTのような、大量の文章を読んで言葉を操れるようになったAI
・ウェブクローリング ― インターネット上のページを自動で巡回してダウンロードすること
・Common Crawl ― 毎月インターネット全体をクロールし、データを無料公開する非営利団体（2007年設立）
・コーパス / トークン ― AIの学習に使う大量のテキストデータとその処理単位
・C4 ― GoogleがCommon Crawlを厳密にフィルタリングして作ったデータセット
・FineWeb ― HuggingFaceが96回分のクロールから15兆トークンを抽出したデータセット

▼ 登場する人物
・Gil Elbaz ― Common Crawlの創設者。Applied SemanticsをGoogleに売却した起業家

▼ 参考文献
・Mozilla Foundation (2024) "Training Data for the Price of a Sandwich: Common Crawl's Impact on Generative AI"
・Brown et al. (2020) "Language Models are Few-Shot Learners" (GPT-3論文)
・Raffel et al. (2020) "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer" (C4)
・HuggingFace (2024) "The FineWeb Datasets" (15兆トークン)
・Common Crawl公式サイト: https://commoncrawl.org/

▼ キャラクター
ずんだもん・四国めたん（VOICEVOX）
https://voicevox.hiroshiba.jp/

▼ 立ち絵素材
坂本アヒル様

▼ 画像素材
いらすとや
https://www.irasutoya.com/

▼ 使用BGM
「なんということはない日常」by こおろぎ様
https://dova-s.jp/bgm/play353.html

#CommonCrawl #AI #機械学習 #LLM #データサイエンス #ChatGPT #ウェブクローリング #ずんだもん #VOICEVOX #解説動画

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

AIの学習データは全部同じ場所から来ている ― Common Crawl【機械学習】

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Мир Будущего 2045 | Как Наука и Технологии Победят Старость

Мир Будущего 2045 | Как Наука и Технологии Победят Старость

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Лучший документальный фильм про создание ИИ

Лучший документальный фильм про создание ИИ

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

Как создаются степени магистра права?

Как создаются степени магистра права?

Генеративный ИИ в разработке ПО: Введение

Генеративный ИИ в разработке ПО: Введение

Что происходит с нейросетью во время обучения?

Что происходит с нейросетью во время обучения?

「原因がある」は当たり前？ ― 因果推論が暴く2つの深淵【科学×哲学】

「原因がある」は当たり前？ ― 因果推論が暴く2つの深淵【科学×哲学】

Очеловечьте тексты, написанные с помощью ИИ, и обойдите системы обнаружения ИИ с помощью этого КЛ...

Очеловечьте тексты, написанные с помощью ИИ, и обойдите системы обнаружения ИИ с помощью этого КЛ...

Внимание — это всё, что вам нужно (Transformer) — объяснение модели (включая математику), вывод и...

Внимание — это всё, что вам нужно (Transformer) — объяснение модели (включая математику), вывод и...

9 Скрытых Фишек ChatGPT о которых никто не говорит

9 Скрытых Фишек ChatGPT о которых никто не говорит

400 часов вайб-кодинга: всё, что нужно знать | Claude, GPT, агенты

400 часов вайб-кодинга: всё, что нужно знать | Claude, GPT, агенты

Освойте OpenClaw за 30 минут (5 реальных примеров использования + настройка + запоминание)

Освойте OpenClaw за 30 минут (5 реальных примеров использования + настройка + запоминание)

CEJROWSKI dosadnie o NIEMIECKICH zamiarach: chcą, żeby Polska SPŁACAŁA ich zbrojenia!

CEJROWSKI dosadnie o NIEMIECKICH zamiarach: chcą, żeby Polska SPŁACAŁA ich zbrojenia!

Będziemy płacić za emerytury Ukraińców!

Będziemy płacić za emerytury Ukraińców!

Генеральный план Китая: объяснение новых качественных производительных сил.

Генеральный план Китая: объяснение новых качественных производительных сил.

Как создать помощника финансового аналитика с помощью Vertex AI Studio и Gemini менее чем за 10 м...

Как создать помощника финансового аналитика с помощью Vertex AI Studio и Gemini менее чем за 10 м...

たった1回の極端な事象が全てを支配する ― ファットテールと極値統計の数学【統計学】

たった1回の極端な事象が全てを支配する ― ファットテールと極値統計の数学【統計学】