ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

AIの学習データは全部同じ場所から来ている ― Common Crawl【機械学習】

Автор: 【ずんだもん解説】経験と判断

Загружено: 2026-02-18

Просмотров: 24

Описание: ChatGPT、Claude、Gemini、LLaMA…世界中のAIが持つ膨大な知識。
その知識の「素材」は、実はほぼすべて同じ場所から来ています。

Common Crawl ― たった3人のスタッフで毎月インターネット全体をクロールし、
そのデータを無料で公開している非営利団体。
数兆ドル規模のAI産業が、この小さなNPOの上に成り立っているという驚くべき構造を、
基礎の基礎から丁寧に解説します。

▼ 目次
2:00 AIが賢くなるにはデータが必要
3:12 データを集めるのは大変
5:22 Common Crawlの登場
7:07 生データから学習データへ ― フィルタリング
9:02 すべてのAIが同じ食材を食べている
10:28 データの偏りと課題
11:56 データの民主化と未来


▼ 登場する概念
・LLM(大規模言語モデル)― ChatGPTのような、大量の文章を読んで言葉を操れるようになったAI
・ウェブクローリング ― インターネット上のページを自動で巡回してダウンロードすること
・Common Crawl ― 毎月インターネット全体をクロールし、データを無料公開する非営利団体(2007年設立)
・コーパス / トークン ― AIの学習に使う大量のテキストデータとその処理単位
・C4 ― GoogleがCommon Crawlを厳密にフィルタリングして作ったデータセット
・FineWeb ― HuggingFaceが96回分のクロールから15兆トークンを抽出したデータセット

▼ 登場する人物
・Gil Elbaz ― Common Crawlの創設者。Applied SemanticsをGoogleに売却した起業家

▼ 参考文献
・Mozilla Foundation (2024) "Training Data for the Price of a Sandwich: Common Crawl's Impact on Generative AI"
・Brown et al. (2020) "Language Models are Few-Shot Learners" (GPT-3論文)
・Raffel et al. (2020) "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer" (C4)
・HuggingFace (2024) "The FineWeb Datasets" (15兆トークン)
・Common Crawl公式サイト: https://commoncrawl.org/

▼ キャラクター
ずんだもん・四国めたん(VOICEVOX)
https://voicevox.hiroshiba.jp/

▼ 立ち絵素材
坂本アヒル 様

▼ 画像素材
いらすとや
https://www.irasutoya.com/

▼ 使用BGM
「なんということはない日常」by こおろぎ 様
https://dova-s.jp/bgm/play353.html

#CommonCrawl #AI #機械学習 #LLM #データサイエンス #ChatGPT #ウェブクローリング #ずんだもん #VOICEVOX #解説動画

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
AIの学習データは全部同じ場所から来ている ― Common Crawl【機械学習】

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Мир Будущего 2045 | Как Наука и Технологии Победят Старость

Мир Будущего 2045 | Как Наука и Технологии Победят Старость

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Лучший документальный фильм про создание ИИ

Лучший документальный фильм про создание ИИ

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

Как создаются степени магистра права?

Как создаются степени магистра права?

Генеративный ИИ в разработке ПО: Введение

Генеративный ИИ в разработке ПО: Введение

Что происходит с нейросетью во время обучения?

Что происходит с нейросетью во время обучения?

「原因がある」は当たり前? ― 因果推論が暴く2つの深淵【科学×哲学】

「原因がある」は当たり前? ― 因果推論が暴く2つの深淵【科学×哲学】

Очеловечьте тексты, написанные с помощью ИИ, и обойдите системы обнаружения ИИ с помощью этого КЛ...

Очеловечьте тексты, написанные с помощью ИИ, и обойдите системы обнаружения ИИ с помощью этого КЛ...

Внимание — это всё, что вам нужно (Transformer) — объяснение модели (включая математику), вывод и...

Внимание — это всё, что вам нужно (Transformer) — объяснение модели (включая математику), вывод и...

9 Скрытых Фишек ChatGPT о которых никто не говорит

9 Скрытых Фишек ChatGPT о которых никто не говорит

400 часов вайб-кодинга: всё, что нужно знать | Claude, GPT, агенты

400 часов вайб-кодинга: всё, что нужно знать | Claude, GPT, агенты

Освойте OpenClaw за 30 минут (5 реальных примеров использования + настройка + запоминание)

Освойте OpenClaw за 30 минут (5 реальных примеров использования + настройка + запоминание)

CEJROWSKI dosadnie o NIEMIECKICH zamiarach: chcą, żeby Polska SPŁACAŁA ich zbrojenia!

CEJROWSKI dosadnie o NIEMIECKICH zamiarach: chcą, żeby Polska SPŁACAŁA ich zbrojenia!

Będziemy płacić za emerytury Ukraińców!

Będziemy płacić za emerytury Ukraińców!

Генеральный план Китая: объяснение новых качественных производительных сил.

Генеральный план Китая: объяснение новых качественных производительных сил.

Как создать помощника финансового аналитика с помощью Vertex AI Studio и Gemini менее чем за 10 м...

Как создать помощника финансового аналитика с помощью Vertex AI Studio и Gemini менее чем за 10 м...

たった1回の極端な事象が全てを支配する ― ファットテールと極値統計の数学【統計学】

たった1回の極端な事象が全てを支配する ― ファットテールと極値統計の数学【統計学】

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]