AIの学習データは全部同じ場所から来ている ― Common Crawl【機械学習】
Автор: 【ずんだもん解説】経験と判断
Загружено: 2026-02-18
Просмотров: 24
Описание:
ChatGPT、Claude、Gemini、LLaMA…世界中のAIが持つ膨大な知識。
その知識の「素材」は、実はほぼすべて同じ場所から来ています。
Common Crawl ― たった3人のスタッフで毎月インターネット全体をクロールし、
そのデータを無料で公開している非営利団体。
数兆ドル規模のAI産業が、この小さなNPOの上に成り立っているという驚くべき構造を、
基礎の基礎から丁寧に解説します。
▼ 目次
2:00 AIが賢くなるにはデータが必要
3:12 データを集めるのは大変
5:22 Common Crawlの登場
7:07 生データから学習データへ ― フィルタリング
9:02 すべてのAIが同じ食材を食べている
10:28 データの偏りと課題
11:56 データの民主化と未来
▼ 登場する概念
・LLM(大規模言語モデル)― ChatGPTのような、大量の文章を読んで言葉を操れるようになったAI
・ウェブクローリング ― インターネット上のページを自動で巡回してダウンロードすること
・Common Crawl ― 毎月インターネット全体をクロールし、データを無料公開する非営利団体(2007年設立)
・コーパス / トークン ― AIの学習に使う大量のテキストデータとその処理単位
・C4 ― GoogleがCommon Crawlを厳密にフィルタリングして作ったデータセット
・FineWeb ― HuggingFaceが96回分のクロールから15兆トークンを抽出したデータセット
▼ 登場する人物
・Gil Elbaz ― Common Crawlの創設者。Applied SemanticsをGoogleに売却した起業家
▼ 参考文献
・Mozilla Foundation (2024) "Training Data for the Price of a Sandwich: Common Crawl's Impact on Generative AI"
・Brown et al. (2020) "Language Models are Few-Shot Learners" (GPT-3論文)
・Raffel et al. (2020) "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer" (C4)
・HuggingFace (2024) "The FineWeb Datasets" (15兆トークン)
・Common Crawl公式サイト: https://commoncrawl.org/
▼ キャラクター
ずんだもん・四国めたん(VOICEVOX)
https://voicevox.hiroshiba.jp/
▼ 立ち絵素材
坂本アヒル 様
▼ 画像素材
いらすとや
https://www.irasutoya.com/
▼ 使用BGM
「なんということはない日常」by こおろぎ 様
https://dova-s.jp/bgm/play353.html
#CommonCrawl #AI #機械学習 #LLM #データサイエンス #ChatGPT #ウェブクローリング #ずんだもん #VOICEVOX #解説動画
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: