PythonでWebスクレイピング第04回｜Pythonで自動で画像収集→保存する方法

Автор: キノコード / プログラミング学習チャンネル

Загружено: 2021-06-04

Просмотров: 12089

Описание: キノコードでは、Webスクレイピングに関する動画をこれまで3本アップしました。
この動画では、検索結果にあるURLにアクセスして、自動で画像を収集、保存する方法について解説しました。

＜Webスクレイピングにおける注意点＞
Webスクレイピングは、利用規約違反や法律違反にならないよう必ず確認をしてから行ってください。
Webスクレイピングは非常に便利です。人の手ではできないことをやってくれ業務効率化が図れます。
ただし、他社システムへWebスクレイピングをする場合は、十二分の注意が必要です。
使い方によっては損害賠償請求などをされる可能性、偽計業務妨害罪の可能性もあります。
業務に他社システムへWebスクレイピングを取り入れるのであれば自己責任では済まないので、上長やIT部や法務部などに確認、相談しましょう。
また、自社システムであってもサーバーへ負荷がかからないように注意し、不安であれば上長やIT部へ相談をしましょう。

▼目次
00:00 はじめに
01:50 前回までの復習〜検索ワードの結果ページのURLを取得
03:00 前回の復習〜検索結果URLから結果ページのリンク先の情報を取得（URL、タイトル、説明文）
05:20 URLのリストにアクセスして画像ファイルのリンク先を取得
06:59 画像ファイルのリンク先からファイル名を取得
10:48 画像ファイルのURLにアクセスして画像ファイルを一気に保存
12:24 保存した画像ファイルの数を確認
13:08 おわりに

▼関連動画
＜Pythonで面倒な「ブラウザ操作」や「データ収集」の作業を自動化しよう｜Webスクレイピングのやり方をわかりやすく解説＞
   • Pythonで面倒な「ブラウザ操作」や「データ収集」の作業を自動化しよう｜Webスク...

＜PythonでWebスクレイピング｜複数ページに記載があるリンク先URLを取得する方法をわかりやすく解説＞
   • PythonでWebスクレイピング第02回｜Pythonでサイトに掲載されている大量...

＜ラクしてデータ収集｜キーワード検索した結果ページのデータ取得する方法＞
   • PythonでWebスクレイピング第03回｜Pythonでキーワード検索した結果ペー...

＜Python超入門講座＞
   • 【超入門コース】Python｜プログラミング初心者向け講座

＜Pandas超入門講座＞
   • Pandas入門コース｜プログラミング初心者向け講座

▼自己紹介
ブログに自己紹介を書いております。
https://kino-code.com/profile/

▼SNS
Twitter :   / likes
Facebook :   / %e3%82%ad%e3%83%8e%e3%82%b3%e3%83%bc%e3%83...
Website : https://kino-code.com/

▼書き起こし
```python
from bs4 import BeautifulSoup
import requests
import pandas as pd
import time
```

では、ライブラリをインポートしていきます。
bs4のパッケージの中にあるBeautifulSoupを読み込みます。
BeautifulSoupは、複雑なHTMLの構造を解析し、必要な部分を取り出すことができるライブラリです。
HTTP接続するために、requestsをインポートします。
requestsはPythonの標準のurllibモジュールよりもシンプルに実装でき、APIに関する機能も備わっています。
データ整形のためにPandasもインポートします。　
さらに、HTTPに接続した後、すぐに次の処理が実行されないようにするためtimeをインポートします。
実行します。
インポートが完了しました。

```python
keyword = 'Python'
url = 'https://kino-code.work/?s={}'.format(keyword)
r = requests.get(url)
time.sleep(3)

soup = BeautifulSoup(r.text, 'html.parser')
page_na = soup.find(class_ = 'pagination')
page_num = page_na.find_all(class_ = 'page-numbers')

pages = []
for i in page_num:
pages.append(i.text)

urls = []

if not pages:
urls = ['https://kino-code.com/?s={}'.format(keyword)]
else:
last_page = int(pages[-2])

for i in range(1, last_page + 1):
url = 'https://kino-code.work/?s={}'.format(keyword) + '&paged={}'.format(i)
urls.append(url)

urls
```

['https://kino-code.work/?s=Python&page...,
'https://kino-code.work/?s=Python&page...,
'https://kino-code.work/?s=Python&page...]

前回のレッスンで書いたソースコードです。
Pythonで検索しました。
検索結果のページのURLが取得できていますね。
（書き起こしブログに続く）

▼書き起こしブログ
https://kino-code.com/webscraping04/

#Pythonでスクレイピング #Python自動化 #PythonでRPA #Pythonできること

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

PythonでWebスクレイピング第04回｜Pythonで自動で画像収集→保存する方法

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

PythonでWebスクレイピング第05回｜Pythonで検索順位を自動保存（SEOのデータ分析に使える）

PythonでWebスクレイピング第05回｜Pythonで検索順位を自動保存（SEOのデータ分析に使える）

PythonでWebスクレイピング｜たった2時間で自動ログインやデータ取得、画像保存まで学べます【プログラミング初心者でもできる】

PythonでWebスクレイピング｜たった2時間で自動ログインやデータ取得、画像保存まで学べます【プログラミング初心者でもできる】

PythonでWebスクレイピング第02回｜Pythonでサイトに掲載されている大量のリンク先URLを取得する方法

PythonでWebスクレイピング第02回｜Pythonでサイトに掲載されている大量のリンク先URLを取得する方法

ВОЙНА ИЗ ПОСЛЕДНИХ СИЛ. БЕСЕДА С ИГОРЕМ ЛИПСИЦЕМ @IgorLipsits_1950

ВОЙНА ИЗ ПОСЛЕДНИХ СИЛ. БЕСЕДА С ИГОРЕМ ЛИПСИЦЕМ @IgorLipsits_1950

【LangChain】RAGを構築するための基礎！LangChain Indexing完全入門

【LangChain】RAGを構築するための基礎！LangChain Indexing完全入門

Pythonで面倒な仕事を自動化しよう

Pythonで面倒な仕事を自動化しよう

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Для Чего РЕАЛЬНО Нужен был ГОРБ Boeing 747?

Для Чего РЕАЛЬНО Нужен был ГОРБ Boeing 747?

【番外編】スクレイピングせずにWebページ上の表データを一瞬で取得する方法をわかりやすく解説！

【番外編】スクレイピングせずにWebページ上の表データを一瞬で取得する方法をわかりやすく解説！

【Pythonで画像加工】OpenCVの基本を解説！〜プログラミング初心者向け〜

【Pythonで画像加工】OpenCVの基本を解説！〜プログラミング初心者向け〜

【Pythonで自動化】コピペしていない？大量PDFからテキスト情報を一瞬で取得

【Pythonで自動化】コピペしていない？大量PDFからテキスト情報を一瞬で取得

【PythonによるWebスクレイピング入門】vol.05：Webページ上の画像を一括取得する方法をわかりやすく解説！

【PythonによるWebスクレイピング入門】vol.05：Webページ上の画像を一括取得する方法をわかりやすく解説！

Почему нейросети постоянно врут? (и почему этого уже не исправить)

Почему нейросети постоянно врут? (и почему этого уже не исправить)

【PythonでWebスクレイピング】Beautiful Soupの使い方解説！〜初心者向け〜プログラミング入門

【PythonでWebスクレイピング】Beautiful Soupの使い方解説！〜初心者向け〜プログラミング入門

Pythonで面倒なExcelの仕事を自動化しよう( 第一弾 )｜一瞬で仕事がおわるプログラミング活用術

Pythonで面倒なExcelの仕事を自動化しよう( 第一弾 )｜一瞬で仕事がおわるプログラミング活用術

Pythonで面倒な「ブラウザ操作」や「データ収集」の作業を自動化しよう｜Webスクレイピングの基本的な内容をわかりやすく解説｜PythonでWebスクレイピング第01回

Pythonで面倒な「ブラウザ操作」や「データ収集」の作業を自動化しよう｜Webスクレイピングの基本的な内容をわかりやすく解説｜PythonでWebスクレイピング第01回

Визуализация гравитации

Визуализация гравитации

Где начало СХЕМЫ? Понимаем, читаем, изучаем схемы. Понятное объяснение!

Где начало СХЕМЫ? Понимаем, читаем, изучаем схемы. Понятное объяснение!

Pythonで商品再入荷やWebページの更新を自動検知するプログラムの作成

Pythonで商品再入荷やWebページの更新を自動検知するプログラムの作成

【PythonによるWebスクレイピング入門】vol.01：ログインなどのブラウザ操作を自動化しよう（Selenium）

【PythonによるWebスクレイピング入門】vol.01：ログインなどのブラウザ操作を自動化しよう（Selenium）