Введение в веб-скрейпинг с использованием Node.js
Автор: Code With Bubb
Загружено: 2020-09-22
Просмотров: 3554
Описание:
В этом уроке мы рассмотрим, как парсить веб-страницу с помощью Node.js, а также как обрабатывать динамически генерируемый контент, например, созданный на странице с помощью JavaScript.
Введение в веб-парсинг с помощью Node.js
---------------------------------------------------------------------
00:00 Введение
01:06 Настройка
03:26 Часть 1 - Получение содержимого веб-страницы
05:17 Часть 2 - Парсер HTML Node
09:16 Часть 3 - Динамический контент
11:34 --- Использование Pupeteer
15:14 --- Скриншоты
15:39 --- PDF
— Следите за мной —
Twitter: / codebubb
Facebook: / juniordevelopercentral
Блог: https://www.juniordevelopercentral.com/
— Спасибо! —
В этом уроке по JavaScript мы научимся парсить веб-страницу с помощью Node.js.
Начнём с создания простой статической HTML-страницы, а затем используем библиотеку Axios для получения содержимого этой страницы и сохранения его в нашем серверном скрипте Node.js.
После получения HTML-данных мы рассмотрим, как извлечь определённую информацию с этой страницы с помощью библиотеки парсера HTML Node (node-html-parser), которая, по сути, позволит вам использовать знакомые функции DOM для извлечения элементов с полученной страницы (например, querySelector, querySelectoAll и т. д.).
Хотя в уроке вы увидите, что это хорошо работает для статических HTML-страниц, мы сталкиваемся с ограничением этого подхода, когда веб-страница, с которой мы парсим, имеет динамически генерируемый контент. Другими словами, на странице работает JavaScript, который создаёт или обновляет HTML-элементы.
С этой целью в заключительной части урока мы рассмотрим веб-скрейпинг с помощью Node.js и Puppeteer. Puppeteer — это, по сути, безголовая версия Chrome, работающая в вашем коде Node.js, с помощью которой вы можете загружать различные страницы и получать их полную отрисовку — примерно так же, как настоящий браузер отрисовывает страницу с JavaScript, а затем возвращает обновленное HTML-содержимое для использования в вашем скрипте Node.js.
Вы увидите, как Puppeteer позволяет открывать новые вкладки, переходить на определенную страницу, а затем использовать Node.js для парсинга этой страницы. Наконец, мы увидим, как вы можете использовать Node.js и Puppeteer для создания скриншотов и генерации PDF-файлов. Ник в канале: @codebubb
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: