Буткемп з веб-скрапінгу за допомогою Python

Буткемп з веб-скрапінгу за допомогою Python
en
12.10.2023
17 г 31 мін 38 сек

Ласкаво просимо на курс “The Ultimate Web Scraping With Python Bootcamp”, єдиний курс, який вам потрібен, щоб перейти від абсолютного новачка Python до дуже компетентного в області веб-скрапінгу.

Веб-скрапінг – це процес програмного вилучення даних з інтернету. Скрапінг-агенти відвідують веб-ресурси, витягують вміст та обробляють отримані дані, щоб отримати певну інформацію.

Скрапінг – це навичка програмування, яка надає миттєвий зворотний зв’язок і може використовуватися для автоматизації безлічі завдань зі збирання та обробки даних.

Протягом найближчих 17+ годин ми методично розглянемо все, що вам потрібно знати, щоб писати скрапінг-агенти в Python.

Цей буткемп організований у три частини, рівень складності у яких поступово збільшується, щоб допомогти вам поступово розвивати свої навички.

Частина I – Початок

Ми почнемо з розуміння того, як працює веб, розглянувши HTTP ключовий протокол прикладного рівня для обміну даними в сучасному вебі. Потім ми докладніше вивчимо HTML, CSS та JavaScript, щоб глибше зрозуміти, як створюються веб-сайти. Нарешті, ми дізнаємося, як використовувати Python для надсилання HTTP-запитів та розбору отриманих даних у HTML, CSS та JavaScript, щоб отримувати необхідну інформацію. Нашою метою в першій частині курсу є створення надійного фундаменту в галузі веб-скрапінгу та Python, та застосування цих навичок на практиці, створюючи функціональні скрейпери з нуля. Вибрані теми включають:

детальний огляд циклу запит-відповідь
розуміння користувачів-агентів, HTTP-дієслів, заголовків і статусів
розуміння того, як і чому заголовки користувача часто використовуються для обходу платних стін
майстерність бібліотеки requests для роботи з HTTP в Python
що означає відсутність стану і як працюють куки
розгляд ролі проксі-серверів у сучасних веб-архітектурах
BeautifulSoup для розбирання та вилучення даних
Частина II – Вдосконалення

У другій частині курсу ми будуватимемо на вже створених фундаментах, щоб досліджувати більш просунуті теми в галузі веб-скрапінгу. Ми дізнаємося, як скрейпити динамічні веб-сайти, які використовують JavaScript для відображення свого контенту, налаштувавши Microsoft Playwright як браузер без графічного інтерфейсу для автоматизації цього процесу. Ми також дізнаємось, як ідентифікувати та емулювати виклики API для скрапінгу даних з веб-сайтів, які не мають офіційних загальнодоступних API. Проекти в цьому розділі включатимуть скрейпер зображень, який може завантажувати певну кількість високодозволених зображень за ключовим словом, а також іншого скрейпера, що отримує ціну і опис знижкових відеоігор з веб-сайту, що динамічно генерується. Серед тем:

ідентифікація та використання прихованих API, а також розуміння переваг, які вони надають
емуляція заголовків, куки та тіла запиту з легкістю
автоматична генерація Python-коду з перехоплених API-запитів з використанням Postman та httpie
робота з високопродуктивною бібліотекою парсингу selectolax
майстерність CSS-селекторів
введення Microsoft Playwright для headless навігації та динамічного відтворення
Частина III – Майстерність

В останній частині курсу ми познайомимося з Scrapy. Це надасть нам відмінний, перевірений часом фреймворк для створення більш складних та надійних веб-скрейперів. Ми дізнаємося, як налаштувати Scrapy у віртуальному середовищі та створити павуки та конвеєри для вилучення даних із веб-сайтів у різних форматах. Після вивчення використання Scrapy, ми розглянемо, як інтегрувати його з Playwright, щоб впоратися з викликом скрапінгу динамічних веб-сайтів прямо в Scrapy. Ми завершимо цей розділ, створивши скрапер, який виконує JavaScript-код, а потім повертає отриманий HTML в Scrapy. Деякі теми цього розділу:

вивчення налаштування Scrapy та вивчення його командного рядка («інструмент Scrapy»)
динамічне вивчення об’єктів відповідей за допомогою Scrapy Shell
розуміння та визначення схем елементів та завантаження даних з використанням завантажувачів елементів та процесорів введення/виводу
інтеграція Playwright до Scrapy для роботи з динамічними веб-сайтами, що працюють на JavaScript
написання методів сторінок для вказівки дуже конкретних інструкцій браузеру без графічного інтерфейсу прямо з Scrapy
визначення користувальницьких конвеєрів для збереження в SQL-бази даних і видачі в форматах виводу, що сильно настроюються.
У цьому буткемпі я проведу вас крок за кроком через захоплюючі відеолекції та навчу всьому, що вам потрібно знати, щоб почати веб-скрейпінг у Python.

До кінця цього курсу у вас буде повний набір інструментів для концептуалізації та створення скраперів для будь-якого веб-сайту, який ви можете собі уявити.

Ви не можете переглядати цей курс -

Array ( [bitrate] => 457364 [filesize] => 5905987 [mime_type] => video/mp4 [length] => 80 [length_formatted] => 1:20 [width] => 1280 [height] => 720 [fileformat] => mp4 [dataformat] => quicktime [audio] => Array ( [dataformat] => mp4 [bitrate] => 128000 [codec] => ISO/IEC 14496-3 AAC [sample_rate] => 48000 [channels] => 2 [bits_per_sample] => 16 [lossless] => [channelmode] => stereo [compression_ratio] => 0.083333333333333 ) [created_timestamp] => -2082844800 )