Podcast
Questions and Answers
Why can't we just make a simple GET request to collect data from websites?
Why can't we just make a simple GET request to collect data from websites?
Because websites take protective measures to prevent automated requests, such as using Cloudflare.
What is the purpose of the 'useHeaderGenerator' option in the 'gotScraping' function?
What is the purpose of the 'useHeaderGenerator' option in the 'gotScraping' function?
It is used to generate headers for the request.
What is the 'cf_clearance' cookie used for?
What is the 'cf_clearance' cookie used for?
It is used to indicate that the user has passed the Cloudflare challenge.
Why do we need to include the 'cookie' header in our GET request?
Why do we need to include the 'cookie' header in our GET request?
Signup and view all the answers
What is the purpose of the 'http2' option in the 'gotScraping' function?
What is the purpose of the 'http2' option in the 'gotScraping' function?
Signup and view all the answers
Study Notes
Автоматизация сбора информации с различных ресурсов
- Автоматизация сбора информации с различных ресурсов - это общая задача для людей из разных областей деятельности
- Сайты, с которых собираются данные, принимают защитные меры для предотвращения автоматизированных запросов
- Одна из таких мер - это использование Cloudflare
Cloudflare и автоматизированные запросы
- Cloudflare обнаруживает ботов через JavaScript
- Для предотвращения автоматизированных запросов Cloudflare использует проверку "turnstile"
- При обычном GET-запросе к сайту, защищенному Cloudflare, необходимо сначала кликнуть по капче "cloudflare turnstile"
Проблема с получением данных с сайта, защищенного Cloudflare
- При попытке выполнить обычный GET-запрос к сайту, защищенному Cloudflare, получаем только заголовки, но не получаем куки
- Куки необходимы для последующего выполнения запросов
- Куки приходят после отправки payload-ов, которые генерируются скриптами
Способы получения куки
- Один из способов получить куки - выполнить все скрипты Cloudflare, как это делает браузер
- Другой способ - понять логику генерации payload-a и самому генерировать его
- Второй способ не прост в реализации, но возможен, так как вариаций скриптов Cloudflare конечно
Выполнение скриптов Cloudflare
- Есть разные подходы к выполнению скриптов Cloudflare
- Один из таких подходов - использовать JSDOM в NodeJS
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Description
Автоматизация сбора информации с различных ресурсов - это общая задача для людей из разных областей деятельности, при этом сайты предпринимают меры для предотвращения автоматизированных запросов.