🎧 New: AI-Generated Podcasts Turn your study notes into engaging audio conversations. Learn more

Автоматизация сбора информации с различных ресурсов
5 Questions
1 Views

Автоматизация сбора информации с различных ресурсов

Created by
@AngelicEnjambment8578

Podcast Beta

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Why can't we just make a simple GET request to collect data from websites?

Because websites take protective measures to prevent automated requests, such as using Cloudflare.

What is the purpose of the 'useHeaderGenerator' option in the 'gotScraping' function?

It is used to generate headers for the request.

What is the 'cf_clearance' cookie used for?

It is used to indicate that the user has passed the Cloudflare challenge.

Why do we need to include the 'cookie' header in our GET request?

<p>To include the cookies obtained from the previous request, such as the Cloudflare clearance cookie.</p> Signup and view all the answers

What is the purpose of the 'http2' option in the 'gotScraping' function?

<p>It is used to enable HTTP/2 protocol for the request.</p> Signup and view all the answers

Study Notes

Автоматизация сбора информации с различных ресурсов

  • Автоматизация сбора информации с различных ресурсов - это общая задача для людей из разных областей деятельности
  • Сайты, с которых собираются данные, принимают защитные меры для предотвращения автоматизированных запросов
  • Одна из таких мер - это использование Cloudflare

Cloudflare и автоматизированные запросы

  • Cloudflare обнаруживает ботов через JavaScript
  • Для предотвращения автоматизированных запросов Cloudflare использует проверку "turnstile"
  • При обычном GET-запросе к сайту, защищенному Cloudflare, необходимо сначала кликнуть по капче "cloudflare turnstile"

Проблема с получением данных с сайта, защищенного Cloudflare

  • При попытке выполнить обычный GET-запрос к сайту, защищенному Cloudflare, получаем только заголовки, но не получаем куки
  • Куки необходимы для последующего выполнения запросов
  • Куки приходят после отправки payload-ов, которые генерируются скриптами

Способы получения куки

  • Один из способов получить куки - выполнить все скрипты Cloudflare, как это делает браузер
  • Другой способ - понять логику генерации payload-a и самому генерировать его
  • Второй способ не прост в реализации, но возможен, так как вариаций скриптов Cloudflare конечно

Выполнение скриптов Cloudflare

  • Есть разные подходы к выполнению скриптов Cloudflare
  • Один из таких подходов - использовать JSDOM в NodeJS

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Description

Автоматизация сбора информации с различных ресурсов - это общая задача для людей из разных областей деятельности, при этом сайты предпринимают меры для предотвращения автоматизированных запросов.

More Quizzes Like This

Python Web Scraping Steps
10 questions
Web Scraping Basics
12 questions

Web Scraping Basics

EnchantingLemur avatar
EnchantingLemur
Web Scraping Basics
10 questions

Web Scraping Basics

EnrapturedBlueLaceAgate avatar
EnrapturedBlueLaceAgate
Web Scraping Proxy Options
10 questions
Use Quizgecko on...
Browser
Browser