Является ли веб-парсинг незаконным?

Веб-скрапинг предполагает сбор информации в виде данных с веб-сайтов или страниц. Хотя ваш поступок может и не быть сознательным, вы тем или иным образом копались в сети, собирая информацию. Но обычно это тонко.

Очистка веб-страниц или экранов, как правило, является целенаправленным действием, и профессионалы автоматизируют дизайн, чтобы получить огромные данные. Будь то копирование текстов на веб-сайт вручную, с использованием специальных инструментов или написанием скриптов парсинга, веб-парсеры иногда сильно бьют по сайту, выполняя несколько запросов одновременно.

Но хотя многие компании сейчас используют парсинг веб-страниц для получения конкурентных преимуществ, действительно ли это законно?

Какие веб-сайты следует и не следует очищать?

Интернет – это хранилище информации, дающее людям доступ к старым данным в реальном времени. Очистка веб-страниц и экранов существует уже некоторое время. Но сколько вы должны его использовать и какие веб-сайты вы можете очистить?

Некоторые веб-сайты ужесточают требования к поисковым роботам или скребкам экрана и полностью их блокируют. Совершенно очевидно, что такие сайты не следует очищать. Но люди по-прежнему так делают.

К сожалению, такие сайты вряд ли могут что-то сделать, кроме того, чтобы залатать свои лазейки.

В идеале перед очисткой веб-сайта вы должны проверить, разрешено ли сканирование на нем. Обычно это можно узнать, проверив файл robots.txt на сайте. Вы можете сделать это, набрав «[URL-адрес веб-сайта] /robots.txt».

Файл robots.txt обычно устанавливает правила для различных поисковых роботов или пользовательских агентов. Однако эти правила различаются в зависимости от задействованного веб-сайта. Хотя некоторые сайты разрешают сканирование на всех страницах, некоторые указывают страницы, которые бот может сканировать, а некоторые полностью блокируют поисковые роботы.

Веб-сайт, который блокирует сканирование всех страниц всеми пользовательскими агентами, обычно устанавливает следующие правила:

 user-agent: *
Disallow: /

Файл robots.txt, который блокирует сканирование всеми ботами определенных каталогов или страниц, обычно выглядит следующим образом:

 user-agent: *
Disallow: /URL to page 1
Disallow : /URL to page 2

Если файл robots.txt не запрещает сканирование страницы, вы, вероятно, можете очистить ее. В противном случае вам следует отступить или запросить согласие администратора. Они могут предоставить вам доступ.

Кроме того, на некоторых веб-сайтах прямо указано, разрешено ли сканирование, в их условиях использования. Некоторые даже указывают это в верхней части своего файла robots.txt. Всегда проверяйте это, чтобы убедиться, что вы поступаете правильно.

Как злоупотребляют веб-скрапингом

Так что, если вы получали спам-сообщения или SMS от веб-сайтов или людей, которых вы никогда не сообщали своей личной информацией, то вы, вероятно, каким-то образом были где-то очищены. И в основном через одну из ваших социальных сетей.

Тем не менее, парсинг веб-страниц иногда – это больше, чем просто сбор данных, которые отображаются в интерфейсе пользователя. В случае злонамеренного использования это может привести к утечке личной и секретной информации.

Хотя большинство платформ социальных сетей не одобряют это, сканирующие боты по-прежнему получают доступ к профилям людей, а их контактная информация утекает и удаляется.

Например, сообщалось, что в Facebook есть уязвимости, из-за которых в прошлом происходила утечка контактной информации пользователей, хотя пользователи хранили ее в тайне.

Аналогичным образом, LinkedIn недавно пострадала от нарушения безопасности, которое привело к утечке личных данных, принадлежащих более чем 500 миллионам учетных записей . Следовательно, эта уязвимость привела к совместному использованию многих адресов электронной почты и номеров телефонов без согласия владельцев профиля.

Насколько незаконно очищать веб-сайт?

Заключения о законности парсинга веб-сайтов еще не было. Вместо этого основное внимание уделяется тому, как сканер работает в каждом конкретном случае, и для чего они используют собранные данные.

Таким образом, вместо того, чтобы делать вывод о его законности, очистка, если она выполняется злонамеренно, является незаконной. Но если все сделано разумно, это не является незаконным.

Но, как и ожидалось, похоже, существует более строгая политика в отношении сбора и использования данных социальных сетей, поскольку конфиденциальность пользователей так важна. Однако все сводится к тому, как люди очищают данные.

Юридический блог об Интернете и социальных сетях проанализировал дело hiQ Labs, компании по сбору данных, которая выиграла судебный процесс против LinkedIn в 2019 году после попытки заблокировать hiQ Labs от сбора общедоступных данных пользователей LinkedIn.

Поскольку hiQ Labs утверждала, что Закон о компьютерном мошенничестве и злоупотреблениях (CFAA) запрещает только несанкционированный доступ, решение подтвердило, что данные LinkedIn были общедоступными, поэтому любой, кто их очищал, делал это, потому что они доступны.

Кроме того, hiQ Labs использовала полученные данные только для предоставления аналитических решений компаниям, чтобы они могли принимать более обоснованные решения о найме.

Напротив, Facebook недавно подал в суд на разработчиков расширений Chrome, которые очищали профили пользователей Facebook без их согласия.

Точно так же Facebook подал в суд на сайт-подражатель за то, что он очистил данные профилей нескольких пользователей Instagram и затем использовал их для создания клонов. Согласно этому отчету, Facebook пошел дальше, добиваясь постоянного судебного запрета против преступника.

Это несколько случаев, когда люди могли использовать веб-скрапинг незаконно. Указанные компании собирали данные пользователей Facebook обманным путем, без согласия пользователей. Таким образом, это нарушило политику конфиденциальности.

Таким образом, хотя веб-скрапинг может нарушить работу сайта, с которого он получает данные, в настоящее время нет общих правил, запрещающих людям получать то, что они хотят, если они не нарушают законы об Интернете.

Является ли веб-парсинг синонимом взлома?

Есть несколько мифов, связанных со сканированием веб-страниц. Одним из них является убеждение, что очистка веб-сайта означает, что вы его взломали. Хотя взлом может в конечном итоге привести к очистке данных, утверждение, что этот термин сам по себе означает взлом веб-сайта, не соответствует действительности.

Очистка веб-страниц может включать использование специальных инструментов обхода или очистки , интерфейсов прикладного программирования (API) или скриптов очистки веб-страниц для получения визуализированных данных с веб-сайта. В отличие от взлома, он не ставит под угрозу веб-сайт, который очищает, и не мешает работе пользователей.

Связанный: Что такое веб-скрапинг? Как собирать данные с веб-сайтов

Таким образом, в то время как взлом предполагает несанкционированный доступ, обычно к базе данных веб-сайта, веб-парсинг нацелен только на данные, которые уже видны на интерфейсе пользователя. Хотя люди могут злонамеренно использовать веб-скрапинг, это все же не синоним взлома.

В дополнение к этому, в отличие от веб-скрапинга, преднамеренный и неэтичный взлом является незаконным.

Какие плюсы у веб-скрапинга?

У парсинга веб-страниц много положительных моментов, и даже некоторые технологические компании теперь предлагают свои данные бесплатно через API. Этой информации обычно недостаточно для оценки тенденций в бизнесе и принятия решений.

Таким образом, теперь компании получают больше данных, очищая Интернет, чтобы улучшить практику и увеличить продажи. Кроме того, специалисты по обработке данных вводят в алгоритмы машинного обучения данные, собранные с помощью парсинга экрана.

Такие данные могут быть изображениями, используемыми при распознавании изображений, обычным текстом для анализа настроений или прямыми данными о продукте для анализа рынка и поведения потребителей.

По теме: Уникальные способы получения наборов данных для вашего проекта машинного обучения

Так что веб-скрапинг даже более полезен, потому что, если у вас есть доступ к информации, которой нет у вашего конкурента, вы можете победить его.

В то время как некоторые сайты недовольны веб-парсерами, некоторые, даже службы электронной коммерции, не заботятся о том, очищаете ли вы их данные или нет. Веб-гиганты, такие как eBay и Salesforce, запустили свой API в 2000 году, впервые предложив программистам доступ к общедоступным данным.

Стоит ли на самом деле чистить Интернет?

Мы установили, что очистка веб-страниц не является незаконной, если все сделано правильно. Но то, что вы делаете с очищаемыми данными, также вызывает беспокойство. Поэтому вместо того, чтобы злоупотреблять этим, используйте его, чтобы получить больше идей, которые помогут вам и другим принимать обоснованные решения.

Тем не менее, веб-скрапинг как навык дает вам доступ к большим объемам интернет-данных, что может помочь вам или вашей компании оставаться выше своей бизнес-ниши. Как специалист по данным, он даже расширяет ваши возможности и улучшает ваши навыки программирования и технические навыки.

Например, Python – один из языков программирования, который помогает легко очищать веб-сайт с помощью библиотеки Beautiful Soup или фреймворка Scrapy.