+380 44 538-01-61



Отправьте заявку
Получите предложение

Форма заявки

Оставьте заявку. Наш специалист изучит вашу задачу и перезвонит, чтобы уточнить детали.


Отправьте заявку
Получите предложение

Как защитить сайт от парсинга ботами?

Как защитить сайт от парсинга ботами?

Геннадий

Эдуард Пронин



15 января 2013

Вопрос парсинга контента ботами настолько сложный и комплексный, что ответить на него развернуто не получиться ни в «совете» ни даже в полноценной статье.

Попробую ответить кратко.

В первую очередь: зачем кому-то парсить ваш контент? Очевидно, чтобы использовать в своих целях.

Методы достижения этих целей условно можно разделить на белые, серо-чёрные и иные.

Первый случай: белые методы — парсится непроиндексированный уникальный контент и поститься на своём ресурсе. У вас целенаправленно выискивают уникальный контент и воруют его и не факт, что после индексации вы будете его первоисточником в глазах поисковой системы. В итоге вы теряете ценный контент, траффик и возможно позиции.

Второй случай: серые/чёрные методы — с напаршенного тематического контента синдицируется новый, который используется на «серых/чёрных» сайтах. Конечно в спаршенный контент также могут попасть и ваши непроиндексированные статьи, однако они не являются целью заказчика парсинга. Так что в глобальном смысле главный недостаток тут — нагрузка на сервер со стороны ботов и расходование траффика (это актуально для больших «статейных» ресурсов). Согласно исследованию Distil Networks, около трети траффика некоторых больших сайтов составляет деятельность ботов.

Третий случай: иные цели — например, парсинг цен конкурентов для более эффективного ценообразования, парсинг контента для его агрегации ( сервисы сравнения цен, агрегации вакансий).

Рассмотрим способы защиты. Начнём с главного — при грамотном парсинге вам никогда не удастся от него защититься. Использование большого количества белых прокси, низкая частота обращений, эмуляция браузера, смена юзер-агента — охота на такого бота превратит вас в героя романа «Моби Дик», безумного капитана китобойного судна Ахава (кит победит, а капитан умрёт). Такой «качественный» парсинг, используется как правило в первом и третьем из представленных выше случаев. Почему не второй? Потому что серые/черные методы предполагают сбор большого количества информации, и никто не будет парсить вас с тайм-аутом в 3-10 секунд. К счастью, большинство владельцев ботов совершают ошибки, которыми мы и воспользуемся.

В первую очередь убедитесь что ваш контент быстро индексируется. Это сразу решит многие проблемы и принесёт вашему сайту ощутимую пользу. Автоматически обновляйте карту сайта, добавляйте новые страницы в addurl поисковых систем, заведите и прокачивайте twitter-аккаунт, куда постите анонсы материалов с ссылками на них. На практике получалось вогнать страницу в индекс Yandex Twitter-ом менее чем за час. Если говорить о Google, то для него неплохо работает загон через платформу Blogger. Заведите блог, периодически постите туда краткие анонсы с ссылками. Это защитит ваш контент от воровства.

От топорного автоматического сбора поможет анализ логов сервера (анализатором). Возможно парсинг производится с одних и тех же ip, или бот выдаёт себя по user-agent. Тогда бот-траффик можно будет с лёгкостью выявить и «убить» через .htaccess. Также не лишним будет добавить ограничение на частоту обращений.

От продвинутого автоматического сбора может помочь динамические изменения в HTML-коде страницы. Переименование классов, добавление пустых блоков. Это может защитить вас от повторного парсинга, если злоумышленнику важна чистота контента.

Существует также и «экзотика»: верификация через Cookies или JavaScript, обфускация кода, однако по-моему мнению они создают больше проблем чем несут пользы, кроме того они целесообразны только для больших контент-порталов (например, статейных), которые сами в состоянии разобраться что им использовать, а что нет.

Вот, в целом всё, желаю удачи в защите вашей информации!

Теги: SEO, внутренняя оптимизация