Как защитить сайт от парсинга ботами?
Как защитить сайт от парсинга ботами?
Геннадий
Эдуард Пронин
15 января 2013
Вопрос парсинга контента ботами настолько сложный и комплексный, что ответить на него развернуто не получиться ни в «совете» ни даже в полноценной статье.
Попробую ответить кратко.
В первую очередь: зачем кому-то парсить ваш контент? Очевидно, чтобы использовать в своих целях.
Методы достижения этих целей условно можно разделить на белые, серо-чёрные и иные.
Первый случай: белые методы — парсится непроиндексированный уникальный контент и поститься на своём ресурсе. У вас целенаправленно выискивают уникальный контент и воруют его и не факт, что после индексации вы будете его первоисточником в глазах поисковой системы. В итоге вы теряете ценный контент, траффик и возможно позиции.
Второй случай: серые/чёрные методы — с напаршенного тематического контента синдицируется новый, который используется на «серых/чёрных» сайтах. Конечно в спаршенный контент также могут попасть и ваши непроиндексированные статьи, однако они не являются целью заказчика парсинга. Так что в глобальном смысле главный недостаток тут — нагрузка на сервер со стороны ботов и расходование траффика (это актуально для больших «статейных» ресурсов). Согласно исследованию Distil Networks, около трети траффика некоторых больших сайтов составляет деятельность ботов.
Третий случай: иные цели — например, парсинг цен конкурентов для более эффективного ценообразования, парсинг контента для его агрегации ( сервисы сравнения цен, агрегации вакансий).
Рассмотрим способы защиты. Начнём с главного — при грамотном парсинге вам никогда не удастся от него защититься. Использование большого количества белых прокси, низкая частота обращений, эмуляция браузера, смена юзер-агента — охота на такого бота превратит вас в героя романа «Моби Дик», безумного капитана китобойного судна Ахава (кит победит, а капитан умрёт). Такой «качественный» парсинг, используется как правило в первом и третьем из представленных выше случаев. Почему не второй? Потому что серые/черные методы предполагают сбор большого количества информации, и никто не будет парсить вас с тайм-аутом в
В первую очередь убедитесь что ваш контент быстро индексируется. Это сразу решит многие проблемы и принесёт вашему сайту ощутимую пользу. Автоматически обновляйте карту сайта, добавляйте новые страницы в addurl поисковых систем, заведите и прокачивайте twitter-аккаунт, куда постите анонсы материалов с ссылками на них. На практике получалось вогнать страницу в индекс Yandex Twitter-ом менее чем за час. Если говорить о Google, то для него неплохо работает загон через платформу Blogger. Заведите блог, периодически постите туда краткие анонсы с ссылками. Это защитит ваш контент от воровства.
От топорного автоматического сбора поможет анализ логов сервера (анализатором). Возможно парсинг производится с одних и тех же ip, или бот выдаёт себя по user-agent. Тогда бот-траффик можно будет с лёгкостью выявить и «убить» через .htaccess. Также не лишним будет добавить ограничение на частоту обращений.
От продвинутого автоматического сбора может помочь динамические изменения в HTML-коде страницы. Переименование классов, добавление пустых блоков. Это может защитить вас от повторного парсинга, если злоумышленнику важна чистота контента.
Существует также и «экзотика»: верификация через Cookies или JavaScript, обфускация кода, однако по-моему мнению они создают больше проблем чем несут пользы, кроме того они целесообразны только для больших контент-порталов (например, статейных), которые сами в состоянии разобраться что им использовать, а что нет.
Вот, в целом всё, желаю удачи в защите вашей информации!
Теги: SEO, внутренняя оптимизация