Единственные из Украины номинированы на премию Google Premier Partner Awards

+380 44 538-01-61



Отправьте заявку
и получите предложение

Форма заявки

Оставьте заявку. Наш специалист изучит вашу задачу и перезвонит, чтобы уточнить детали.


Отправьте заявку
и получите предложение

Как защитить сайт от парсинга ботами?

Как защитить сайт от парсинга ботами?

Геннадий

Эдуард Пронин



15 января 2013

Вопрос парсинга контента ботами настолько сложный и комплексный, что ответить на него развернуто не получиться ни в «совете» ни даже в полноценной статье.

Попробую ответить кратко.

В первую очередь: зачем кому-то парсить ваш контент? Очевидно, чтобы использовать в своих целях.

Методы достижения этих целей условно можно разделить на белые, серо-чёрные и иные.

Первый случай: белые методы — парсится непроиндексированный уникальный контент и поститься на своём ресурсе. У вас целенаправленно выискивают уникальный контент и воруют его и не факт, что после индексации вы будете его первоисточником в глазах поисковой системы. В итоге вы теряете ценный контент, траффик и возможно позиции.

Второй случай: серые/чёрные методы — с напаршенного тематического контента синдицируется новый, который используется на «серых/чёрных» сайтах. Конечно в спаршенный контент также могут попасть и ваши непроиндексированные статьи, однако они не являются целью заказчика парсинга. Так что в глобальном смысле главный недостаток тут — нагрузка на сервер со стороны ботов и расходование траффика (это актуально для больших «статейных» ресурсов). Согласно исследованию Distil Networks, около трети траффика некоторых больших сайтов составляет деятельность ботов.

Третий случай: иные цели — например, парсинг цен конкурентов для более эффективного ценообразования, парсинг контента для его агрегации ( сервисы сравнения цен, агрегации вакансий).

Рассмотрим способы защиты. Начнём с главного — при грамотном парсинге вам никогда не удастся от него защититься. Использование большого количества белых прокси, низкая частота обращений, эмуляция браузера, смена юзер-агента — охота на такого бота превратит вас в героя романа «Моби Дик», безумного капитана китобойного судна Ахава (кит победит, а капитан умрёт). Такой «качественный» парсинг, используется как правило в первом и третьем из представленных выше случаев. Почему не второй? Потому что серые/черные методы предполагают сбор большого количества информации, и никто не будет парсить вас с тайм-аутом в 3-10 секунд. К счастью, большинство владельцев ботов совершают ошибки, которыми мы и воспользуемся.

В первую очередь убедитесь что ваш контент быстро индексируется. Это сразу решит многие проблемы и принесёт вашему сайту ощутимую пользу. Автоматически обновляйте карту сайта, добавляйте новые страницы в addurl поисковых систем, заведите и прокачивайте twitter-аккаунт, куда постите анонсы материалов с ссылками на них. На практике получалось вогнать страницу в индекс Yandex Twitter-ом менее чем за час. Если говорить о Google, то для него неплохо работает загон через платформу Blogger. Заведите блог, периодически постите туда краткие анонсы с ссылками. Это защитит ваш контент от воровства.

От топорного автоматического сбора поможет анализ логов сервера (анализатором). Возможно парсинг производится с одних и тех же ip, или бот выдаёт себя по user-agent. Тогда бот-траффик можно будет с лёгкостью выявить и «убить» через .htaccess. Также не лишним будет добавить ограничение на частоту обращений.

От продвинутого автоматического сбора может помочь динамические изменения в HTML-коде страницы. Переименование классов, добавление пустых блоков. Это может защитить вас от повторного парсинга, если злоумышленнику важна чистота контента.

Существует также и «экзотика»: верификация через Cookies или JavaScript, обфускация кода, однако по-моему мнению они создают больше проблем чем несут пользы, кроме того они целесообразны только для больших контент-порталов (например, статейных), которые сами в состоянии разобраться что им использовать, а что нет.

Вот, в целом всё, желаю удачи в защите вашей информации!

Теги: SEO, внутренняя оптимизация