🥇 Победители в номинации Search Innovation
Google Premium Partner Award

Настройка robots.txt: возможности и реальные угрозы

Автор:
Оптимизатор
Рецензент:
Руководитель оптимизаторов
5,00 1 оценка
3 388 9 комментариев ,

На сегодняшний день поисковые системы — это один из самых простых и эффективных способов быстро найти ответ на интересующий вопрос, узнать последние новости или приобрести товар, который очень сложно отыскать в торговой сети. Но давайте посмотрим на поисковую систему глазами владельцев веб-ресурсов. Существуют довольно качественные и полезные сайты, до которых пользователь просто не доходит из-за того, что они и близко не попадают в ТОП-10 и даже ТОП-50 поисковой выдачи.

Порой и отлично оптимизированные ресурсы с прекрасным рейтингом и уровнем доверия поисковых систем могут ранжироваться довольно плохо. Одной из основных причин этого является наличие большого количества дублей и «бесполезных» (с точки зрения поисковых систем) страниц в индексе.

Основным и наиболее оптимальным инструментом для борьбы с дублями всегда был стандарт robots.txt. Основное его предназначение — исключение из индекса нежелательных страниц, что очень актуально для эффективного и результативного продвижения сайта в поисковых системах. Не станем детально останавливаться на теоретическом описании назначения и синтаксиса этого файла. Об этом можно прочитать на англоязычном и русскоязычном тематических ресурсах. Мы же подробно рассмотрим практическую сторону применения этого стандарта при продвижении в поисковой системе Google.

Плюсы

  • Запрет на индексирование отдельных страниц, файлов и каталогов.
  • Возможность настроить разрешение на индексирование отдельных файлов в каталоге, который закрыт от индексации (указание директивы «Allow» после соответствующей директивы «Disallow»).
  • Простота использования в сравнении, например, с мета-тегом <meta name=«robots»> (его необходимо указывать на каждой странице, которую нужно закрыть от индексации, в то время как файл robots.txt позволяет закрывать целые каталоги).
  • Возможность закрытия всего сайта от индексации путем указания директивы «Disallow: /» (закрытие тестовой версии перед тем, как «выкатить» обновленный сайт).

Минусы

Попадание во второстепенный индекс

Страницы, закрытые от индексации, скорее всего, все равно попадут в индекс Google. В частности, эти страницы можно найти во второстепенном индексе поисковика, сделав запрос с помощью оператора «site:my-site.com» и нажав «Показать скрытые результаты».

Такие страницы в индексе будут иметь соответствующее описание под ссылкой на них:

Как известно, наличие большого количества страниц во второстепенном индексе — это и более медленная индексация сайта со стороны Google, и снижение позиций в результатах поиска за счет того, что на сайте, по мнению поисковика, есть много «бесполезных» для пользователя страниц, и т. п.

Некорректное прочтение файла поисковиком

Еще одним существенным недостатком является то, что Google может некорректно прочитать информацию в файле robots.txt. Из-за этого нормальные страницы также могут попасть во второстепенный индекс.

Например, вот директивы, которые указаны в файле robots.txt сайта, А:

А вот ситуация, которая наблюдается в индексе Google при запросе с помощью оператора «site»:

Как следует из содержания файла robots.txt для сайта, А и скриншота индекса поисковой системы, во второстепенном индексе Google присутствуют страницы с сообщением «Описание веб-страницы недоступно из-за ограничений в файле robots.txt». Хотя четко видно, что такие страницы не закрыты от индексации. Кроме того, они отлично оптимизированы, имеют уникальный контент, и наличие их в основном индексе могло бы положительно повлиять на ранжирование сайта в целом.

Советы

Во-первых, с помощью оператора «site» всегда проверяйте наличие нужных страниц в основном индексе. Во-вторых, используйте следующие способы для запрещения индексации отдельных страниц.

  • Указывайте в блоке <head> мета-тег <meta name=«robots»>

С помощью этого тега можно полностью закрыть страницы от индексации и запретить поисковому роботу переходить по ссылкам на этой странице:

Результат: поисковый робот не проиндексирует содержимое страницы и не будет переходить по ссылкам на этой странице (оптимально будет, например, для закрытия страниц с внешними ссылками на партнеров);

Также <meta name=«robots»> позволяет полностью закрыть страницы от индексации, но разрешить поисковому роботу переходить по ссылкам на этой странице:

Результат: робот не проиндексирует содержимое страницы, но будет переходить по ссылкам на этой странице и индексировать содержание тех страниц, на которые эти ссылки ведут. Оптимально будет для закрытия ненужных страниц фильтрации, сортировки и пагинации. При этом робот будет переходить на страницы товаров и индексировать их содержание.

Недостатком данного способа является то, что страницы, на которых прописан этот мета-тег, не всегда закрыты от индексации. Бывают случаи, когда содержимое таких страниц успешно индексируется Google. В таком случае «для подстраховки» можно прибегнуть к еще одному методу, который описан ниже.

  • Указывайте атрибут <link rel=«canonical»> для страниц, дублирующих содержание канонической страницы

Это хорошо работает не только для полных дублей страницы (например, версии для печати), но и для частичных дублей. Например, на сайте есть несколько страниц для одного и того же товара, представленного в разных цветовых вариантах. Оптимально при этом будет выбрать одну из таких страниц как основную (например, товар в наиболее популярной расцветке), а на остальных страницах в атрибуте <link rel=«canonical»> указать ее как каноническую.

  • Удаляйте ненужные страницы, которые уже попали в индекс поисковой системы, при помощи инструмента в панели для вебмастеров Google Webmasters Tools: «Удалить URL-адреса»

При помощи этого инструмента можно удалить не только конкретную страницу из индекса Google, но и все страницы в этом каталоге, конкретные изображения или даже весь сайт. Единственный совет: тщательно ознакомьтесь с рекомендациями Google по его использованию.

  • «Склеивайте» дубли при помощи 301-го серверного редиректа

Рекомендация: после настройки 301-го редиректа на соответствующие страницы необходимо отправить запрос на индексацию старой страницы через инструмент Google Webmasters Tools «Просмотреть как Googlebot».

В последнее время новые страницы после 301-го редиректа попадают в индекс на протяжении 1–3 дней с момента отправки запроса. Единственный нюанс: лучше не закрывать от индексации старые страницы, ведь тогда поисковый робот не сможет на них попасть и «склеить» с нужной нам страницей.

  • Используйте http-заголовок rel=«canonical»

Применение этого способа будет оптимально для различных типов файлов с разнообразными расширениями: .pdf, .xls и др.

Подводя итог, отмечу, что проблема борьбы с дублями всегда была и является актуальной для любого SEO-специалиста. Поэтому не бойтесь экспериментировать, использовать различные варианты борьбы с дублями, оценивать результаты и делать выводы, исходя из практики, а не основываясь на голой теории.

  • К сожалению много cms в вопросе с дублями просто не ознакомлены. Если взять туже Joomla 1.0.x — это вообще ужас. У самого есть сайт с 2008 года, достаточно большой. Дублей масса, как я бы с ними не боролся — все равно все закрыть не выходит. А взять DLE, сколько хаков я делал, вроде справился.
    В принципе в статье для себя ничего не подчеркнул, т.к. к каждой CMS требуется индивидуальный подход, а у вас в общих чертах. Но все же считаю ее полезной. Пишите чаще в свой блог :)
    з.ы.Писал когда-то статейку о семантическом ядре для бывалого сайта. Вот у вас я никак не могу найти статей о семантическом ядре! Наверное названия хитрые :) Дайте ссылку!

  • А есть способ массово удалить из индекса Google страницы запрещенные в robots.txt (они попали в дополнительный индекс)? Прописал для них но они уже больше месяца все равно держаться в индексе. Удалять по одной вручную слишком долго. Отдавать для них 404-ошибку как-то идеологически не правильно. Есть еще рабочий способ?

  • Осн. типичные случаи разобрали хорошо? спасибо.
    А что делать когда недопоисковики генерируют на сайт 100+ ссылок на несуществующие страницы вида «http://site.com/novost-o-pr…» и которые в Гугл.вебмастере как ошибки ?

  • Владислав Дмитрук

    Скорее всего после того как Вы прописали для этих страниц робот Google к ним ещё не добрался и соответсвенно, он ещё не знает, что они закрыты от индексации.

    Если же он их проиндексировал после того, как вы закрыли их с помощью robots, но при этом они все равно в основном индексе, значит вы что-то сделали не так.

  • Владислав Дмитрук

    Если таких страниц не много, попробуйте удалить их вручную через GWT. Либо настройте на сайте 301 редирект на главную страницу со всех несуществующих вхождений.

  • 301 на главную чревато!
    вручную, так это постоянно удалять надо (и не эффективно)!

  • Владислав Дмитрук

    Если у Вас есть методы которые позволят решить описанную выше проблему максимально эффективно, то поделитесь ими со всем честным народом :)

  • Makar

    Не думаю, что сделано что-то не так. Более эффективный способ — это прописать rel=canonical на тех страницах, на него гуглбот лучше и быстрее реагирует нежели на мета-роботс (главное, чтобы после прописания каноникала гуглбот эти страницы увидел).

    Владислав, по поводу того, что после закрытия в роботсе страницы все равно в индексе — так это уже старая практика. Неужели, работая оптимизатором, не видите выдачу?! Там даже в ТОП по некоторым запросам находятся страницы, закрытые в robots! И как по-вашему — это вебмастер что-то не так сделал?! Или может, все таки, Google отжигает?!!

  • Makar

    К сожалению, от растущего кол-ва непонятных 404 и я страдаю:(

    Они появляются непонятно где и благополучно индексируются, пока вижу один способ — проверять и исправлять вручную в GWT.

    301 на главную со всех несуществующих?! Владислав, прочитайте статью, может немного яснее для Вас станет SEO-продвижение:

    http://www.searchengines.ru/articles/kak_polnostyu_unichtogit_ili_spasti_sait_s_pomoschyu_pereadresaciy.html