Настройка robots.txt: возможности и реальные угрозы

Автор: Юлия Кравченко

Оптимизатор

Рецензент: Олег Гаврилюк

Руководитель оптимизаторов

5,00

— 1 оценка

24 июля 2013 9 комментариев внешняя оптимизация, поисковые системы

Настройка robots.txt: возможности и реальные угрозы

На сегодняшний день поисковые системы — это один из самых простых и эффективных способов быстро найти ответ на интересующий вопрос, узнать последние новости или приобрести товар, который очень сложно отыскать в торговой сети. Но давайте посмотрим на поисковую систему глазами владельцев веб-ресурсов. Существуют довольно качественные и полезные сайты, до которых пользователь просто не доходит из-за того, что они и близко не попадают в ТОП-10 и даже ТОП-50 поисковой выдачи.

Порой и отлично оптимизированные ресурсы с прекрасным рейтингом и уровнем доверия поисковых систем могут ранжироваться довольно плохо. Одной из основных причин этого является наличие большого количества дублей и «бесполезных» (с точки зрения поисковых систем) страниц в индексе.

Основным и наиболее оптимальным инструментом для борьбы с дублями всегда был стандарт robots.txt. Основное его предназначение — исключение из индекса нежелательных страниц, что очень актуально для эффективного и результативного продвижения сайта в поисковых системах. Не станем детально останавливаться на теоретическом описании назначения и синтаксиса этого файла. Об этом можно прочитать на англоязычном и русскоязычном тематических ресурсах. Мы же подробно рассмотрим практическую сторону применения этого стандарта при продвижении в поисковой системе Google.

Плюсы

Запрет на индексирование отдельных страниц, файлов и каталогов.
Возможность настроить разрешение на индексирование отдельных файлов в каталоге, который закрыт от индексации (указание директивы «Allow» после соответствующей директивы «Disallow»).
Простота использования в сравнении, например, с мета-тегом <meta name=«robots»> (его необходимо указывать на каждой странице, которую нужно закрыть от индексации, в то время как файл robots.txt позволяет закрывать целые каталоги).
Возможность закрытия всего сайта от индексации путем указания директивы «Disallow: /» (закрытие тестовой версии перед тем, как «выкатить» обновленный сайт).

Robot vs Robot

Минусы

Попадание во второстепенный индекс

Страницы, закрытые от индексации, скорее всего, все равно попадут в индекс Google. В частности, эти страницы можно найти во второстепенном индексе поисковика, сделав запрос с помощью оператора «site:my-site.com» и нажав «Показать скрытые результаты».

Скрытые результаты

Такие страницы в индексе будут иметь соответствующее описание под ссылкой на них:

Описание недоступно

Как известно, наличие большого количества страниц во второстепенном индексе — это и более медленная индексация сайта со стороны Google, и снижение позиций в результатах поиска за счет того, что на сайте, по мнению поисковика, есть много «бесполезных» для пользователя страниц, и т. п.

Некорректное прочтение файла поисковиком

Еще одним существенным недостатком является то, что Google может некорректно прочитать информацию в файле robots.txt. Из-за этого нормальные страницы также могут попасть во второстепенный индекс.

Например, вот директивы, которые указаны в файле robots.txt сайта, А:

"]Disallow: /menus/view/223/

Disallow: /admins/

Disallow: /*?*

А вот ситуация, которая наблюдается в индексе Google при запросе с помощью оператора «site»:

Выдача Google

Как следует из содержания файла robots.txt для сайта, А и скриншота индекса поисковой системы, во второстепенном индексе Google присутствуют страницы с сообщением «Описание веб-страницы недоступно из-за ограничений в файле robots.txt». Хотя четко видно, что такие страницы не закрыты от индексации. Кроме того, они отлично оптимизированы, имеют уникальный контент, и наличие их в основном индексе могло бы положительно повлиять на ранжирование сайта в целом.

Советы

Во-первых, с помощью оператора «site» всегда проверяйте наличие нужных страниц в основном индексе. Во-вторых, используйте следующие способы для запрещения индексации отдельных страниц.

Указывайте в блоке <head> мета-тег <meta name=«robots»>

С помощью этого тега можно полностью закрыть страницы от индексации и запретить поисковому роботу переходить по ссылкам на этой странице:

1	"]<meta name=«robots» content=«noindex, nofollow»>

Результат: поисковый робот не проиндексирует содержимое страницы и не будет переходить по ссылкам на этой странице (оптимально будет, например, для закрытия страниц с внешними ссылками на партнеров);

Также <meta name=«robots»> позволяет полностью закрыть страницы от индексации, но разрешить поисковому роботу переходить по ссылкам на этой странице:

1	"]<meta name=«robots» content=«noindex, follow»>

Результат: робот не проиндексирует содержимое страницы, но будет переходить по ссылкам на этой странице и индексировать содержание тех страниц, на которые эти ссылки ведут. Оптимально будет для закрытия ненужных страниц фильтрации, сортировки и пагинации. При этом робот будет переходить на страницы товаров и индексировать их содержание.

Недостатком данного способа является то, что страницы, на которых прописан этот мета-тег, не всегда закрыты от индексации. Бывают случаи, когда содержимое таких страниц успешно индексируется Google. В таком случае «для подстраховки» можно прибегнуть к еще одному методу, который описан ниже.

Указывайте атрибут <link rel=«canonical»> для страниц, дублирующих содержание канонической страницы

Это хорошо работает не только для полных дублей страницы (например, версии для печати), но и для частичных дублей. Например, на сайте есть несколько страниц для одного и того же товара, представленного в разных цветовых вариантах. Оптимально при этом будет выбрать одну из таких страниц как основную (например, товар в наиболее популярной расцветке), а на остальных страницах в атрибуте <link rel=«canonical»> указать ее как каноническую.

Удаляйте ненужные страницы, которые уже попали в индекс поисковой системы, при помощи инструмента в панели для вебмастеров Google Webmasters Tools: «Удалить URL-адреса»

При помощи этого инструмента можно удалить не только конкретную страницу из индекса Google, но и все страницы в этом каталоге, конкретные изображения или даже весь сайт. Единственный совет: тщательно ознакомьтесь с рекомендациями Google по его использованию.

«Склеивайте» дубли при помощи 301-го серверного редиректа

Рекомендация: после настройки 301-го редиректа на соответствующие страницы необходимо отправить запрос на индексацию старой страницы через инструмент Google Webmasters Tools «Просмотреть как Googlebot».

В последнее время новые страницы после 301-го редиректа попадают в индекс на протяжении 1–3 дней с момента отправки запроса. Единственный нюанс: лучше не закрывать от индексации старые страницы, ведь тогда поисковый робот не сможет на них попасть и «склеить» с нужной нам страницей.

Используйте http-заголовок rel=«canonical»

1	"]«Link: <http://www.<span class="nobr">my-site</span>.com>; rel=«canonical»

Применение этого способа будет оптимально для различных типов файлов с разнообразными расширениями: .pdf, .xls и др.

Подводя итог, отмечу, что проблема борьбы с дублями всегда была и является актуальной для любого SEO-специалиста. Поэтому не бойтесь экспериментировать, использовать различные варианты борьбы с дублями, оценивать результаты и делать выводы, исходя из практики, а не основываясь на голой теории.