Этот совет мог стать неактуальным, т. к. прошло много времени с момента публикации.

Как найти дублированный (неуникальный) контент на сайте?

Как найти дублирование контента на сайте (дубликаты контента)?

Светлана

employee Эдуард Пронин

27 ноября 2012

Вред от дублирования на сайте очевиден: неуникальный контент, по мнению Google, не несёт в себе ничего нового и полезного. Отображение его в результатах выдачи является нецелесообразным. Такие страницы попадают в дополнительный индекс (supplementary index) и участвуют в ранжировании с большими штрафами. Таким образом, засилье дублирующего контента на сайте не только лишает вас целевых посетителей по запросам, на которые страницы-дубли ориентированы, но и выступает в роли отрицательного фактора ранжирования для всего сайта.

Различают:

Полные дубли — одна и та же страница доступна в различных форматах написания (с и без www в начале или «/» в конце), при различных GET-параметрах в строке, написании адреса в различных регистрах, при установленном 302 редиректе на страницах-дублях. Чаще всего являются следствием недостатков CMS и некорректной настройки сервера.
Частичные дубли — блоки контента на различных страницах сайта полностью совпадают. Как правило, являются следствием ошибок совершенных при разработке структуры сайта. Проявляется чаще всего в виде дублирования содержимого на страницах фильтраций, сортировок и пагинаций, в виде превью статей или характеристик товара.

Как первый, так и второй тип дублирования может служить причиной попадания части страниц в дополнительный индекс поисковой системы, поэтому борьба с дублированием всегда требует безотлагательных мер.

Способы нахождения дублирования контента на сайте:

Инструменты для вебмастеров. В разделе «Оптимизация HTML» указаны повторяющиеся заголовки и метаописания. В случае полных дублей этот метод укажет на все совпадения, найденные в рамках проиндексированных страниц. Главным недостатком данного метода является его реактивность: невозможно осуществить корректирующие действия до того, как поисковая система обнаружит дублирование.
Программы Xenu и Screaming Frog. В случае, если сайт не проиндексирован, или вы не зарегистрированы в инструментах для вебмастеров от Google, дубли можно найти методом сканирования сайта этими программами с последующей сортировкой результатов по Title. Способ отлично подходит как для поиска полных дублей, так и для поиска неисправных ссылок. В то же время его существенным недостатком является то, что сканирование осуществляется в рамках ссылающихся страниц — то есть, если единственная ссылка на страницу нигде не указана, или доступ к ней затруднён, то такая страница не будет проиндексирована. Сканирование сайта происходит только в рамках связанной ссылками структуры сайта.
Анализ выдачи Google. Чаще всего поисковая система выбрасывает страницы-дубликаты из основной выдачи в дополнительную. Проведя поиск по названию домена с оператором site: и изучив страницы, находящиеся в «Скрытых результатах» внизу страницы, вы не только сможете найти полные и частичные дубли, но и определить, какие из страниц вашего сайта поисковая система считает некачественными.
Поиск части контента в рамках сайта. Вбив в поисковую строку фрагмент текста в кавычках с оператором site: (например, «Поисковое продвижение сайтов позволяет привлечь внимание». site:aweb.ua ), вы найдете все страницы, содержащие точное вхождение данного фрагмента текста на страницах вашего сайта.

Теги: SEO, внутренняя оптимизация