Дублированный контент - причина низкого рейтинга

Предположим, что заходите в интернет-магазин в поисках требуемого товара и видите, что на аналогичных товарах полностью дублируются описания. В лучшем случае разница лишь в паре текстовых мест, где указана спецификация конкретной модификации. Это ситуация, о которой владелец бизнеса знает и регулярно выполняет дублирование сознательно. Однако это не значит, что это решение позитивно оправдано.

В иной ситуации поисковый бот заходит на сайт и из раза в раз растрачивает лимит на индексирование, но не проходит каждой значимой страницы. Это возникает, если много дублированных URL и механизм тратит ресурс в никуда.

В обоих случаях проблема в наличии дублей.

Дубль (дубль-контент) — это информация, которая полностью повторяется на разных страницах в пределах одного интернет-ресурса.

Если на сайте дубль-контент встречается один-два раза, то ситуацию считают рядовой, но в массе это становится серьезной проблемой. Разберемся, почему так и как справляться с подобным.

Причины и следствия

Причинами появления дублей на сайте становятся следующие моменты:

  • наличие n-нного количества однотипных товаров;
  • наличие перенаправлений в множестве вариаций;
  • некорректная отработка скриптов и плагинов при формировании URL страниц;
  • ошибки в системном файле robot.txt;
  • использование неконтролируемой пагинации (разбиение массива информации на блоки и страницы);
  • переезд интернет-ресурса на иной домен или протокол и проч.

Причины в массе делятся на информационные и технические.

Информационные, как правило, менее распространены в пределах интернет-ресурса, легко выявляются и исправляются.

С техническими ошибками ситуация запутанней. Ведь, во-первых, такую ошибку надо засечь и выявить. Во-вторых, требуется разобраться с причинами и исключить возникновение впоследствии. Однако если техническое распространение дублей связано с особенностями CMS интернет-ресурса или подключенными плагинами, то регулярно требуется ощутимая переработка механизма публикации и генерации контента.

Наиболее сложны в нахождении ошибки, связанные с настройкой массовых перенаправлений и генерацией новых URL при наличии или отсутствии символа слеш, т. к. визуально нетренированный человек не замечает разницы.

В итоге, невзирая на причину, следствия закономерны:

  • ошибки и некорректные ссылки как внутри интернет-ресурса, так и с внешних источников;
  • замедление индексации интернет-ресурса;
  • снижение рейтинга, выставляемого поисковыми ботами;
  • падение позиций юзабилити за счет наличия неуникального контента и проч.

Таким образом, наибольшие проблемы дублированный контент проявляет при обнаружении поисковым ботом при индексации сайта. Ведь каждая страница требует индексации, которая занимает конкретное время и технический ресурс. Бот тратит время на однотипные страницы, а до существенных не добирается. Да и, видя повторение контента, уже обработанному присваивает малый рейтинг. Позиции интернет-ресурса в списке Яндекса и Google мгновенно падают. Процесс же восстановлении предстоит длительный, поэтому продуктивней подобного не допускать и пресекать изначально.

Способы обнаружения

Не каждый владелец бизнеса понимает, что его сайт содержит дубль-контент. Ведь не каждый проходит по массе имеющихся страниц, особенно в масштабных интернет-магазинах, или не понимает, что накапливается техническая ошибка.

Поэтому каждый сайт нуждается в регулярной проверке на наличие дублей. Для этого разработаны стандартные плагины поисковых алгоритмов: Яндекс.Вебмастер или Google Search Console. Обе системы проводят тщательный анализ интернет-ресурса и выдают в отчете список «сомнительных» страниц.

Помимо стандартных в наличии и специализированные приложения и плагины. Среди них распространено использование сервиса NetPeak Spider или Screaming Frog SEO Spider.

Методы избавления

Выявив дубль-страницы, сразу начинайте работу по исключению. Если дубли информационные и не массовые, то удаляем и исправляем вручную, если техническая причина, то параллельно с исправлением перерабатывают механизм возникновения, чтобы исключить в первую очередь причину и обезопасить сайт на будущее.

Разберем конкретные ситуации.

Дубли в описаниях товаров

Как писали выше масштабные интернет-магазины с массой товаров — логичный источник дубль-контента. Причем дело не только в текстовых описаниях, но и самом списке характеристик. Поисковый бот споро увязнет в одинаковых значениях и потратит лимит запросов на индексацию в пустую.

Для исключения подобного либо создают список правил для генерации подобных страниц, либо дублирующиеся блоки закрывают специализированными тэгами, например, <noindex>. Таким образом, сайт дает поисковому боту понимание: нет смысла повторно просматривать аналогичное, тратить лимит и снижать рейтинг за счет неуникальности.

Страницы с пагинацией

Ряд сайтов частично или полностью представляют собой вариант работы с пагинацией, т. е. страница (главная или лэндинг) разделяется на смысловые блоки. Каждый такой блок при неправильной настройке поисковым ботом рассматривается как отдельная страница, но при этом свойства и проч. информация дублируется.

Для того чтобы избегать подобной проблемы рекомендуется:

  • устанавливать для блоков ссылочный атрибут rel="canonical";
  • прописывать уникальный заголовок H1 и метатеги title и description.

Причем точного алгоритма, как Яндекс и Google воспринимают указанные способы нет. Поэтому лучше использовать оба варианта на случай, если один не сработает и поисковый бот ошибочно посчитает информацию дублированной.

Проблема с URL

Проблему с дублированием по URL считают одной из главных и регулярно встречаемых. Алгоритмы CMS или подключаемые технические утилиты создают на интернет-ресурсе страницы, которые по-разному создают адреса страниц. Для части в адресной строке в конце проставлен слеш, для части — нет. В итоге при отсутствии единообразия на сайте появляется как минимум по 2 копии одной страницы.

Для избегания подобных ситуаций и при наличии некорректного действия веб-программист настраивает отдельно на будущее единообразный вид. Для текущих ссылок корректно проверить каких больше (со слешем или без), а или те варианты, вид которых чаще используются в кампаниях по продвижению, принять за основной.

Если убрать изначально вариант создания дублей не получается, то следует настроить автоматическое перенаправление по коду 301 для «неподходящих» вариантов. Это отсекает их из индексирования поисковым ботом.

Подобные же ситуации возникают при переезде интернет-ресурса, например, с домена типа www на вариант без него или переход с протокола HTTP на HTTPS. В указанных случаях также возникают страницы дубли, вредные для поисковой репутации сайта. Решение: аналогичная настройка перенаправлений по коду 301. В этом случае один вариант сайта принимают за основной, а второй объявляют его «зеркалом» и настраивают полный спектр перелинковки.

Дублирование товаров

Подобные ситуации возникают регулярно при соответствующей настройке рекламных кампаний. В этом случае ходовые товары для сокращения ссылки размещают не только по органичному пути в каталоге, но и по сокращенной ссылке, например с указанием только главной страницы сайта или корневого раздела каталога.

Для отсечения негативного следствия таких ситуаций прибегают к простановке ссылок с атрибутом типа canonical, как в варианте с пагинацией.

Динамический URL

Регулярно на сайтах встречается вариант расширения URL страниц за счет динамического CGI-параметра. Визуально это выражается в том, что URL удлиняется за счет добавления знака вопроса и вызова дополнительных функций. Например, вариант страницы для печали выглядит как: «https://site.ru/page/?print=1». Таким образом, в наличии для индексации 2 дублированные страницы.

Избавление от страниц подробного типа осуществляется с использованием специализированных директив Clean-param или disallow. В этом случае основной считается страница с «чистым» URL, а остальные не индексируются дополнительно.

Резюме

Возникновения страниц с дублированным контентом — естественная процедура для каждого интернет-ресурса. В связи с наличием ряда негативных для рейтинга и репутации последствий, она нуждается в отдельном контроле. На практике выяснено, что единого алгоритма избавления нет. Каждый владелец бизнеса выбирает собственный вариант «борьбы».

Однако не стоит забывать, что алгоритмы для выставления поискового рейтинга для Яндекс и Google различаются. Поэтому профессионалы знают, что использовать единый механизм исключения дублей не получится. Яндекс предпочитает работу с вариантами директивы disallow, а Google — разнообразные варианты атрибута rel. Если работают преимущественно для одного поисковика, то прорабатывают одну схему, если для обоих — придется внедрять несколько вариантов.

При этом также следует осторожно настраивать редиректы, т. к. чрезмерное их количество также влияет на работы интернет-ресурса и юзабилити. Поисковый бот проявляет осторожность и снижает рейтинг «на всякий случай».

Интернет-агентство U-sl+Мирмекс в обязательном порядке регулярно проверяет сайты наших клиентов на наличие и возникновения дублирования контента. Мы предлагаем подходящее решение в каждом конкретном случае в скором времени, чем поддерживаем высокий рейтинг и работоспособность сайтов.

С нами ваши сайты получают высокий поисковый рейтинг!

Готовы сделать что-нибудь невероятное?

Давайте начнем