Дубликаты страниц: как найти и убрать
При оптимизации сайта важно убрать дубликаты, под которыми подразумеваются разделы с разными URL, но с одинаковым содержимым. Контент может повторяться полностью или частично, в любом случае это мешает продвижению ресурса в поисковой машине.
Содержание статьи
Почему дубли страницы — это опасно для вашего сайта
Главная опасность, которую создают дубли страниц, заключается в отсутствии раздела, максимально отвечающего поисковому запросу. В итоге робот не может определиться, что выбрать для выдачи результатов пользователю.
Последствия для SEO дублей страниц:
- низкая релевантность, что приводит к снижению позиций в поиске;
- общее падение позиций сайта в выдаче;
- «качели» в позициях поисковых машин — они связаны с постоянной сменой релевантности запросу пользователя.
«Я и моя команда Solarweb, как и все СЕО-оптимизаторы, считаем себя яростными борцами против клонов, мешающих продвижению»
Виды дубликатов страниц
Дубли содержимого контента бывают следующих видов:
- полные — когда на разных URL размещен абсолютно одинаковый контент страниц;
- частичные — в этом случае происходит неполное клонирование содержимого на разные страницы ресурса, в зависимости от его структуры.
Дополнительно я предлагаю рассмотреть смысловое клонирование, при котором несколько страниц или категорий виртуальной площадки несут одинаковый смысл, но при этом он преподнесен разными словами.
Правильное использование алгоритмов, как определить дубли страниц, позволит применить против них наиболее подходящий метод устранения.
Полные дубли страниц
Полное дублирование контента на сайте может быть следующих видов:
- Клоны главной страницы — основная их часть связана с особенностью CMS системы, ответственной за управление сайтом.
- Зеркальные отражения ресурса, которые могут содержать и не содержать в адресе «www». Важно при настройке выбирать главный вариант, чтобы избежать таких ошибок.
- Повторение рефералов. Ссылки такого типа копируют контент и оказываются доступными для индексации ботами поисковых машин. Соответственно, это приводит к появлению ненужных страничек в Гугле.
- Ошибки иерархии, которые также приводят к появлению клонов. Связано это со сбоями в составлении категорий и каталогов. В результате на разных URL могут существовать одинаковые разделы.
- Неверная настройка ошибки 404 приводит к ответу сервера 200, что влечет за собой повтор одинаковых страничек.
- Наличие адресов с двойными или тройными слэшами в УРЛ.
- Присутствие UTM-меток, которые содержат важные параметры для поднятия эффективности рекламных кампаний. Но при этом они создают полные клоны.
«Любые дубли требуют внимания оптимизатора — бездействие в их отношении приведет к быстрой потере позиций ресурса в поисковой выдаче»
Я рекомендую проверить сайт на дубли и при переезде на защищенный протокол, например, на https.
Возникновение клонов часто возникает на ресурсах, созданных на основе движка WordPress. Поисковые машины очень «не любят» возникновение таких ошибок, причем Гугл с легкостью накладывает фильтры на сайт при обнаружении на нем страничных клонов.
Главная особенность полных повторов — их легко обнаружить. Однако такое глобальное влияние может нанести серьезный вред виртуальной площадке и свести на «нет» весь труд оптимизатора.
Частичные дубликаты страниц
К частичным дубликатам ресурсов относятся следующие виды, опасные для СЕО-продвижения:
- результаты поисков по сайту: главная опасность тут в том, что пользователи могут генерировать большое количество копий за небольшой временной промежуток;
- разделы сортировки страниц и пагинации — в них, как правило, есть свой параметр «get», связаны они с особенностями CMS ресурса;
- дубли товарных категорий, обычно такие страницы не адаптированы для поиска, но при этом создаются как разделы фильтрации продукции интернет-магазина;
- отдельные категории, которые создаются для печати или скачивания, их главная цель — создать определенные удобства, однако являются они клонами (пример — http://wts.ru/seo https://wts.ru/seo/print);
- разделы отзывов, комментариев, характеристик — автоматически генерируются при выборе в товарной карточке;
- копии страниц по коду HTML, которые были созданы посредством AJAX.
Таким образом, поиск дублей частичного вида следует осуществлять, отталкиваясь от того, что они были сгенерированы CMS системой ресурса.
Частичные клоны отличаются от «тотальных» своим воздействием на продвижение. Те дубли, которые являются неполными, не сразу проявляют себя потерями позиций в поисковой выдаче. Но при этом они также сводят на ноль работу оптимизатора постепенным влиянием. В редких случаях обнаружить их присутствие удается уже в том случае, когда виртуальная площадка попала под фильтр поисковой машины.
Дополнительная сложность неполных повторов категорий и разделов — одинаковая семантика частичных копий. Это приводит к логичной конкуренции и каннибализации (таргет по одному и тому же слову) ключевых слов, что влечет за собой постепенную потерю позиций из-за трудностей с релевантностью.
Отношение алгоритма Google к дублям
Поисковик Google не жалует повторы страниц, особенно, если их количество слишком велико. С позиции разработчиков робота предполагается, что копии возникают в попытках оптимизатора или владельца ресурса манипулировать его рейтингом — ввести в заблуждение пользователя, заставив зайти и тем самым увеличить трафик.
Разумеется, я вовсе не исключаю ситуации, когда появление клона — результат банальных ошибок и системных сбоев. Но алгоритм робота устроен таким образом, что он будет выводить только уникальный контент. Появление повторов приводит к пересмотру рейтинга ресурса и понижению в результатах, вплоть до полного его игнорирования по релевантным запросам.
Как обнаружить дубли страниц на сайте
Поиск дублей страниц на сайте можно осуществлять различными способами. В качестве помощи я советую обратить внимание на признаки копий:
- разные протоколы http и https — http://сайт, https://сайт;
- наличие или отсутствие www — https://www.сайт, https://сайт;
- слэш на конце УРЛ — https://сайт, https://сайт/;
- множественные слэши на конце или в середине URL — https://сайт////, https://сайт/////категория;
- разные расширения УРЛ на конце — https://сайт.php, https://сайт.html;
- добавление произвольных символов, повышающих уровень сложности — https://сайт/3sda, https://сайт//категория3sda;
- добавление цифр в конце — https://сайт, https://сайт//345.
Встречаются копии с добавлением звездочки, дефиса/подчеркивания, отсутствующими уровнями или ошибками в них.
Ручной мониторинг
Поиск дублей страниц онлайн в поисковой выдаче можно осуществить с помощью ручного мониторинга посредством специальной команды «site».
«Выглядит комбинация следующим образом: site:имя сайта пробел фрагмент текста»
Если фрагмент текста, введенный в поисковике, появляется жирным шрифтом в сниппетах двух и более результатов, это говорит о наличии полноценных копий ресурса. Желательно, чтобы искомый отрывок содержал не более одного предложения, точку использовать я не рекомендую, поскольку ее наличие существенно искажает исследование индексированных виртуальных площадок.
Панели вебмастеров
Проверку сайта на дубли страниц можно проводить и с помощью панели веб-мастера. К ним относятся Google Search Console и программы-парсеры десктопных версий.
Поиск дублей страниц с помощью Google Search Console не составит труда. Консоль ищет копии по метаописаниям. Достаточно перейти во вкладку «Оптимизация html». В результате вы имеете список потенциально одинаковых страничек.
Алгоритм, как проверить дубли страниц на сайте, включает в себя цепочку «Индексирование-Страницы в поиске-Исключенные страницы-Дубли».
Среди программ-парсеров, содержащих алгоритм, как найти дубли страниц на сайте, самые удобные:
- Screaming Frog Seo Spider — эффективное сканирование мелких и средних проектов, позволяет определить правильность составления метатегов;
- Netpeak Spider — проводит полный аудит контента, включая повторяющиеся категории;
- Xenu — осуществляет технический аудит сайта, сканирует и сортирует полученные результаты.
«Десктопные сервисы (кроме Xenu) являются платными»
Онлайн-сервисы
Проверку сайта на дубли страниц онлайн можно осуществлять с помощью специальных сервисов:
- Serpstat;
- Seoto.me;
- JetOctopus.com.
«Использование онлайн-сервисов на поиск повторов является платным»
Результаты, полученные с помощью сторонних систем, вовсе не считаются 100% причиной проблем с рейтингом виртуальной площадки. Но они являются показателем необходимости проверки.
Перебор дублей вручную
Проверить дубли страниц сайта вручную доступно для небольших ресурсов с простой структурой. Смысл этого действия — в подборе URL различных вариантов, среди которых можно обнаружить клоны. Тут важно учесть каждый атрибут ссылки, который может появиться.
Главный недостаток способа я вижу в больших временных затратах, а также в высоком риске что-то упустить. Дополнительно вручную можно искать смысловые копии, когда проверка контента осуществляется простым прочтением содержимого. Если две статьи по факту отвечают на одинаковый вопрос, можно смело удалить одну из них.
Как устранить дубли страниц сайта
Перед тем, как осуществить удаление дублей онлайн, важно разобраться в причине их появления. Без устранения источника стирать одинаковые разделы не имеет смысла — они появятся снова.
Закрыть технических клонов можно следующими способами:
- редирект 301;
- через тег robots»content=»noindex»;
- robots.txt;
- тегом rec=canonical;
- атрибутами «prev» и «next».
Способы нейтрализации смысловых повторов:
- добиться уникальности текстов, а также медиаконтента;
- создавать сайты на различных поддоменах, использовать alternate.
«Каждый дубликат требует индивидуального решения — оставить или убрать. Удалить нужно те копии, которые не имеют функционала»
Через тег <meta name=»robots» content=»noindex» />
Тег <meta name=»robots» content=»noindex» /> является особенно важным для тех страниц, которые должны остаться существовать. Основная цель его использования — закрыть роботу поисковой системы доступ, чтобы он не проводил по нему индексацию и не брал в учет при выводе релевантных запросов.
Применять можно двумя способами:
- <meta name=»robots»content=»noindex,<strong>nofollow</strong>» /> — установить запрет перехода по ссылкам документа;
- заменить фразу «nofollow на follow» — разрешить переход.
«Размещение разрешающего/запрещающего переходы тега происходит в коде дублей HTML, между тегами <head>»
Настроить 301 редирект
Определив, как проверить сайт на дубли страниц, и приняв решение об устранении всех находок, можно выбрать способ настройки редиректа 301. Его смысл заключается в перенаправлении пользователей с одной категории на другую, при этом копии «склеиваются» между собой. Главное преимущество — ссылочная масса переходит «по наследству».
Применение редиректа имеет смысл, если вы не планируете оставлять созданным по разным причинам клонам право на существование.
«Воспользоваться этим способом можно, внедрив его через файл .htaccess, расположенный в корневой папке»
Установить тег rel=»canonical»
Тег canonical позволяет указывать роботу на каноническую, главную страницу, которую он должен индексировать. В таком случае боты будут обращать внимание только на нее, а не на повторы. Особенно эффективен способ, если проверить дубли страниц удалось, а удалить их не получается.
Использование канонического тега подходит для таких разделов:
- одинаковое содержимое с разными языками и на иных доменах;
- странички пагинации;
- сортировки и фильтры;
- utm и разделы печати.
Атрибут подходит для Гугла, однако особенно предпочтителен именно для последней поисковой машины.
Как задать данный атрибут
Чтобы использовать канонический атрибут правильно, необходимо среди всех дублей определить главный URL, после чего вписать его в атрибут.
«Пример верно вписанного атрибута выглядит так — <link rel=»canonical» href=»http://сайт/страница»>»
Далее необходимо добавить его ко всем неосновным разделам. Сделать это можно с помощью плагина движка ресурса (в WordPress — Yoast SEO, в OpenCart — задать СЕО URL, в Joomla — включить SEF). Но более простым способом я считаю возможность прописать полученный атрибут в секцию head любой желаемой странички.
Настройка атрибуты rel=»next» и rel=»prev»
Атрибуты rel=»next» и rel=»prev» позволят связать страницы в единые цепочки. Однако использовать метод эффективно только для ресурсов пагинации и только с ориентиром на поискового робота Google. Тег не является обязательной директивой, считается вспомогательным атрибутом, поскольку его весьма сложно назвать универсальным.
Главный риск тут — появление одинаковых цепочек. Чтобы этого избежать, необходимо следить, как теги генерируются в процессе своего внедрения, и отслеживать четкую последовательность между страницами пагинации.
Как настроить
Размещение атрибутов rel=»next» и rel=»prev» происходит на первой странице, по кодировке это будет раздел <span style=»font-weight: 400;»> <head></span>.
Соответственно:
- первая страница — http://сайт/страница1;
- вторая — <link rel=»next» href=»http://сайт/страница2.html»>
«Для всех последующих разделов следует добавлять атрибуты rel=»next» и rel=»prev», указывающие, соответственно, на следующий и предыдущий URL»
Логично предположить, что для первой страницы необходим только атрибут rel=»next», в то время как для второй нужно указать уже предыдущий и следующий разделы. Выглядеть это будет так:
- <link rel=»prev» href=»http://сайт/страница1″>;
- <link rel=»next» href=»http://сайт/cтраница3″>.
На последней странице, таким образом, как и на первой, указываем только один атрибут — ссылку на предыдущий раздел виртуальной площадки.
Закрыть доступ в robots.txt
Закрыть доступ к определенному разделу можно и посредством вполне традиционного способа — используя файл robots.txt. Но это не избавит вас от дублей гарантированно, поскольку некоторые страницы часто попадают под индексацию даже после установления запрета этим файлом. Тут есть важный нюанс: доступными для поисковых систем остаются те страницы, которые уже были проиндексированы, но противостоять появлению новых копий вполне возможно.
Настроить использование файла нетрудно, достаточно прописать страницы, которые вы не планируете показывать роботу, установив перед ними слэш. К примеру, на фото ниже закрыты разделы авторизации и сравнения товаров.
Применять этот способ я рекомендую лишь тогда, когда остальные использовать невозможно по различным причинам.
Разные поддомены
Способ создания виртуальных площадок на разных доменах идеален, если вы продвигаете свой ресурс в разных регионах или странах. Это приведет к тому, что поисковая машина не будет рассматривать ваши проекты как релевантные друг другу. Идеально, если для каждой страны будет свой национальный домен, созданный специально для этого государства.
Примечательно, что такое разделение сайтов позволяет не только избавиться от клонов, но и способствует продвижению. Также почти полностью отсутствует риск получить санкции от поисковых систем и попасть под их фильтры.
Теги “alternate” и “hreflang”
Теги “alternate” и “hreflang” отлично работают на нейтрализацию повторений разделов, предотвращая при этом их склеивание, даже если контент идентичен и тождественен. Использовать их удобно в таких случаях:
- вам требуется показать потенциальному клиенту еще один ваш сайт, ориентированный на другой регион;
- содержимое виртуальной площадки абсолютно идентично для различных регионов и даже стран.
«Визуальное использование тегов выглядит так — <link rel=»alternate» hreflang=»язык-регион» href=»адрес раздела-альтернативы» />»
Используя все эти методы, вы сможете легко обнаружить и избавиться от дубликатов, чтобы провести затем действительно эффективную оптимизацию.