Дублікати сторінок: як знайти та прибрати
При оптимізації сайту важливо прибрати дублікати, під якими маються на увазі розділи з різними URL-адресами, але з однаковим вмістом. Контент може повторюватися повністю або частково, у будь-якому випадку це заважає просуванню ресурсу в пошуковій машині.
Содержание статьи
Чому дублі сторінки – це небезпечно для Вашого сайту
Головна небезпека, яку створюють дублі сторінок, полягає у відсутності розділу, який максимально відповідає пошуковому запиту. У результаті робот не може визначитися, що вибрати для видачі результатів користувачеві.
Наслідки для SEO дублів сторінок:
- низька релевантність, що призводить до зниження позицій у пошуку;
- загальне падіння позицій сайту у видачі;
- «гойдалки» в позиціях пошукових машин – вони пов’язані з постійною зміною релевантності запиту користувача.
«Я і моя команда Solarweb, як і всі СЕО-оптимізатори, вважаємо себе запеклими борцями проти клонів, що заважають просуванню»
Види дублікатів сторінок
Дублі вмісту контенту бувають наступних видів:
- повні — коли на різних URL розміщено абсолютно однаковий контент сторінок;
- часткові — у цьому випадку відбувається неповне клонування вмісту на різні сторінки ресурсу залежно від його структури.
Додатково я пропоную розглянути смислове клонування, при якому кілька сторінок або категорій віртуального майданчика несуть однаковий зміст, але при цьому він подано різними словами.
Правильне використання алгоритмів, як визначити дублі сторінок, дозволить застосувати проти них найбільш підходящий метод усунення.
Повні дублі сторінок
Повне дублювання контенту на сайті може бути таких видів:
- Клони головної сторінки — основна частина їх пов’язана з особливістю CMS системи, відповідальної за керування сайтом.
- Дзеркальні відображення ресурсу, які можуть містити і не містити в адресі «www». Важливо, щоб вибрати головний варіант, щоб уникнути таких помилок.
- Повторення рефералів. Посилання такого типу копіюють контент і виявляються доступними для індексації роботами пошукових машин. Відповідно, це призводить до появи непотрібних сторінок у Гуглі. Помилки ієрархії, які також призводять до появи клонів. Пов’язано це зі збоями у складанні категорій та каталогів. У результаті на різних URL можуть існувати однакові розділи.
- Неправильне налаштування помилки 404 призводить до відповіді сервера 200, що тягне за собою повтор однакових сторінок.
- Наявність адрес з подвійними або потрійними слешами в УРЛ.
- Присутність UTM-міток, які містять важливі параметри для підвищення ефективності рекламних кампаній. Але вони створюють повні клони.
«Будь-які дублі вимагають уваги оптимізатора — бездіяльність щодо них призведе до швидкої втрати позицій ресурсу в пошуковій видачі»
Я рекомендую перевірити сайт на дублі та при переїзді на захищений протокол, наприклад, на https.
Виникнення клонів часто виникає на ресурсах, створених на основі движка WordPress. Пошукові машини дуже «не люблять» виникнення таких помилок, причому Google легко накладає фільтри на сайт при виявленні на ньому сторінкових клонів.
Головна особливість повних повторів – їх легко виявити. Однак такий глобальний вплив може завдати серйозної шкоди віртуальному майданчику та звести на «ні» всю працю оптимізатора.
Часткові дублікати сторінок
До часткових дублікатів ресурсів належать такі види, небезпечні для СЕО-просування:
- результати пошуків по сайту: головна небезпека тут у тому, що користувачі можуть генерувати велику кількість копій за невеликий проміжок часу;
- розділи сортування сторінок і пагінації – у них, як правило, є свій параметр “get”, пов’язані вони з особливостями CMS ресурсу;
- дублі товарних категорій зазвичай такі сторінки не адаптовані для пошуку, але при цьому створюються як розділи фільтрації продукції інтернет-магазину;
- окремі категорії, які створюються для друку або скачування, їхня головна мета — створити певні зручності, однак вони є клонами (приклад — http://wts.ru/seo https://wts.ru/seo/print);
- розділи відгуків, коментарів, характеристик – автоматично генеруються при виборі товарної картки;
- копії сторінок за кодом HTML, створених за допомогою AJAX.
Таким чином, пошук дублів часткового виду слід здійснювати, відштовхуючись від того, що вони були згенеровані системою CMS ресурсу.
Часткові клони відрізняються від «тотальних» своїм впливом на просування. Ті дублі, які є неповними, не відразу виявляють себе втратами позицій у пошуковій видачі. Але вони також зводять на нуль роботу оптимізатора поступовим впливом. У поодиноких випадках виявити їхню присутність вдається вже в тому випадку, коли віртуальний майданчик потрапив під фільтр пошукової машини.
Додаткова складність неповних повторів категорій та розділів – однакова семантика часткових копій. Це призводить до логічної конкуренції та канібалізації (таргет по тому самому слову) ключових слів, що тягне за собою поступову втрату позицій через труднощі з релевантністю.
Ставлення алгоритму Google до дублів
Пошук Google не шанує повтори сторінок, особливо, якщо їх кількість занадто велика. З позиції розробників робота передбачається, що копії виникають у спробах оптимізатора або власника ресурсу маніпулювати його рейтингом — ввести в оману користувача, змусивши зайти і тим самим збільшити трафік.
Зрозуміло, я не виключаю ситуації, коли поява клону — результат банальних помилок і системних збоїв. Але алгоритм робота влаштований таким чином, що він виводитиме лише унікальний контент. Поява повторів призводить до перегляду рейтингу ресурсу та зниження результатів, аж до повного його ігнорування за релевантними запитами.
Як знайти дублі сторінок на сайті
Пошук дублів сторінок на сайті можна здійснювати у різний спосіб. Як допомогу я раджу звернути увагу на ознаки копій:
- різні протоколи http і https – http://сайт, https://сайт;
- наявність або відсутність www – https://www.сайт, https://сайт;
- слеш на кінці УРЛ – https://сайт, https://сайт/;
- множинні слеші на кінці або в середині URL – https://сайт////, https://сайт//////категорія;
- різні розширення УРЛ на кінці – https://сайт.php, https://сайт.html;
- додавання довільних символів, що підвищують рівень складності – https://сайт/3sda, https://сайт//категорія3sda;
- додавання цифр наприкінці – https://сайт, https://сайт//345.
Зустрічаються копії з додаванням зірочки, дефісу/підкреслення, відсутніми рівнями або помилками в них.
Ручний моніторинг
Пошук дублів сторінок онлайн у пошуковій видачі можна здійснити за допомогою ручного моніторингу за допомогою спеціальної команди «site».
«Виглядає комбінація таким чином: site:ім’я сайту пробіл фрагмент тексту»
Якщо фрагмент тексту, введений у пошуковій системі, з’являється жирним шрифтом у сніппетах двох і більше результатів, це говорить про наявність повноцінних копій ресурсу. Бажано, щоб уривок містив не більше однієї пропозиції, точку використовувати я не рекомендую, оскільки її наявність суттєво спотворює дослідження індексованих віртуальних майданчиків.
Панелі вебмайстрів
Перевірку сайту на дублі сторінок можна проводити за допомогою панелі веб-майстра. До них відносяться Google Search Console та програми-парсери десктопних версій.
Пошук дублів сторінок за допомогою Google Search Console не складе труднощів. Консоль шукає копії за метаописами. Достатньо перейти у вкладку «Оптимізація html». У результаті ви маєте список потенційно однакових сторінок.
Алгоритм, як перевірити дублі сторінок на сайті, включає ланцюжок «Індексування-Сторінки в пошуку-Виключені сторінки-Дублі».
Серед програм-парсерів, які містять алгоритм, як знайти дублі сторінок на сайті, найзручніші:
- Screaming Frog Seo Spider — ефективне сканування дрібних та середніх проектів, дозволяє визначити правильність складання метатегів;
- Netpeak Spider — проводить повний аудит контенту, включаючи повторювані категорії;
- Xenu — здійснює технічний аудит сайту, сканує та сортує отримані результати.
«Десктопні сервіси (крім Xenu) є платними»
Онлайн-сервіси
Перевірку сайту на дублі сторінок онлайн можна здійснювати за допомогою спеціальних сервісів:
- Serpstat;
- Seoto.me;
- JetOctopus.com.
«Використання онлайн-сервісів для пошуку повторів є платним»
Результати, отримані за допомогою сторонніх систем, зовсім не вважаються 100% причиною проблем рейтингу віртуального майданчика. Але вони є показником необхідності перевірки.
Перебір дублів вручну
Перевірити дублі сторінок сайту вручну доступно для невеликих ресурсів із простою структурою. Сенс цієї дії – у підборі URL різних варіантів, для яких можна виявити клони. Тут важливо зважити на кожен атрибут посилання, який може з’явитися.
Головний недолік способу я бачу у великих тимчасових витратах, а також у високому ризику щось упустити. Додатково вручну можна шукати значеннєві копії, коли перевірка контенту здійснюється простим прочитанням вмісту. Якщо дві статті за фактом відповідають на однакове запитання, можна сміливо видалити одну з них.
Як усунути дублі сторінок сайту
Перед тим, як здійснити видалення дублів онлайн, важливо з’ясувати причину їх появи. Без усунення джерела прати однакові розділи немає сенсу — вони з’являться знову.
Закрити технічні клони можна такими способами:
- редирект 301;
- через тег robots”content=”noindex”;
- robots.txt;
- тегом rec=canonical;< /li>
- атрибутами “prev” та “next”.
Способи нейтралізації смислових повторів:
- добитися унікальності текстів, а також медіаконтенту;
- створювати сайти на різних піддоменах, використовувати alternate.
«Кожен дублікат вимагає індивідуального рішення – залишити чи прибрати. Видалити потрібно копії, які не мають функціоналу»
Через тег <meta name=”robots” content=”noindex” />
Тег <meta name=”robots” content=”noindex” /> є особливо важливим для сторінок, які мають залишитися існувати. Основна мета його використання — закрити роботу пошукової системи доступ, щоб він не проводив індексацію і не брав до уваги при виведенні релевантних запитів.
Застосовувати можна двома способами:
- <meta name=”robots”content=”noindex,<strong>nofollow</strong>” /> — встановити заборону переходу за посиланнями документа;
- замінити фразу «nofollow на follow» — дозволити перехід.
«Розміщення дозволяючого/забороняючого переходи тега відбувається в коді дублів HTML між тегами <head>»
Налаштувати 301 редирект
Визначивши, як перевірити сайт на дублі сторінок, і прийнявши рішення про усунення всіх знахідок, можна вибрати спосіб налаштування редиректу 301. Його зміст полягає у перенаправленні користувачів з однієї категорії на іншу, при цьому копії «склеюються» між собою. Головна перевага — маса посилань переходить «у спадок».
Застосування редиректу має сенс, якщо ви не плануєте залишати створеним з різних причин клонам право на існування.
«Скористатися цим способом можна, впровадивши його через файл .htaccess, розташований у кореневій папці»
Встановити тег rel=”canonical”
Тег canonical дозволяє вказувати роботу на канонічну, головну сторінку, яку він має індексувати. У такому разі роботи звертатимуть увагу лише на неї, а не на повтори. Особливо ефективний спосіб, якщо перевірити дублі сторінок вдалося, а видалити їх не виходить.
Використання канонічного тега підходить для таких розділів:
- однаковий вміст з різними мовами та на інших доменах;
- сторінки пагінації;
- сортування та фільтри;
- utm та розділи друку.
Атрибут підходить для Гугла, проте особливо найкращий саме для останньої пошукової машини.
Як задати цей атрибут
Щоб використовувати канонічний атрибут правильно, необхідно серед усіх дублів визначити головну URL-адресу, після чого вписати його в атрибут.
«Приклад правильно вписаного атрибуту виглядає так — <link rel=”canonical” href=”http://сайт/сторінка”>»
Далі необхідно додати його до всіх неосновних розділів. Зробити це можна за допомогою плагіна движка ресурсу (у WordPress – Yoast SEO, в OpenCart – задати СЕО URL, Joomla – включити SEF). Але більш простим способом я вважаю можливість прописати отриманий атрибут у секцію head будь-якої бажаної сторінки.
Налаштування атрибутів rel=”next” та rel=”prev”
Атрибути rel=”next” та rel=”prev” дозволять зв’язати сторінки в єдині ланцюжки. Однак використовувати метод ефективно лише для ресурсів пагінації і лише з орієнтиром на пошукового робота Google. Тег не є обов’язковою директивою, вважається допоміжним атрибутом, оскільки його дуже важко назвати універсальним.
Головний ризик тут – поява однакових ланцюжків. Щоб цього уникнути, необхідно стежити, як теги генеруються в процесі впровадження, і відстежувати чітку послідовність між сторінками пагінації.
Як налаштувати
Розміщення атрибутів rel=”next” та rel=”prev” відбувається на першій сторінці, за кодуванням це буде розділ <span style=”font-weight: 400;”> <head></span>.
Відповідно:
- перша сторінка — http://сайт/сторінка1;
- друга — <link rel=”next” href=”http://сайт/сторінка2.html”>< /li>
«Для всіх наступних розділів слід додавати атрибути rel=”next” і rel=”prev”, що вказують відповідно на наступну та попередню URL»
Логічно припустити, що для першої сторінки необхідний лише атрибут rel=”next”, тоді як для другої потрібно вказати попередній і наступний розділи. Виглядатиме це так:
- <link rel=”prev” href=”http://сайт/сторінка1″>;
- <link rel=”next” href=”http:// сайт/сторінка3″>.
На останній сторінці, таким чином, як і на першій, вказуємо лише один атрибут — посилання на попередній розділ віртуального майданчика.
Закрити доступ до robots.txt
Закрити доступ до певного розділу можна за допомогою цілком традиційного способу — використовуючи файл robots.txt. Але це не позбавить Вас від дублів гарантовано, оскільки деякі сторінки часто підпадають під індексацію навіть після встановлення заборони цим файлом. Тут є важливий нюанс: доступними для пошукових систем залишаються сторінки, які вже були проіндексовані, але протистояти появі нових копій цілком можливо.
Налаштувати використання файлу неважко, достатньо прописати сторінки, які Ви не плануєте показувати роботу, встановивши перед ними слеш. Наприклад, на фото нижче закриті розділи авторизації та порівняння товарів.
Застосовувати цей спосіб я рекомендую лише тоді, коли інші використовувати неможливо з різних причин.
Різні піддомени
Спосіб створення віртуальних майданчиків на різних доменах є ідеальним, якщо Ви просуваєте свій ресурс у різних регіонах або країнах. Це призведе до того, що пошукова машина не розглядатиме Ваші проекти як релевантні один одному. Ідеально, якщо для кожної країни буде свій національний домен, створений спеціально для цієї держави.
Примітно, що такий поділ сайтів дозволяє не лише позбутися клонів, а й сприяє просуванню. Також майже повністю відсутній ризик отримати санкції від пошукових систем та потрапити під їх фільтри.
Теги “alternate” та “hreflang”
Теги “alternate” і “hreflang” добре працюють на нейтралізацію повторень розділів, запобігаючи їх склеювання, навіть якщо контент ідентичний і тотожний. Використовувати їх зручно у таких випадках:
- вам потрібно показати потенційному клієнту ще один ваш сайт, орієнтований на інший регіон;
- вміст віртуального майданчика є абсолютно ідентичним для різних регіонів і навіть країн.
«Візуальне використання тегів виглядає так — <link rel=”alternate” hreflang=”мова-регіон” href=”адреса розділу-альтернативи” />»
Використовуючи всі ці методи, Ви зможете легко виявити та позбутися дублікатів, щоб провести потім дійсно ефективну оптимізацію.