Разборки с дубликатами. Как следует и как не следует канонизировать URL

Допустим, перед Вами такая картина: поисковый бот заявляется на Ваш портал, осуществляет сканирование контента и выявляет совпадающие страницы. Каким образом ему подобрать оптимальный вариант, чтобы провести ранжирование?

Бот учтет подсказки, предоставленные Вами (если Вы исключите проведение манипуляций с поисковыми алгоритмами). Если не зафиксируете, какой URL относится к каноническому (оригинальному, ключевому), бот выберет самостоятельно. Также у бота есть возможность оценить дубликаты страниц в качестве равноценно важных. В такой ситуации поисковая система израсходует краулинговый бюджет на дублируемый контент, а топовые странички могут так и остаться не проиндексированными.

Каким образом исключить подобный расклад? Ответ не самый простой, но сегодня мы разложим Вам все общедоступным языком. Чтобы прибыльные страницы были проиндексированы ботом, потребуется их канонизация.

Вы не сомневаетесь в том, что на Вашем портале отсутствуют дубликаты?

Каноническим URL называют страницу, которую Google считает самой важной из всех существующих дубликатов на портале. Если Вы считаете, что не копируете URL-ы, и волноваться не о чем – Вы ошибаетесь. Создание дубликатов возможно и в автоматическом порядке. Допустим, поисковики могут проникнуть на Вашу страницу при помощи таких методов:

  • посредством протоколов HTTP и HTTPS:

http://www.yourwebsite.com

https://www.yourwebsite.com

  • при помощи WWW и не WWW:

http://example.com

http://www.example.com/

Какой вариант лучше для посещения Вашего портала? Подберите оптимальный метод, сообщите поисковикам про сделанный выбор.

Если ботом выявляется на портале почти одинаковый контент на отличающихся адресах, происходит снижение авторитета портала, его позиции в поисковых системах. Поисковики любят оригинальный контент (он котируется более высоко). Дубликаты приводят к израсходованию их ресурсов, так что следует тщательно проанализировать, что на Вашем портале уникально, а что – нет. Сегодня мы расскажем Вам про четыре метода, по которым можно канонизировать страницы. Рассмотрим преимущества, недостатки и особенности их применения.

1.Тег Rel=canonical

Допустим, Вы желаете, чтобы страничка https://yourwesite.com/page.php/ превратилась в каноническую. С этой целью вставьте компонент link с rel="canonical" и отсылкой к канонической странице в заголовок head (актуально для каждой копии):

11.png

Если изучаемая нами страничка обладает вариантом под мобильные гаджеты, вставьте link с атрибутом rel="alternate", ссылку на версию для мобильного телефона, к примеру:

link rel="alternate" media="only screen and (max-width: 660px)" href=https://m.yourwesite.com/page.php/

В вышеобозначенном элементе должен быть полноценный URL (без каких бы то ни было сокращений).

2. Rel=canonical HTTP header

Этот тег способствует канонизации HTML-страницы. Если формат иной, стоит внедрить тег rel=canonical в HTTP-заголовке. Канонизация PDF для портала обязательна по следующей причине: данные файлы проходят индексацию и изучаются ботами наравне с HTML-листами.

Данный метод есть возможность использовать лишь при наличии доступа к серверным настройкам. Сокращать здесь также ничего нельзя – все адреса обязаны быть полными.

3. 301 редирект

301 статус код – это если юзеры и боты перенаправляются на сторонний URL.

В каких случаях лучше пользоваться таким вариантом:

  • если необходимо осуществить смену домена портала;
  • если появляется ошибка 404 и на сайте имеется неактуальный, но с большим трафиком, контент;
  • если существуют данные, переехавшие на постоянной основе по другому адресу.

4. Sitemap/Карта портала

Sitemap, либо по-русски картой портала, именуют XML-файл со сведениями о расположении URL-ов, дне, когда они последний раз обновлялись, периодичности их обновления и т.д. Специалистом Google, Джоном Мюллером, было дано подтверждение, что странички в картах портала рассматриваются ботом в качестве ключевых (то есть, они первыми индексируются и ранжируются).

«..мы пользуемся URL-ами в sitemap в качестве метода выявления – какой конкретно URL выделять как канонический для конкретного контента».

Каждая страница в данном документе расценивается ботом как каноническая.

Исключите добавление в карту портала страниц неканонического типа.

Что предпринимать НЕ следует?

  1. НЕ стоит осуществлять канонизацию двух-трех дублей отличающимися методами. Допустим, Вы владеете страницами А и В со схожим контентом. В «тело» первой странички Вы вставляете тег rel=canonical, а страницу В фиксируете в sitemap. И все – бот не знает, что считать уникальным контентом.
  2. НЕ пользуйтесь rel=canonical link tag/ HTTP header на страницах категорий продукции и фильтров. На порталах коммерческого типа для распределения продукции можно воспользоваться такими показателями, как: расцветка, бренд.
  3. Не пользуйтесь robots.txt, чтобы осуществить канонизацию. Если бот не откроет раздел, он не поймет, что речь идет о копии либо оригинале.

Мнение Джона Мюллера:

Действие этой блокировки таково: у нас отсутствует возможность объявить, что речь идет о копиях. Просто сделайте так, чтобы поисковая система осознала: копии имеются, ранжированию должна подлежать страница с каноническим элементом…

  1. Исключите линковку копий URL-ов внутри своего портала. Если это канонизация страницы, значит, она для Вас крайне актуальна. И делать отсылку в такой ситуации на неканоническую страницу смысла нет.
  2. Исключите канонизацию HTTP, если на портале имеется версия странички с HTTPS-протоколом. Существует SSL-сертификат (с поддержкой HTTP) – значит, будет и ранжирование в поисковой системе, так переключение на протокол HTTPS приведет к повышению рейтинга страницы в поисковике.

Несколько слов про основное

Таким образом, канонизацией называют метод демонстрации поисковику, какие страницы лучше выдавать первыми в момент поиска.

Воспользуйтесь следующими четырьмя советами – методами канонизации:

  • Rel=canonical link tag – если нужно канонизировать HTML-страницы;
  • Rel=canonical HTTP header – если требуется канонизировать не HTML-файлы;
  • 301 redirect – при переезде контента по чужому адресу;
  • XML Sitemap – для перечисления всех канонических страниц на портале, облегчения боту процесса скана (еще обязательно проставление тегов).

Для оптимизации краулингового бюджета и отправления выгодных страниц на индексацию используйте такие рекомендации:

  • исключите канонизацию двух-трех URL-ов с идентичным контентом различными методами;
  • не пользуйтесь rel=canonical tag на страничках фильтров;
  • не пользуйтесь robots.txt, чтобы осуществить канонизацию;
  • исключите линковку дублей внутри портала;
  • не высылайте копии страниц в removal tool от GSC;
  • исключите канонизацию HTTP-страниц.

Обратная связь

Заказать продвижение

Заказать контекстную рекламу

Заказать экспресс аудит



Заказать управление
репутацией

Заказать разработку сайта

Заказать прототип сайта