логотип Taptop
Страницы – дубли с GET параметрами. Гайд для начинающего разработчика
Навигация по статье:

    Страницы – дубли с GET параметрами. Гайд для начинающего разработчика

    Дублирующие страницы – та проблема, из-за которой страдают разработчики и с которой активно борются поисковые системы. Однако иногда без них не обойтись, например, если вы используете GET параметры для пагинации или сортировки.

    Они представляют собой изменяемую часть URL страницы, с помощью которой можно воздействовать на контент. Их часто называют строками запроса или параметрами URL. В адресе страницы может быть несколько таких значений. Между собой они разделяются символом амперсанд – «&», а от основного адреса отделяются знаком вопроса – «?».

    Используются GET параметры для продвижения гораздо чаще, чем вы можете представить. Например, пользователь желает поделиться ссылкой на конкретный товар вашего каталога с друзьями или опубликовать ее на странице своей соцсети. Такой адрес будет обязательно содержать строку запроса. Ну а если необходимо выполнить внутри портала поиск, отсортировать разные наименования каталога по цене, размерам или другим критериям – без URL-параметров не обойтись. Именно здесь и начинаются сложности.

    По сути, страница с одним и тем же контентом, отсортированным по разным критериям с помощью GET параметров – это одна и та же страница вашего сайта, на которой по-разному отображается содержимое. Однако поисковые роботы не понимают этого, и автоматически считают их дублями основной, неотсортированной страницы, в URL которой такого запроса нет.

    Более того: с середины 2021 года система Яндекс Вебмастер считает наличие страниц с GET параметрами критичной ошибкой. В свою очередь, краулеры расходуют лимит сканирования, выделенный поисковой системой на проверку вашего ресурса, на эти адреса, хотя могли бы сосредоточиться на индексировании более полезных разделов.

    В статье поговорим, как скрыть страницы с GET параметрами от всевидящего ока роботов и продолжать использовать такие запросы без проблем с продвижением в поисковиках.

    Типология GET запросов

    Так как GET параметр – это основной элемент передачи информации между сервером и клиентом, то их можно условно разделить на две группы.

    • Пассивные параметры. Они не изменяют контент, а используются для отслеживания действий пользователей на сайте. Классический пример – UTM-метки, применяемые в контекстной рекламе. Интеграция такого значения в URL позволяет понять, сколько человек перешло по объявлению. Эта категория GET запросов c параметрами поможет выявить самые популярные страницы на вашем ресурсе, определиться с наиболее востребованными товарами и соответствующим образом скорректировать стратегию продвижения.
    • Активные параметры. К данной категории относятся запросы, способные менять контент на конкретной странице. Например, когда пользователь заполняет строку поиска, ссылка на результаты будет содержать GET параметр. URL, возвращенный сервером, при этом будет выглядеть так:

    http://доменное_имя_сайта.ru?search=запрос пользователя

    Как видите, разработчикам и вебмастерам не обойтись без использования GET. Однако камнем преткновения при их применении является распознавание таких ссылок краулерами в качестве дублей основных страниц. Как быть с этой проблемой?

    4 способа скрыть дубли с GET параметрами от индексации

    Если роботы не понимают, что перед ними – не близнец основной страницы, нужно указать им, что они не правы. Как это сделать?

    Способ 1. Изменяем метатег Robots

    Этот метатег содержит прямые указания для краулеров о том, как именно индексировать ту или иную HTM-страницу. Он учитывается абсолютно всеми поисковыми системами. Если добавить на страницы с GET запросами в <robots> тег <noindex>, при сканировании роботы будут видеть содержимое, однако в поисковую выдачу страница не попадет, а значит – не будет распознана в качестве дубля основной.

    Способ 2. Указываем, какая страница – основная

    Для этого используется атрибут rel="canonical". Если в ходе проверки краулер натыкается в теге <link> на URL, ведущий на основную страницу сайта, которую необходимо признать канонической, то именно ее он будет рассматривать в качестве основной. Так вы покажете, какие страницы дублируются там, где есть параметр GET.

    Способ 3. Директива Clean-param

    Robots.txt – это своеобразная инструкция для краулеров, «прочитав» которую боты понимают, что делать с вашим ресурсом. Она содержит директивы – указания в понятной роботам форме.

    Для того чтобы краулер понял, что перед ним страницы – дубли с GET параметрами, нужно использовать директиву Clean-param. Найдите ее в файле и пропишите все запросы, примененные для настройки внутри вашего портала. Перечислять параметры следует через значок амперсанд. Так краулер поймет, какие страницы включать в индекс не стоит, а вы – избавитесь от необходимости работы с тегами каждой из них. Чтобы директива сработала, не забывайте регулярно актуализировать запросы. Помните что ее размер ограничен 500 символами.

    Казалось бы, метод идеален: директивы не позволят краулерам ошибиться. Однако с Clean-param в robots.txt работают только боты Яндекса: учтите это, если планируете продвигаться в том числе и в Google.

    Способ 4. Директива Disallow

    В отличие от предыдущей, эта директива предельно четкая: она запрещает роботам посещать конкретные страницы ресурса. Прописывать в файле ничего не надо. Достаточно добавить в robots.txt директиву «Disallow: *?*». Таким образом, вы исключите из сканирования абсолютно все URL с GET параметрами. Распознается Disallow роботами абсолютно всех поисковиков, однако использовать ее следует с осторожностью. Если прописать ее правильно, краулеры будут полностью игнорировать все страницы с GET запросами в адресах. Если речь идет, например, о пагинации, контент на них может отличаться, и в конечном итоге – наличие директивы помешает продвижению в поисковой выдаче.

    Опытные разработчики считают, что оптимальным решением проблемы с дублями и GET параметрами является комплексное использование атрибута rel="canonical" и тега <noindex>. Если проставить их нужно на нескольких сотнях страниц, рациональней всего воспользоваться специальными плагинами, разработанными для этой цели. Например, Meta Robots Tag все сделает практически без вашего участия.

    Конструктор Taptop генерирует открытый код, открывая возможность тонкой настройки вашего проекта. Готовый сайт принадлежит только вам: код можно экспортировать и перенести на любую платформу для дальнейшей работы. Функционал Taptop позволяет редактировать файл Robots.txt, работать с тегами и атрибутами, а также добавлять любые кастомные отрезки кода вручную, чтобы избежать проблем с дублями, обеспечить правильную индексацию ресурса и, в конечном итоге, получать органический трафик из поисковой выдачи.

    Может быть интересно
    все статьи
    Оставить заявку
    Имя
    Это поле обязательно для заполнения
    Телефон
    Это поле обязательно для заполнения
    Почта
    Это поле обязательно для заполнения
    Радио группа
    Это поле обязательно для заполнения
    Комментарий
    Это поле обязательно для заполнения
    Галочка
    Это поле обязательно для заполнения
    Спасибо!
    Форма отправлена
    Что-то не так. Попробуйте позже