Как закрыть сайт от поисковых роботов и пользователей?
Главная цель SEO–оптимизации — попадание страницы в топ поисковой выдачи. Этому предшествует процесс индексации: роботы поисковых систем «изучают» портал, чтобы определить, насколько контент соответствует запросам пользователей и полезен читателям. Однако в некоторых случаях нужно не только знать, как попасть в индекс, но и как закрыть сайт от краулеров и пользователей. Разбираемся, зачем это нужно и как спрятать свой веб–ресурс.
Зачем закрывать доступ?
Любой сайт начинает отображаться в поиске Google или Яндекса только после того, как все страницы проиндексированы краулерами. При этом пользователь видит только те разделы портала, которые открыты для поиска. Если в индексацию попадают страницы в разработке, временные файлы или другая информация, по каким–то причинам не скрытая веб–мастерами от посторонних глаз, это не только снижает его юзабилити, но и гарантировано понижает позицию сайта в поисковой выдаче.
Иногда от поисковиков скрывают ресурс целиком: например, портал находится в разработке, администраторы меняют дизайн или обновляют контент. Существуют и другие причины закрыть сайт от индексации полностью или запретить доступ к отдельным страницам:
- Соблюдение требований уникальности. Одно из требований краулеров — уникальность контента, размещенного на портале. В случае, когда сайт тестируется на другом домене, роботы могут воспринять основной ресурс дублем и автоматически убрать его из поисковой выдачи.
- Обилие мусора. Страницы, находящиеся в разработке, служебные файлы и другая информация, в которой может разобраться только владелец или администратор ресурса, существенно снижает юзабилити сайта. Чем меньше портал несет пользы для посетителей — тем ниже его позиции в выдаче. Поэтому старайтесь закрыть от поисковиков разделы, предназначенные для внутреннего пользования.
- Ускорение процесса индексации. В SEO существует такой термин, как краулинговый бюджет. Под ним подразумевается объем страниц и разделов, подлежащих сканированию роботами. В этот список могут попасть и «мусорные» страницы, а значит — роботы автоматически понизят ваше место в выдаче, ведь они проиндексируют и бесполезные для пользователей разделы. Перед тем, как закрыть доступ к сайту, убедитесь, что самые полезные части ресурса будут проиндексированы.
- Редизайн. Если вы решили поменять дизайн или улучшить навигацию, лучше закрыть сайт на время «ремонтных работ» как от роботов, так и от посетителей. Оценка порталов производится, в том числе, и по параметру юзабилити: если пользователи будут проводить минимум времени на страницах, этот пункт определенно пострадает. А значит — понизится и позиция сайта в выдаче.
Существует несколько способов заблокировать свой ресурс от посещений краулеров. Чтобы ими воспользоваться, совсем необязательно быть веб–мастером или обладать продвинутыми навыками программирования.
Как закрыть сайт от индексации: методы и инструкции
Метод 1. Скрываем портал при помощи robots.txt
Собственно, этот конфигурационный файл и содержит настройки, на которые ориентируются краулеры. Здесь устанавливаются запреты на индексацию определенных страниц или разделов, а также указываются и другие параметры сканирования. При желании, от пользователей и роботов можно спрятать PDF–файлы, служебные страницы, облака тегов и даже отдельные абзацы в тексте! Рекомендуется скрыть и отдельные элементы — проверку капчи, формы для сбора контактов, всплывающие окна, корзину для оформления заказов. С точки зрения SEO, они не представляют ценности, однако их сканирование будет тратить краулинговый бюджет.
Чтобы краулеры корректно распознавали ваши указания, необходимо, чтобы размер данного файла не превышал 500 Кб. Кроме того, расположить его следует в корневом каталоге сайта, а сервер, на котором расположен ваш ресурс, должен отвечать на запросы от роботов HTTP–кодом 200 Ок.
Метод 2. Используем метатеги
Самый простой и надежный способ скрыть целую страницу — добавить в HTML код метатег Robots. Он прописывается в разделе Head и выглядит следующим образом: <head> <meta name="robots" content="noindex"> </head>. Таким образом, краулеры не будут тратить ресурс на сканирование. При этом, вместо команды «noindex», запрещающей индексировать всю страницу, можно использовать директиву «none», которая не только запретит индексацию, но и не позволит роботам переходить по расположенным здесь ссылкам.
Случается так, что краулеры игнорируют директивы. Чтобы убедиться, что сайт полностью или отдельный контент скрыты, используйте инструменты Яндекс Вебмастер. Для этого перейдите в раздел «Индексирование» и в меню в левой части экрана выберите команду «Проверить статус URL». В появившемся поле необходимо вставить адрес искомого сайта и нажать «проверить». Система сформирует отчет, в котором будут указаны не только дата и время последнего визита роботов на портал, но и статус соответствующей страницы.
Получить больше данных можно через меню «Страницы в поиске». После того как Вебмастер сформирует отчет, отфильтруйте информацию по параметру «Удален: Ошибка HTTP». Так вы сможете увидеть URL тех страниц, которые удалены из индексации.
С помощью Taptop создаются сайты с открытым кодом: вы без труда внесете изменения в HTML–код, добавите файл robots.txt и скроете ненужные элементы от краулеров.