Запрещаем индексацию сайта с помощью .htaccess

В этой статье подробно рассказано про запрет с помощью .htaccess. О запрете на индексацию через файл htaccess сложно узнать, т.к по сути это не запрет на индексацию, а запрет вообще на доступ к сайту для заданного посетителя (бота, браузера). Например, с помощью такого запрета можно скрыть сайт-донор от ботов сервисов анализа внешних ссылок.

Запрещаем индексацию сайта с помощью .htaccess
запрет с помощью .htaccess

О запрете на индексацию через файл htaccess сложно узнать, т.к. по сути это не запрет на индексацию, а запрет вообще на доступ к сайту для заданного посетителя (бота, браузера).

Например, с помощью такого запрета можно скрыть сайт-донор от ботов сервисов анализа внешних ссылок, тогда никто не сможет увидеть ссылки на ваш сайт кроме поисковых систем.

Таким образом защищают сетки сайтов созданных специально для простановки ссылок, так называемые PBN — private blog network.

Запрет с помощью .htaccess

Итак, нам понадобится файл .htaccess в корне сайта. Он почти всегда там есть, в нем могут содержатся другие важные инструкции, ни в коем случае не удаляйте их, а только дописывайте свои инструкции в файл.

Запрет настраивается в 2 шага:

  1. Определяем бота по User-Agent и присваиваем ему переменную среды
  2. По этой переменной устанавливаем запрет

Перед тем как написать эту статью, я смотрел инструкции в интернете и почти у всех скопирована ошибка – пропущен второй пункт. То есть устанавливают переменную, а запрет не установлен. Именно, поэтому я создаю эту статью, для тех кто не смог настроить по тем инструкциям (хотя скорей всего проверить большинство людей не сможет, а кто сможет проверить — тот сам увидит ошибку)

Кстати, чтобы проверить, что инструкция работает, рекомендую установить расширение “User-Agent Switcher for Chrome” поставить себе в браузере другой юзер-агент и по нему установить запрет. Если после этого вы не сможете войти на сайт, значит ваша настройка работает.

Инструкции надо прописывать в начале файла.

Определяем User-Agent

SetEnvIfNoCase User-Agent «^Googlebot» search_bot
SetEnvIfNoCase User-Agent «^Yandex» search_bot
SetEnvIfNoCase User-Agent «^Bing» search_bot

Вышеописанные строки для трех основных поисковиков Google, Yandex и Bing.

Задаем правило для запрета в  .htaccess

Order Allow,Deny
Allow from all
Deny from env=search_bot

Запрет доступа к определенным файлам/папкам

<FilesMatch «^.*$»>
Order Allow,Deny
Allow from all
Deny from env=search_bot
</FilesMatch>

P.S. Всегда сохраняйте предыдущий файл .htaccess перед редактированием, с ним шутки плохи!

Как узнать User-agent сервиса?

У большинства сервисов (и у поисковых систем) есть справочный раздел, в котором обычно указаны user-agent их ботов.

В крайней случае можно поискать в Яндекс или Google по запросу «нужный сервис user-agent»

Например «ahrefs user-agent» (ahrefs — самый популярный сервис для анализа внешних ссылок).