Как запретить в robots txt индексирование страниц. Какие страницы закрывать от индексации и как

Оставьте комментарий 6,950

Любая страница на сайте может быть открыта или закрыта для индексации поисковыми системами. Если страница открыта, поисковая система добавляет ее в свой индекс, если закрыта, то робот не заходит на нее и не учитывает в поисковой выдаче.

При создании сайта важно на программном уровне закрыть от индексации все страницы, которые по каким-либо причинам не должны видеть пользователи и поисковики.

К таким страницам можно отнести административную часть сайта (админку), страницы с различной служебной информацией (например, с личными данными зарегистрированных пользователей), страницы с многоуровневыми формами (например, сложные формы регистрации), формы обратной связи и т.д.

Пример:
Профиль пользователя на форуме о поисковых системах Searchengines.

Обязательным также является закрытие от индексации страниц, содержимое которых уже используется на других страницах.Такие страницы называются дублирующими. Полные или частичные дубли сильно пессимизируют сайт, поскольку увеличивают количество неуникального контента на сайте.

Как видим, контент на обеих страницах частично совпадает. Поэтому страницы категорий на WordPress-сайтах закрывают от индексации, либо выводят на них только название записей.

То же самое касается и страниц тэгов– такие страницы часто присутствуют в структуре блогов на WordPress. Облако тэгов облегчает навигацию по сайту и позволяет пользователям быстро находить интересующую информацию. Однако они являются частичными дублями других страниц, а значит – подлежат закрытию от индексации.

Еще один пример – магазин на CMS OpenCart.

Страница категории товаров http://www.masternet-instrument.ru/Lampy-energosberegajuschie-c-906_910_947.html .

Страница товаров, на которые распространяется скидка http://www.masternet-instrument.ru/specials.php .

Данные страницы имеют схожее содержание, так как на них размещено много одинаковых товаров.

Особенно критично к дублированию контента на различных страницах сайта относится Google. За большое количество дублей в Google можно заработать определенные санкции вплоть до временного исключения сайта из поисковой выдачи.

Еще один случай, когда содержимое страниц не стоит «показывать» поисковику – страницы с неуникальным контентом. Типичный пример — инструкции к медицинским препаратам в интернет-аптеке. Контент на странице с описанием препарата http://www.piluli.ru/product271593/product_info.html неуникален и опубликован на сотнях других сайтов.

Сделать его уникальным практически невозможно, поскольку переписывание столь специфических текстов – дело неблагодарное и запрещенное. Наилучшим решением в этом случае будет закрытие страницы от индексации, либо написание письма в поисковые системы с просьбой лояльно отнестись к неуникальности контента, который сделать уникальным невозможно по тем или иным причинам.

Как закрывать страницы от индексации

Классическим инструментом для закрытия страниц от индексации является файл robots.txt. Он находится в корневом каталоге вашего сайта и создается специально для того, чтобы показать поисковым роботам, какие страницы им посещать нельзя. Это обычный текстовый файл, который вы в любой момент можете отредактировать. Если файла robots.txt у вас нет или если он пуст, поисковики по умолчанию будут индексировать все страницы, которые найдут.

Структура файла robots.txt довольно проста. Он может состоять из одного или нескольких блоков (инструкций). Каждая инструкция, в свою очередь, состоит из двух строк. Первая строка называется User-agent и определяет, какой поисковик должен следовать этой инструкции. Если вы хотите запретить индексацию для всех поисковиков, первая строка должна выглядеть так:

Если вы хотите запретить индексацию страницы только для одной ПС, например, для Яндекса, первая строка выглядит так:

Вторая строчка инструкции называется Disallow (запретить). Для запрета всех страниц сайта напишите в этой строке следующее:

Чтобы разрешить индексацию всех страниц вторая строка должна иметь вид:

В строке Disallow вы можете указывать конкретные папки и файлы, которые нужно закрыть от индексации.

Например, для запрета индексации папки images и всего ее содержимого пишем:

Чтобы «спрятать» от поисковиков конкретные файлы, перечисляем их:

User-agent: *
Disallow: /myfile1.htm
Disallow: /myfile2.htm
Disallow: /myfile3.htm

Это – основные принципы структуры файла robots.txt. Они помогут вам закрыть от индексации отдельные страницы и папки на вашем сайте.

Еще один, менее распространенный способ запрета индексации – мета-тэг Robots. Если вы хотите закрыть от индексации страницу или запретить поисковикам индексировать ссылки, размещенные на ней, в ее HTML-коде необходимо прописать этот тэг. Его надо размещать в области HEAD, перед тэгом .</p> <p>Мета-тег Robots состоит из двух параметров. INDEX – параметр, отвечающий за индексацию самой страницы, а FOLLOW – параметр, разрешающий или запрещающий индексацию ссылок, расположенных на этой странице.</p> <p>Для запрета индексации вместо INDEX и FOLLOW следует писать NOINDEX и NOFOLLOW соответственно.</p> <p>Таким образом, если вы хотите закрыть страницу от индексации и запретить поисковикам учитывать ссылки на ней, вам надо добавить в код такую строку:</p> <blockquote><p><meta name=“robots” content=“noindex,nofollow”></p> </blockquote> <p>Если вы не хотите скрывать страницу от индексации, но вам необходимо «спрятать» ссылки на ней, мета-тег Robots будет выглядеть так:</p> <blockquote><p><metaname=“robots” content=“index,nofollow”></p> </blockquote> <p>Если же вам наоборот, надо скрыть страницу от ПС, но при этом учитывать ссылки, данный тэг будет иметь такой вид:</p> <blockquote><p><meta name=“robots” content=“noindex,follow”></p> </blockquote> <p>Большинство современных CMS дают возможность закрывать некоторые страницы от индексации прямо из админ.панели сайта. Это позволяет избежать необходимости разбираться в коде и настраивать данные параметры вручную. Однако перечисленные выше способы были и остаются универсальными и самыми надежными инструментами для запрета индексации.</p> <p>В прошлой статье мы рассмотрели вопросы ускорения индексации сайта. Говорили о том, что это важная часть всех работ по продвижению. </p><p>Тем не менее, есть ситуации, когда нужно <b>закрыть от индексации </b> либо весь сайт, либо какую-то часть: разделы, страницы, ссылки и т.д.</p><p>Сегодня мы рассмотрим вопрос, <b>как запретить индексацию сайта в поисковых системах </b>. В каких случаях это требуется? Обычно запрет индексации ставится на различные служебные модули сайта. Которые не несут смысловой нагрузки, как для пользователей, так и для ПС.</p><p>Это администраторский раздел, формы регистрации и ввода информации, профили юзеров и т.д. Так же это может быть и секретный раздел на форуме, содержание которого мы не хотим показывать всем. Кроме того, надо закрыть дубли страниц от индексации, которые могут создавать различные движки сайтов.</p><p>Запрещать индексировать можно как всю страницу целиком, так и отдельную ее часть, например кусок текста или ссылку. Поэтому можно говорить как о глобальном запрете индексирования, так и о локальном. Теперь поговорим предметно, как это реализовать.</p><h2>Запрет индексации сайта в robots.txt</h2><p>При помощи файла robots.txt мы можем запретить индексацию отдельной страницы или целого раздела сайта.</p><p>Я уже писал <a href="/glubokii-i-poverhnostnyi-rerait-plyusy-i-minusy-poverhnostnyi-i/">подробную статью</a> с множеством примеров про robots.txt . Там вы можете прочитать, что это за файл, как его создавать и настраивать. В контексте данной статьи я напомню, как запретить индексацию в robots.txt</p><p>User-agent: *<br> Disallow: /kolobok.html<br> Disallow: /foto/</p><p>Где, <b>* </b> — определяет, что инструкции предназначены для всех ПС;<br><b>Disallow: /kolobok.html </b> — запрещает индексировать файл kolobok.html;<br><b>Disallow: /foto/ </b> — дает запрет на индексацию всего содержимого папки foto.</p><p>Если вам надо запретить несколько папок и/или страниц, все их указываем в роботсе.</p><h2>Запрет индексации страницы в мета-теге robots</h2><p>Для запрета индексации отдельной страницы можно воспользоваться мета-тегом robots. Особенность его использования в отличие от robots.txt в том, что он дает указания сразу всем ПС. А в robots.txt можно настроить под отдельную поисковую систему. Этот мета тег подчиняется <a href="/vynesenie-obshchego-mnozhitelya-za-skobki-vynesenie-za-skobki-obshchego-mnozhitelya/">общим правилам</a> <a href="/programma-kotoraya-chitaet-format-html-kak-otkryt-vash-fail-html-kak-otkryt-fail-html-v/">формата html</a> и должен находится в заголовке страницы между тегами</p>.<br> Пример записи для запрета:<p>Атрибут content может содержать такие условия:</p><ul><li><b>index </b> — разрешает индексацию этой страницы;</li><li><b>noindex </b> – запрещает индексацию страницы;</li><li><b>follow </b> – разрешает индексировать ссылки на этой странице;</li><li><b>nofollow </b> – запрещает индексацию ссылок на странице;</li><li><b>all </b> – включает в себя сразу index и follow (разрешает индексировать и страницу и ссылки);</li><li><b>none </b> – включает noindex и nofollow, т.е. запрещает индексацию</li> </ul><p>пример записи, которая разрешает все:</p><p>Или запрещает все и индексацию текста и ссылок:</p><p>Так же, можно указать для какой ПС предназначены ограничения в мета теге robots. Яндекс точно понимает такую запись:</p><h2>Запрет индексации ссылки: атрибут rel=»nofollow» тега </h2><p>Атрибут rel=»nofollow» учитывают все нужные нам поисковики: Яндекс и Google. В отличие от мета-тега «robots», который, запрещает индексировать сразу все ссылки, «rel» закрывать только одну ссылку.</p><p>Часто этот атрибут применяют, когда не желают терять по ссылкам ссылочный вес страницы.</p><h2>Запрет индексации тегом</h2><p>При помощи тега можно закрыть от индексации определенную часть страницы. Это может быть кусок текста или кода, что угодно. Часто вебмастера закрывают этим тегом счетчики статистики и скрипты на сайтах. Пример записи:</p><p>часть страницы, которую надо закрыть от индексации</p><p>Тег «noindex» может располагаться в любой части страницы и не чувствителен к вложенности. Что бы сделать его валидным, применяйте такую запись:</p><p>текст, индексирование которого нужно запретить</p><h2>Запрет индексации в htaccess</h2><p>Файл htaccess может заблокировать доступ к определенной части сайта, например к отдельной странице. Если вы хотите закрыть страницу от Яндекса то вам нужна такая запись.</p><p>RewriteEngine On<br> RewriteCond %{HTTP_USER_AGENT} yandex<br> RewriteRule ^тут_урл_страницы$ — [F]</p><p>Вот мы и разобрали все <a href="/kak-uznat-balans-drugogo-abonenta-mts-vse-vozmozhnye-sposoby-sposoby/">возможные способы</a> и методы запрета индексации как целых разделов или страниц сайта, так и каких-то определенных частей. Кстати, посмотреть какие страницы вашего сайта закрыты от индексации можно в панеле вебмастера, как в Яндексе, так и в Google. Для этого нужно сайт добавить свой сайт в аккаунт, и при анализе страниц будет видно, какие из них закрыты.</p> <p>Robots.txt - это текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем.</p> <p>Яндекс поддерживает следующие директивы:</p> <table class="\" table frame-all="" doc-c-processedeach135="" doc-c-table__table=""><tr class="\" row doc-c-table__tr=""><th class="\" entry colsep-1="" rowsep-1="" doc-c-table__th="" id="\" recommend__entry__1>Директива </th> <th class="\" entry colsep-1="" rowsep-1="" doc-c-table__th="" id="\" recommend__entry__2>Что делает </th> </tr><tbody class="\" tbody><tr class="\" row doc-c-table__tr=""><td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__1>User-agent * </td> <td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__2></td> </tr><tr class="\" row doc-c-table__tr=""><td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__1>Disallow </td> <td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__2></td> </tr><tr class="\" row doc-c-table__tr=""><td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__1>Sitemap </td> <td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__2></td> </tr><tr class="\" row doc-c-table__tr=""><td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__1>Clean-param </td> <td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__2></td> </tr><tr class="\" row doc-c-table__tr=""><td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__1>Allow </td> <td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__2></td> </tr><tr class="\" row doc-c-table__tr=""><td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__1>Crawl-delay </td> <td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__2></td> </tr></tbody></table><table class="\" table frame-all="" doc-c-processedeach135="" doc-c-table__table=""><tr class="\" row doc-c-table__tr=""><th class="\" entry colsep-1="" rowsep-1="" doc-c-table__th="" id="\" recommend__entry__1_modal>Директива </th> <th class="\" entry colsep-1="" rowsep-1="" doc-c-table__th="" id="\" recommend__entry__2_modal>Что делает </th> </tr><tbody class="\" tbody><tr class="\" row doc-c-table__tr=""><td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__1>User-agent * </td> <td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__2>Указывает на робота, для которого действуют перечисленные в robots.txt правила. </td> </tr><tr class="\" row doc-c-table__tr=""><td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__1>Disallow </td> <td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__2>Запрещает индексирование разделов или <a href="/kak-ubrat-avtomaticheskuyu-numeraciyu-v-vorde-kak-ubrat-numeraciyu-s/">отдельных страниц</a> сайта. </td> </tr><tr class="\" row doc-c-table__tr=""><td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__1>Sitemap </td> <td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__2>Указывает путь к файлу Sitemap , который размещен на сайте. </td> </tr><tr class="\" row doc-c-table__tr=""><td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__1>Clean-param </td> <td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__2>Указывает роботу, что <a href="/perenapravit-na-druguyu-stranicu-kak-v-php-zadat-redirekt-na-drugoi-url/">URL страницы</a> содержит параметры (например, UTM-метки), которые не нужно учитывать при индексировании. </td> </tr><tr class="\" row doc-c-table__tr=""><td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__1>Allow </td> <td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__2>Разрешает индексирование разделов или отдельных страниц сайта. </td> </tr><tr class="\" row doc-c-table__tr=""><td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__1>Crawl-delay </td> <td class="\" entry colsep-1="" rowsep-1="" doc-c-table__td="" headers="\" recommend__entry__2>Задает роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей. </td> </tr></tbody></table><p>* Обязательная директива.</p> <p>Наиболее часто вам могут понадобиться директивы Disallow, Sitemap и Clean-param. Например:</p><p>User-agent: * #указываем, для каких роботов установлены директивы\nDisallow: /bin/ # запрещает ссылки из \"Корзины с товарами\".\nDisallow: /search/ # запрещает ссылки страниц встроенного на сайте поиска\nDisallow: /admin/ # запрещает ссылки из панели администратора\nSitemap: http://example.com/sitemap # указываем роботу на <a href="/chto-dolzhno-byt-v-faile-sitemap-faily-sitemap-vliyaet-li-nalichie-sitemap-na/">файл sitemap</a> для сайта\nClean-param: ref /some_dir/get_book.pl </p><p>Роботы других поисковых систем и сервисов могут иначе интерпретировать эти директивы.</p> <p>Примечание. Робот учитывает регистр в написании подстрок (имя или путь до файла, имя робота) и не учитывает регистр в названиях директив.</p> <h2>Использование кириллицы</h2> <p>Использование кириллицы запрещено в файле robots.txt и HTTP-заголовках сервера.</p> <p>Для указания имен доменов используйте Punycode . Адреса страниц указывайте в кодировке, соответствующей кодировке текущей структуры сайта.</p> <p>Пример файла robots.txt :</p><p> #Неверно:\nUser-agent: Yandex\nDisallow: /корзина\n\n#Верно:\nUser-agent: Yandex\nDisallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0</p> <h2>Как создать robots.txt</h2> <h2>Вопросы и ответы</h2> <p>В Яндекс.Вебмастере на странице «Диагностика сайта» возникает ошибка «Сервер отвечает редиректом на запрос /robots.txt» </p><p>Чтобы файл robots.txt учитывался роботом, он должен находиться в корневом каталоге сайта и отвечать кодом HTTP 200. Индексирующий робот не поддерживает использование файлов, расположенных на других сайтах.</p> <p>Проверить ответ сервера и доступность файла robots.txt для робота можно с помощью инструмента <span>Проверка ответа сервера </span> .</p> <p>Если ваш robots.txt выполняет перенаправление на другой файл robots.txt (например, при переезде сайта), добавьте сайт, который является целью перенаправления, в Яндекс.Вебмастер и подтвердите права на управление сайтом.</p> <p>Присамостоятельном продвижении и раскрутке сайтаважно не только создание уникального контента или подборзапросов в статистике Яндекса (чтобы составитьсемантическое ядро), но и так же следует уделять должное внимание такому показателю, как<b>индексация сайта вЯндексеиГугле </b>. Именно эти две поисковые системы доминируют в рунете и то, насколько полной и быстрой будет индексация вашего сайта в Яндексе и Гугле зависит весь дальнейший успех продвижения.</p> <br><br><p>У нас с вами имеются в распоряжении два основных инструмента, с помощью которых мы можем управлять индексацией сайта в Гугле и Яндексе. Во-первых, это, конечно же, файл<b>robots.txt </b>, который позволит нам настроить запрет индексации всего того на сайте, что не содержит основного контента (файлы движка и дубли контента) и именно о robots.txt и пойдет речь в этой статье, но кроме robots.txt существует еще один <a href="/tehnologiya-ekstremalnogo-programmirovaniya-lyudi-uchastvuyushchie-v-proekte-i-ih/">важный инструмент</a> для управления индексацией —карта сайта (<a href="/sozdanie-xml-faila-sitemap-dlya-wordpress-bloga-plagin-kak-dobavit-na-wordpress/">Sitemap xml</a>), о которой я уже довольно подробно писал в приведенной по ссылке статье.<br></p><h3>Robots.txt — почему так важно управлять индексацией сайта в Яндексе и Гугле</h3><p>Robots.txt и Sitemap xml (файлы позволяющие управлять индексацией сайта) очень важны для успешного развития вашего проект и это вовсе не голословное утверждение. В статье по Sitemap xml (см. ссылку выше) я приводил в пример результаты очень важного исследования по наиболее частым <a href="/chto-to-poshlo-ne-tak-platezh-ne-proshel-iz-za-tehnicheskoi-oshibki-chto-delat/">техническим ошибкам</a> начинающих вебмастеров и там на втором и третьем месте (после не уникального контента) находятся как раз<b>robots.txt и Sitemap xml </b>, а точнее либо отсутствие этих файлов, либо их неправильное составление и использование.</p><p>Надо очень четко понимать, что не все содержимое сайта (файлы и директории), созданного на каком-либо движке (CMS Joomla,SMFилиВордпресс), должно быть доступно для индексации Яндексом и Гугле (другие поисковые системы я не рассматриваю, в силу их малой доли в поиске рунета).</p><p>Если не прописать определенные правила поведения в robots.txt дляботов поисковых систем, то при индексации в поисковые системы попадет множество страниц, не имеющих отношения к содержимому сайта, а также может произойти многократное дублирование контента информации (по разным ссылкам будет доступен один и тот же материал сайта), что поисковики не любят. <a href="/polnoekrannye-smartfony-bluboo-s2-vozmozhno-luchshee-dizainerskoe-reshenie-dlya/">Хорошим решением</a> будет запрет индексации в robots.txt.</p><p>Для того, чтобы задать правила поведения для поисковых ботов используется<b> файл robots.txt </b>. С его помощью мы сможем влиять на процесс индексации сайта Яндексом и Google. Robot.txt представляет из себя обычный текстовый файл, который вы сможете создать, и в дальнейшем редактировать, в любом <a href="/luchshie-tekstovye-redaktory-dlya-windows-tekstovye-redaktory-dlya-windows/">текстовом редакторе</a> (например,Notepad++). Поисковый робот будет искать этот файл в корневом каталогевашего сайта и если не найдет, то будет индексировать все до чего сможет дотянуться.</p><p>Поэтому после написания требуемого файла robots.txt (все буквы в названии должны быть в нижнем регистре — без <a href="/css-pervaya-bukva-zaglavnaya-ostalnye-strochnye-sozdanie/">заглавных букв</a>) его нужно сохранить в <a href="/kak-naiti-kornevuyu-papku-fleshki-gde-nahoditsya-kornevaya-papka-fleshki/">корневую папку</a> сайта, например, с помощьюFtp <a href="/ftp-klient-filezilla-nastroika-podklyucheniya-k-ftp-serveru-ustanovka-i/">клиента Filezilla</a>, так чтобы он был доступен по такому адресу: http://vash_site.ru/robots.txt.</p><p>Кстати, если вы хотите узнать как выглядит файл robots.txt того или иного сайта, то достаточно будет дописать к адресу <a href="/yandeks-na-glavnuyu-stranicu-postavit-kak-sdelat-glavnuyu-stranicu-yandeks/">главной страницы</a> этого сайта /robots.txt . Это может быть полезно для определения наилучшего варианта для вашего файла robots.txt, но при этом надо учитывать, что для разных сайтовых движков оптимальный файл robots.txt будет выглядеть по разному (<b>запрет индексации в robots.txt </b>нужно будет делать для <a href="/poisk-i-udalenie-odinakovyh-fotografii-programmy-dlya-poiska/">разных папок</a> и файлов движка). Поэтому если вы хотите определиться с <a href="/otkrytie-fb2-na-kompyutere-chem-otkryt-fb2-i-kak-pravilno-ispolzovat/">лучшим вариантом</a> файла robots.txt>, допустим для форума на SMF, то и изучать файлы robots.txt нужно для форумов, построенных на этом движке.</p><h3>Директивы и правила написания файла robots.txt (disallow, user-agent, host)</h3><p>Файл robots.txt имеет совсем не сложный синтаксис, который очень подробно описан, например, в Я ндексе. Обычно, в файле robots.txt указывается для какого поискового робота предназначены описанные ниже директивы (директива<b>"User-agent" </b>), сами разрешающие ("<b>Allow </b>") и запрещающие директивы ("<b>Disallow </b>"), а также еще активно используется директива "<b>Sitemap </b>" для указания поисковикам, где именно находится файл карты сайта.</p><p>Еще полезно указать в файле robots.txt какое из зеркал вашего сайта является главным<b>в директиве "Host </b>". Если даже у вашего сайта нет зеркал, то полезно будет указать в этой директиве, какой из вариантов написания вашего сайта является главным с www или без него. Т.к. это тоже является своего рода зеркалированием. Об этом я подробно рассказывал в этой статье:Домены с www и без www — история появления, использование 301 редиректа для их склеивания.</p><p>Теперь поговорим немного о<b>правилах написания файла robots.txt </b>. Директивы в файле robots.txt имеют следующий вид:</p><p><b>Правильный файл robots.txt </b>должен содержать хотя бы одну директиву «Disallow» после каждой записи «User-agent». <a href="/pochemu-fleshka-pustaya-chto-delat-esli-faily-na-fleshke-ne-vidny/">Пустой файл</a> robots.txt предполагает разрешение на индексирование всего сайта.</p><p><b>Директива «User-agent» </b>должна содержать название поискового робота. При помощи этой директивы в robots.txt можно настроить индексацию сайта для каждого конкретного поискового робота (например, создать запрет индексации <a href="/programma-dlya-zamorozki-sostoyaniya-kompyuterov-v-seti-vyhod-iz/">отдельной папки</a> только для Яндекса). Пример написания директивы «User-agent», адресованной всем поисковым роботам зашедшим на ваш ресурс, выглядит так:</p><p>Приведу несколько простых примеров<b>управления индексацией сайта в Яндексе </b>, Гугле и других поисковиках с помощью директив файла robots.txt с объяснением его действий.</p><ol><b>1 </b>. Приведенный ниже код для файла robots.txt разрешает всем поисковым роботам проводить индексацию всего сайта без каких-либо исключений. Это задается пустой директивой Disallow.<p><b>3 </b>. Такой файл robots.txt будет запрещать всем поисковикам проводить индексацию содержимого каталога /image/ (http://mysite.ru/image/ — путь к этому каталогу)</p><p><b>5 </b>. При описании путей для директив Allow-Disallow можно использовать<b>символы "*" и "$" </b>, задавая, таким образом, определенные <a href="/operatory-otnosheniya-i-logicheskie-operatory-peremennye-operacii/">логические выражения</a>. Символ "*" означает любую (в том числе пустую) последовательность символов. Следующий пример запрещает всем поисковикам индексацию файлов на сайте с расширение «.aspx»:</p><table border="0" cellpadding="0" cellspacing="0" style="margin: 0px; padding: 0px;"><tbody style="margin: 0px; padding: 0px;"><tr style="margin: 0px; padding: 0px;"><td class="gutter" style="color: rgb(175, 175, 175) !important; margin: 0px; padding: 0px;"> </td><td class="code" style="margin: 0px; padding: 0px;"><p>Disallow: *.aspx</p> </td> </tr></tbody></table></ol><p>Во избежания возникновения <a href="/gromkaya-knopka-home-na-iphone-6s-iphone-se-hrustit-knopka-reshaem-problemu/">неприятных проблем</a> с зеркалами сайта (Домены с www и без www — история появления, использование 301 редиректа для их склеивания) , рекомендуется добавлять в файл<b>robots.txt директиву Host </b>, которая указывает роботу Яндекса на главное зеркало вашего сайта (Директива Host, позволяющая задать главное зеркало сайта для Яндекса). По правилам написания robots.txt в записи для User-agent должна быть хотя бы одна директива Disallow (обычно ставят пустую, ничего не запрещающую):</p><table border="0" cellpadding="0" cellspacing="0" style="margin: 0px; padding: 0px;"><tbody style="margin: 0px; padding: 0px;"><tr style="margin: 0px; padding: 0px;"><td class="gutter" style="color: rgb(175, 175, 175) !important; margin: 0px; padding: 0px;"> </td><td class="code" style="margin: 0px; padding: 0px;"><p>User-agent: Yandex</p><p>Host: www.site.ru</p> </td> </tr></tbody></table><h3>Robots и Robots.txt — запрет индексации поисковыми системами дубликатов на сайте</h3><table cellpadding="0" cellspacing="0" class="ya-partner__list ya-context__list_item_1" style="border-collapse: separate !important; border-spacing: 0px !important; border: none !important; display: table !important; font-size: inherit !important; line-height: normal !important; margin: 0px !important; padding: 0px !important; width: 562px;"><tbody style="font-size: inherit !important; margin: 0px; padding: 0px;"><tr class="ya-partner__tr" style="font-size: inherit !important; margin: 0px; padding: 0px;"><td class="ya-partner__item ya-partner__item_pos_first ya-partner__item_pos_last" style="border-bottom-left-radius: 0px !important; border-bottom-right-radius: 0px !important; border-collapse: separate !important; border-spacing: 0px !important; border-top-left-radius: 0px !important; border-top-right-radius: 0px !important; font-size: inherit !important; line-height: normal !important; margin-bottom: 0px !important; margin-left: 0px; margin-right: 0px !important; margin-top: 0px; padding: 0.5em !important; position: static !important; vertical-align: top !important;"><br></td> </tr></tbody></table><p>Существует еще один способ<b>настроить индексацию отдельных страниц сайта </b> для Яндекса и Гугле. Для этого внутри тега «HEAD» нужной страницы, прописывается МЕТА-тег Robots и так повторяется для всех страниц, к которым нужно применить то или иное правило индексации (запрет или разрешение). Пример применения мета-тега:</p><table border="0" cellpadding="0" cellspacing="0" style="margin: 0px; padding: 0px;"><tbody style="margin: 0px; padding: 0px;"><tr style="margin: 0px; padding: 0px;"><td class="gutter" style="color: rgb(175, 175, 175) !important; margin: 0px; padding: 0px;"> </td><td class="code" style="margin: 0px; padding: 0px;"><p><meta name= "robots" content= "noindex,nofollow" ></p><p><meta name= "description" content= "Эта страница...." ></p><p><title>...

В этом случае роботы всех поисковых систем должны будут забыть об индексации этой страницы (об это говорит noindex в мета-теге) и анализе размещенных на ней ссылок (об этом говорит nofollow) .

Существуют только две парыдиректив мета тега Robots : index и follow:

Index — указывают, может ли робот проводить индексацию данной страницы
Follow — может ли он следовать по ссылкам со страницы

Значения по умолчанию – «index» и «follow». Есть также укороченный вариант написания с использованием «all» и «none», которые обозначают активность всех директив или, соответственно, наоборот: all=index,follow и none=noindex,nofollow .

Для блога на WordPress вы сможете настроить мета-тег Robots, например, с помощью плагинаAll in One SEO Pack . Ну все, с теорией покончено и пора переходить к практике, а именно, к составлению оптимальных файлов robots.txt для Joomla, SMF и WordPress.

Как известно, у проектов, созданных на основе какого-либо движка (Joomla, WordPress, SMF и др), имеется множество вспомогательных файлов не несущих никакой информативной нагрузки.

Если не запретить индексацию всего этого мусора вrobots.txt , то время, отведенное поисковыми системами Яндекс и Гугл на индексацию вашего сайта, будет тратиться на перебор поисковыми роботами файлов движка на предмет поиска в них информационной составляющей, т.е. контента, который, кстати, в большинстве CMS хранится в базе данных, к которой поисковым роботам никак не добраться (вы можете работать с базами черезPhpMyAdmin). В этом случае, времени на полноценнуюиндексацию сайта у роботов Яндекса и Гугла может не остаться.

Кроме того, следует стремиться к уникальности контента на своем проекте и не следует допускать дублирования контента (информационного содержимого) вашего сайта при индексировании. Дублирование может возникнуть в том случае, если один и тот же материал будет доступен по разным адресам (URL). Поисковые системы Яндекс и Гугл, проводя индексацию сайта, обнаружат дубли и, возможно, примут меры к некоторой пессимизации вашего ресурса при их большом количестве.

Если ваш проект создан на основе какого-либо движка (Joomla, SMF, WordPress), то дублирование контента будет иметь место возможно с высокой вероятностью, а значит нужно с ним бороться, в том числе ис помощью запрета индексации в robots.txt .

Например, в WordPress, страницы с очень похожим содержимым, могут попасть в индекс Яндекса и Гугле если разрешена индексация содержимого рубрик, содержимого архива тегов и содержимого временных архивов. Но если с помощью мета-тега Robots создать запрет на индексацию архива тегов и временного архива (можно теги оставить, а запретить индексацию содержимого рубрик), то дублирования контента не возникнет. Для этой цели в WordPress лучше всего будет воспользоваться возможностямиплагина All in One SEO Pack.

Еще сложнее с дублированием контента обстоит дело в форумном движке SMF. Если не производить тонкую настройку (запрет) индексации сайта в Яндексе и Гугле через robots.txt, то в индекс поисковых систем попадут многократные дубли одних и тех же постов. В Joomla иногда возникает проблема с индексацией и дублированием контента обычных страниц и их копий, предназначенных для печати.

Robots.txt предназначен для задания глобальных правил запрета индексации в целых директориях сайта, либо в файлах и директориях, в названии которых присутствуют заданные символы (по маске). Примеры задания таких запретов индексации вы можете посмотреть в первой статье этой статьи.

Для запрета индексации в Яндексе и Гугле одной единственной страницы, удобно использовать мета-тег Robots, который прописывается в шапке (между тегами HEAD) нужной страницы. Подробно о синтаксисе мета-тега Robots чуть выше по тексту. Для запрета индексации внутри страницы можно использовать тег NOINDEX , но он, правда, поддерживается только поисковой системой Яндекс.

Директива Host в robots.txt для Яндекса

Теперь давайте рассмотрим конкретные примеры robots.txt, предназначенного для разных движков — Joomla, WordPress и SMF. Естественно, что все три файла robots.txt, созданные для разных движков, будут существенно (если не сказать кардинально) отличаться друг от друга. Правда, будет во всех этих robots.txt один общий момент и момент этот связан с поисковой системой Яндекс.

Т.к. в рунете поисковик Яндекс имеет достаточно большой вес, то нужно учитывать все нюансы его работы, то для корректнойиндексации сайта в Яндексе нужна директива Host в robots.txt . Эта директива, в явной форме, укажет Яндексу главное зеркало вашего сайта. Более подробно почитать об этом вы можете здесь:Директива Host, позволяющая задать главное зеркало сайта для Яндекса.

Для указания директивы Host советуют использовать отдельный блог User-agent в файле robots.txt, предназначенный только для Яндекса (User-agent: Yandex). Это связано с тем, что остальные поисковые системы могут не понимать директиву Host и, соответственно, ее включение в директиву User-agent, предназначенную для всех поисковиков (User-agent: *), может привести к негативным последствиям и неправильной индексации вашего сайта.

Как обстоит дело на самом деле — сказать трудно, ибоалгоритмы работы поисковиков — это вещь в себе, поэтому лучше сделать в robots.txt все так, как советуют. Но в этом случае в файле robots.txt вам придется дублировать в директиве User-agent: Yandex все те правила, что вы задали в директиве User-agent: * . Если вы оставите директиву User-agent: Yandex с пустой директивой Disallow: , то таким образом выв robots.txt разрешите Яндексу индексацию всего сайта .

Прежде чем перейти к рассмотрению конкретных вариантов файла robots.txt, хочу вам напомнить, что проверить работу своего файла robots.txt вы можете в Яндекс ВебмастериГугл Вебмастер.

Правильный robots.txt для форума SMF

Allow: /forum/*sitemap

Allow: /forum/*arcade

Allow: /forum/*rss

Disallow: /forum/attachments/

Disallow: /forum/avatars/

Disallow: /forum/Packages/

Disallow: /forum/Smileys/

Disallow: /forum/Sources/

Disallow: /forum/Themes/

Disallow: /forum/Games/

Disallow: /forum/*.msg

Disallow: /forum/*. new

Disallow: /forum/*sort

Disallow: /forum/*topicseen

Disallow: /forum/*wap

Disallow: /forum/*imode

Disallow: /forum/*action

User-agent: Slurp

Crawl-delay: 100

Обратите внимание, что этот robots.txt приведен для того случая, когда ваш форум SMF установлен в директории forum основного сайта. Если форум не стоит в директории, то просто удалите из всех правил /forum . Авторы данного варианта файла robots.txt для форума на движке SMF говорят, что он даст максимальный эффект для правильной индексации в Яндексе и Гугле, если вы не будете активировать на своем форуме дружественные URL (ЧПУ).

Дружественные URL в SMF можно активировать или дезактивировать в админке форума, пройдя по следующему пути: в левой колонке админки выбираете пункт «Характеристики и настройки», в нижней части открывшегося окна находите пункт "Разрешить дружественные URL ", где можете поставить или снять галочку.

Еще одинправильный файл robots.txt для форума SMF (но, наверное, еще не окончательно оттестированный):

Allow: /forum/*sitemap

Allow: /forum/*arcade # если не стоит мод игр, удалить без пропуска строки

Allow: /forum/*rss

Allow: /forum/*type=rss

Disallow: /forum/attachments/

Disallow: /forum/avatars/

Disallow: /forum/Packages/

Disallow: /forum/Smileys/

Disallow: /forum/Sources/

Disallow: /forum/Themes/

Disallow: /forum/Games/

Disallow: /forum/*.msg

Disallow: /forum/*. new

Disallow: /forum/*sort

Disallow: /forum/*topicseen

Disallow: /forum/*wap

Disallow: /forum/*imode

Disallow: /forum/*action

Disallow: /forum/*prev_next

Disallow: /forum/*all

Disallow: /forum/*go.php # либо тот редирект что стоит у вас

Host: www.мой сайт.ru # указать ваше главное зеркало

User-agent: Slurp

Crawl-delay: 100

Как вы можете видеть в этом robots.txt, директива Host , предназначенная только для Яндекса, включена в директиву User-agent для всех поисковиков. Я бы, наверное, все-таки добавил отдельную директиву User-agent в robots.txt только для Яндекса, с повтором всех правил. Но решайте сами.

User-agent: Slurp

Crawl-delay: 100

связано с тем, что поисковая система Yahoo (Slurp — это имя его поискового бота) производит индексацию сайта в много потоков, что может негативно сказаться на его производительности. В этом правиле robots.txt, директива Crawl-delay, позволяет задать поисковому роботу Yahoo минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей. Это позволит снять нагрузку на серверпри индексации сайта поисковой системой Yahoo .

Для запрета индексации в Яндексе и Гугле версий для печати страниц форума SMF рекомендуют проделать, описанные ниже операции (для их осуществления понадобится открыть некоторые файлы SMF на редактирование с помощью программы FileZilla). В файле Sources/Printpage.php находите (например, с помощью встроенного поиска вNotepad++) строку:

В файле Themes/название_вашей_темы_оформления/Printpage.template.php находите строку:

Если вы так же хотите, чтобы в версии для печати была ссылка для перехода на полную версию форума (в случае, если часть страниц для печати уже прошла индексацию в Яндексе и Гугле), то в том же файле Printpage.template.php вы находите строку с открывающим тегом HEAD:

Получить больше информации по этому варианту файлаrobots.txt для форума SMF вы можете, почитавэту ветку русскоязычного форума поддержки SMF.

Правильный robots.txt для сайта на Joomla

Хотите узнать, как запретить индексацию сайта в robots.txt и с помощью других инструментов? Тогда представленный материал – именно для вас.

Безусловно, владельцы сайтов борются за то, чтобы их ресурс как можно быстрее проиндексировался поисковыми системами. Но бывают случаи, когда необходимо установить запрет индексации сайта, чтобы поисковый бот на какое-то время не посещал ресурс . Такими случаями могут быть:

недавнее создание сайта, когда на нем еще нет никакой полезной информации;
необходимость внесения обновлений (например, смена дизайна сайта);
наличие скрытых или секретных разделов или полезных ссылок, которые не хотелось бы передавать поисковым ботам.

Можно закрыть весь сайт целиком или же его отдельные части:

отдельный абзац или ссылка;
формы для ввода информации;
админская часть;
страницы пользовательских профилей и регистраций;
дубликаты страниц;
облако тегов и пр.

Есть много способов, с помощью которых можно закрыть сайт от индексации. Редактирование файла robots.txt – один из них. Мы рассмотрим этот способ и еще два наиболее популярных и простых.

Как закрыть сайт от индексации для Яндекса, Google и всех поисковых систем в robots.txt

Редактирование файла robots.txt – один из самых надежных и быстрых способов установить этот запрет для поисковых системам на какое-то время или же навсегда. Что для этого нужно сделать:

Создание файла robots.txt. Для этого нужно создать обычный текстовый документ с расширением.txt, присвоить ему имя «robots».
Созданный файл загрузить в корневую папку своего блога. Если сайт создан на движке WordPress, то эту папку можно найти там, где находятся папки wp-includes, wp-content и пр.
Непосредственно установка запрета индексации для поисковиков.

Запрет индексации сайта можно устанавливать как для конкретных поисковых систем, так и всех поисковиков. Мы рассмотрим разные варианты.

Чтобы закрыть сайт от индексации поисковыми ботами Google, потребуется в файле robots.txt написать следующее:

User-agent: Googlebot
Disallow: /

Для того, чтобы проверить, закрылся ли сайт от индексации, создается аккаунт и добавляется нужный сайт в Google Webmaster . Здесь предусмотрена функция проверки.

После этого будут показаны результаты. Если сайт запрещен для индексации, то будет написано «Заблокировано по строке» и указано, какая строка блокирует индексацию. Если же какие-то действия по запрету индексации поисковыми ботами Google были выполнены некорректно, то будет подписано «Разрешено».

Следует учесть, что невозможно с помощью robots.txt поисковой системе Google на 100% запретить индексацию. Это своего рода рекомендация для Гугла, так как он сам решит, выполнять ли ему индексацию отдельного документа, или нет.

Чтобы закрыть материалы сайта от индексации Яндексом, в файле robots.txt нужно ввести следующее:

User-agent: Yandex
Disallow: /

Для проверки статуса ресурса его нужно добавить в Яндекс Вебмастер, где затем нужно ввести несколько страниц со своего сайта и нажать кнопку «Проверить». Если все получилось, в строке будет высвечиваться надпись «Запрещен правилом».

Можно также установить запрет на индексацию вашего сайта одновременно для всех поисковых систем. Для этого, опять же, открываем файл robots.txt и прописываем в нем такую строку :

User-agent: *
Disallow: /

Проверка запрета индексации для Гугла и Яндекса выполняется по вышеописанной схеме в Google Webmaster и Яндекс Вебмастер соответственно.

Чтобы увидеть свой файл robots.txt, нужно перейти по адресу Вашдомен.ru/robots.txt. Здесь будет отображаться все, что было прописано. Бывает так, что появляется ошибка 404. Это говорит о том, что было выполнено что-то не так при загрузке своего файла.

Запрет индексации ресурса при помощи панели инструментов

Способ закрытия сайта от индексации с помощью панели инструментов подойдет только для тех ресурсов, которые были сделаны на Вордпресс.

Порядок действий простой и быстрый:

Откройте «Панель управления», пройдите в «Настройки» – «Чтение»;
Выставьте галочку в окошке «Рекомендовать поисковым машинам не индексировать сайт».
Сохранить изменения.

Выполнение данных действий – всего лишь рекомендация для поисковых машин . А то, будут ли индексироваться или не индексироваться материалы ресурса, они решают самостоятельно. В настройках видимости сайта даже присутствует специальная строка: «Поисковые машины сами решают, следовать ли Вашей просьбе». Отметим, что Яндекс обычно «слушается», а Гугл может поступать по своему усмотрению и все равно в некоторых случаях индексировать сайт, несмотря на рекомендацию.

Закрытие сайта от индексации вручную

В исходном коде при закрытии страницы или всего ресурса от индексации появляется строка

Именно эта строка подсказывает поисковым машинам, что не нужно индексировать отдельные материалы или ресурс. Можно вручную в любом месте сайта прописать данную строчку. Главное, чтобы она отображалась на всех страницах.

Этот способ подойдет также для того, чтобы закрыть какой-либо ненужный документ от индексации.

После выполнения обновлений нужно проверить, все ли получилось. Для этого нужно открыть исходный код с помощью клавиш CTRL + U и посмотреть, есть ли в нем нужная строчка. Ее наличие подтверждает успешную операцию по закрытию от индексации. Дополнительно можно осуществить проверку в Яндекс Вебмастер и Google Webmaster.

Итак, мы рассмотрели самые простые и быстрые способы, позволяющие закрыть весь сайт или отдельные материалы ресурса от индексации поисковыми машинами. И, как выяснилось, robots.txt – один из легких и относительно надежных способов.