Почему страницы исключены из поиска. Как удалить URL адреса из поисковой выдачи Google и Яндекс

Здравствуйте! Сегодня пост о наболевшем для большинства из начинающих сайтостроителей. Мне приходилось очень часто в комментариях отвечать на один и тот же вопрос — как удалить страницы из поиска , которые были проиндексированы ранее, но в силу сложившихся обстоятельств были удалены и больше не существуют, но по-прежнему находятся в индексе поисковых систем. Или же в поиске находятся страницы запрещенные к индексации.

В комментариях особо не развернешься, поэтому после очередного вопроса решил уделить данной теме отдельное внимание. Для начала давайте разберемся, каким образом такие страницы могли оказаться в поиске. Примеры буду приводить исходя из собственного опыта, так что если я что-то забуду, то прошу дополнить.

Почему закрытые и удаленные страницы есть в поиске

Причин может быть несколько и некоторые из них я постараюсь выделить в виде небольшого списка с пояснениями. Перед началом дам пояснение что подразумеваю под «лишними» (закрытыми) страницами: служебные или иные страницы, запрещенные к индексации правилами или мета-тегом.

Несуществующие страницы находятся в поиске по следующим причинам:

  • Самое банальное — страница удалена и больше не существует.
  • Ручное редактирование адреса web-страницы, вследствие чего документ который уже находится в поиске становится не доступным для просмотра. Особое внимание этому моменту нужно уделить новичкам, которые в силу своих небольших знаний пренебрежительно относятся к функционированию ресурса.
  • Продолжая мысль о структуре напомню, что по-умолчанию после установки WordPress на хостинг она не удовлетворяет требованиям внутренней оптимизации и состоит из буквенно-цифровых идентификаторов. Приходится на ЧПУ, при этом появляется масса нерабочих адресов, которые еще долго будут оставаться в индексе поисковых систем. Поэтому применяйте основное правило: надумали менять структуру — используйте 301 редирект со старых адресов на новые. Идеальный вариант — выполнить все настройки сайта ДО его открытия, в этом может пригодиться локальный сервер.
  • Не правильно настроена работа сервера. Несуществующая страница должна отдавать код ошибки 404 или с кодом 3хх.

Лишние страницы появляются в индексе при следующих условиях:

  • Страницы, как Вам кажется, закрыты, но на самом деле они открыты для поисковых роботов и находятся в поиске без ограничений (или не правильно написан robots.txt). Для проверки прав доступа ПС к страницам воспользуйтесь соответствующими инструментами для .
  • Они были проиндексированы до того как были закрыты доступными способа.
  • На данные страницы ссылаются другие сайты или внутренние страницы в пределах одного домена.

Итак, с причинами разобрались. Стоит отметить, что после устранения причины несуществующие или лишние страницы еще долгое время могут оставаться в поисковой базе — все зависит от или частоты посещения сайта роботом.

Как удалить страницу из поисковой системы Яндекс

Для удаления URL из Яндекс достаточно пройти по ссылке и в текстовое поле формы вставить адрес страницы, которую нужно удалить из поисковой выдачи.

Главное условие успешного запроса на удаление:

  • страница должна быть закрыта от индексации правилами robots или мета-тегом noindex на данной странице — в том случае если страница существует, но не должна участвовать в выдаче;
  • при попытке обращения к странице сервер должен возвращать ошибку 404 — если страница удалена и более не существует.

При следующем обходе сайта роботом запросы на удаление будут выполнены, а страницы исчезнут из результатов поиска.

Как удалить страницу из поисковой системы Google

Для удаления страниц из поступаем аналогичным образом. Открываем инструменты для веб-мастеров и находим в раскрывающемся списке Оптимизация пункт Удалить URL-адреса и переходим по ссылке.

Перед нами специальная форма с помощью которой создаем новый запрос на удаление:

Нажимаем продолжить и следуя дальнейшим указаниям выбираем причину удаления. По-моему мнению слово «причина» не совсем подходит для этого, но это не суть…

Из представленных вариантов нам доступно:

  • удаление страницы страницы из результатов поиска Google и из кэша поисковой системы;
  • удаление только страницы из кэша;
  • удаление каталога со всеми входящими в него адресами.

Очень удобная функция удаления целого каталога, когда приходится удалять по несколько страниц, например из одной рубрики. Следить за статусом запроса на удаление можно на этой же странице инструментов с возможностью отмены. Для успешного удаления страниц из Google необходимы те же условия, что и для . Запрос обычно выполняется в кратчайшие сроки и страница тут же исчезает из результатов поиска.

По поводу выгрузки проиндексированных страниц, Яндекс наконец сделал то что и нужно было.

И вот теперь мы получили очень хороший инструмент с помощью которого можно получить очень интересную информацию.

Я сегодня расскажу об этой информации и вы сможете применить это для продвижения ваших сайтов.

Переходим в Яндекс.Вебмастер, в раздел «Индексирование»

И вот перед вам такая картинка(нажимайте, чтобы увеличить):

Эти данные исключённых страниц дают нам очень много информации.

Ну начнём с Редиректа:

Обычно редирект не таит в себе каких то проблем. Это техническая составляющая работы сайта.

Это обычный дубль страницы. Я бы не сказал, что это не настолько критично. Просто Яндекс из двух страниц посчитал более релевантной именно вторую страницу.

И Яндекс даже написал свой комментарий: Страница дублирует уже представленную в поиске страницу http://сайт/?p=390. Укажите роботу предпочтительный адрес с помощью 301 редиректа или атрибута rel=»canonical».

Это можно использовать следующим образом: Иногда вылетают страницы сайта которые вы продвигаете и наоборот встают в индекс их дубли. В данном случае нужно просто прописать канонический урл на обоих этих страницах на ту которую вы продвигаете.

После этого обе эти страницы добавляете в «Переобход робота».

Это та страница в мета-тегах которой прописан канонический урл на нужную страницу.

Тут как раз всё прекрасно и это обычный процесс работы сайта.

Тут также Яндекс пишет подсказку: Страница проиндексирована по каноническому адресу http://сайт/?p=1705, который был указан в атрибуте rel=»canonical» в исходном коде. Исправьте или удалите атрибут canonical, если он указан некорректно. Робот отследит изменения автоматически.

Обычно это происходит когда вы удалили какие то страницы, а редирект не поставили. Или 404 ошибку не поставили.

Какого то вреда для продвижения сайта это не даёт.

Ну и подходит к самому интересному. Недостаточно качественная страница.

Т.е. страницы нашего сайта вылетели из индекса Яндекса потом что они недостаточно качественные.

Безусловно это важнейший сигнал вашему сайту, что у вас глобальные проблемы с этими страницами.

Но не всё так однозначно как кажется.

Зачастую это страницы пагинации, поиска или другого мусора. И эти страницы правильно исключены из индекса.

Но иногда бывает, что из индекса исключают карточки товаров Интернет-магазина. Причём исключают тысячами. И это безусловного говорит о том, что с вашими страницами карточек товаров какие то серьёзные проблемы.

Я за неделю просмотрел многие Интернет-магазины и почти у всех есть подобное. Причём вылет страниц наблюдается по десятку тысяч.

Тут могут быть такие проблемы, что мы имеем несколько одинаковых страниц где товар просто разного цвета. И Яндекс считает, что это одна страница.

В данном случае тут или делать одну страницу с выбором цвета на одной странице или же дорабатывать другие страницы.

Но конечно стоит сказать, что это ГЛОБАЛЬНАЯ помощь для всех владельцев Интернет-магазинов. Вам дали ясно понять какие страницы у вас улетели и почему.

Тут нужно работать над качеством этих страниц. Может эти страницы дублируют другие, а может и нет.

Иногда на таких страницах элементарно отсутствует текст. А на некоторых отсутствует цена и Яндекс удаляет из индекса такие страницы.

А ещё я заметил, что если на странице карточки товара стоит статус «Товар отсутствует на складе», то такая страница тоже удаляется из индекса Яндекса.

В общем то работайте.

О других интересных фишках я расскажу в понедельник на своём семинаре —

Да и ещё. Многие знают такую траблу с Яндекс.Советником:

Т.е. вы заплатили за клик с Директа, а Яндекс.Советник уводит вашего оплаченного клиента на Яндекс.Маркет.

Это на самом деле вопиющий случай.

Как я понял Яндекс ничего менять не будет.

Ну хорошо, тогда поменяю я сам.

Этот Яндекс.Советник косается в первую очередь Интернет магазинов. А Интернет магазины стоят в первую очередь на движках: Битрикс, Джумла, Вебасист.

Так вот для этих движков я пишу блокиратор советника. Т.е. при установке на вашем движке этого плагина, на вашем сайте не будет работать Яндекс.Советник.

Всем кто придёт на мои семинар я позже скину эти плагины бесплатно.

Я выбрал наиболее популярные движки на которых стоят ИМ. Для сайтов услуг это не нужно. А вот для ИМ, самое то.

Если есть вопросы, то задавайте вопросы.

Привет, друзья! Надеюсь, что вы отлично отдохнули на майские праздники: наездились на природу, наелись шашлык и нагулялись по расцветающей природе. Теперь же нужно возвращаться к активной работе =) .

Сегодня я покажу результаты одного небольшого эксперимента по удалению всех страниц сайта из поисковых систем Яндекса и Google. Его выводы помогут при выборе одного из методов для запрета индексирования всего ресурса или отдельных его частей.

Передо мной встала задача - закрыть сайт к индексированию без потери его функционала. То есть ресурс должен работать, но удалиться из индекса поисковых систем. Конечно, самый верный способ просто удалить проект с хостинга. Документы будут отдавать 404-ошибку и со временем "уйдут" из базы поисковиков. Но задача у меня была другая.

  • определить, какой метод запрета индексации приоритетней для поисковых систем;
  • понаблюдать в динамике за скоростью ;
  • собственно, удалить проекты из баз ПС.

В эксперименте участвовало 2 сайта (всем больше года). Первый: в индексе Яндекса 3000 страниц, Google - 2090. Второй: Яндекс - 734, Google - 733. Если не удалять ресурс с хостинга, то остаются 2 популярных варианта: тег meta name="robots" и запрет в robots.txt.

Для первого сайта на каждой странице была добавлена строка:

Для второго был составлен следующий robots.txt:

User-agent: *
Disallow: /

Эксперимент стартовал 14 декабря и продолжился до 9 мая. Данные снимались примерно на даты апдейтов Яндекса.

Результаты

Ниже графики динамики количества проиндексированных страниц. Сначала сайт №1 (метод удаления тег meta name="robots").

Как видно, поисковые системы вели себя примерно по одному сценарию. Но есть и различия. В Яндексе ресурс был полностью удален 10 февраля, когда в Google оставалось еще 224 страницы. Что говорить, спустя 5 месяцев там еще остается 2 десятка документов. Гугл очень трепетно относится к проиндексированным страницам и не хочет никак их отпускать .

Сайт №2 (способ запрета файл - robots.txt).

Здесь ситуация разворачивалась интереснее . Яндекс достаточно быстро (меньше чем за месяц) удалил все страницы. Гугл же за месяц выкинул из индекса около 100 документов, потом через месяц еще 200 и практически застыл на месте.

4 апреля мне надоело ждать и я поменял метод запрета с robots.txt на meta name="robots". Это принесло свои плоды - через месяц в базе Google осталось только 160 страниц. Примерно такое же количество остается и по сей день.

Примечателен еще один момент. Несмотря на то, что страницы из индекса удалялись достаточно долго, трафик с поисковиков начал падать значительно быстрее.

Получается, что ПС понимают, что вебмастер запретил ресурс или его документы к индексированию, но почему-то продолжают их там держать .

Выводы

  1. Яндекс любит больше работу с robots.txt;
  2. Google любит больше работу с meta name="robots". В связи с тем, что Гугл крайне не любит robots.txt, то универсальным будет именно способ с тегом. Совмещать методы нельзя, потому как, запретив ресурс в robots.txt, поисковый паук не сможет прочитать правила для meta name="robots".
  3. Зеркало Рунета достаточно быстро удаляет документы при любом методе. Зарубежный поисковик делает это неохотно - очень тяжело добиться полного удаления из базы.

Вот такой получился небольшой эксперимент. Да, конечно, выборка совсем небольшая, но и она смогла подтвердить мои предположения. В прикладном плане это можно использовать, когда есть необходимость закрыть определенные документы для индексирования: предпочтительно использовать meta name="robots" вместо директив в robots.txt.

А какие наблюдения по этой теме есть у вас? Поделитесь своим опытом в комментариях !

Как удалить страницу из индекса поисковых систем и вообще зачем это нужно? В этой статье мы рассмотрим все варианты и ответим на часто задаваемые вопросы.

Зачем удалять страницу(ы) из индекса?

Причин удалить страницу или страницы из индекса может быть много. Самыми распространенными являются:

  • Страница является дублем (например, страницы site.ru/cat/stranica.html и site.ru/cat/stranica могут быть дублями). А как известно всем - дубли в индексе это зло, которое вредит сайту в целом.
  • Страница перестала существовать (например, информация больше не актуальна).
Как долго будет удаляться страница из индекса

Скорость удаления от нас не зависит. Максимальный срок где-то 60..90 дней. Средний срок удаления по моему опыту лежит в районе 25..35 дней. Если мы будем указывать в ручную через панель Яндекс Вебмастера или Google Вебмастера, что страницу нужно удалить, то процесс будет быстрее. Здесь самое главное, чтобы поисковый робот зашел на запрещенную страницу сайта, а далее он уже при обновлении индекса исключит ее из выдачи.

Способы удалить страницу из индекса

В рассмотренных ниже вариантах страница будет существовать (будет открываться для пользователей), но в индексе поисковиков мы ее запретим (удалим).

1. Через мета тег

Закрывать страницы от индексации с помощью robots.txt удобно тем, что можно сразу массово указать весь раздел или же запретить к индексации группу однотипных страниц. Однако поисковые системы четко говорят, что для них файл роботс не является обязательным в плане выполнения. Т.е. поисковая система в теории может оставить в индексе документ, который закрыт в роботс. Правда я таких примеров не знаю.

3. Через панель вебмастера поисковых систем

И в Яндексе и Google в панели вебмастера есть такая возможность. Однако если вы удаляете страницу подобным образом, то нужно понимать, что страница предварительно должна быть закрыта одним из выше описанных способов, иначе ничего не произойдет. Подобным удалением мы лишь намекаем поисковым роботам, что нужно обязательно зайти на эти страницы в ближайшем обходе.

3.1. Панель Яндекс Вебмастер

Адрес страницы - http://webmaster.yandex.ru/delurl.xml . Зайдя на эту страницу нужно просто указать в форме адрес страницы, которую вы хотите удалить из индекса.

3.2. Панель Google Вебмастер

Адрес страницы - https://www.google.com/webmasters/tools/ . Чтобы попасть на нужную форму выберите сайт из списка (если у вас несколько сайтов) и далее выберите вкладку "Индекс Google" -> "Удалить URL-адреса".

В гугле можно прописать сразу каталог URL-адресов (так же как в robots.txt).

4. Заголовки X-Robots-Tag

Этот способ используется только в Google. Запись о запрете должна находиться в http-заголовках:

X-Robots-Tag : noindex, nofollow

5. Через редирект или 404 ошибку

Удалить из индекса страницу можно также с помощью редиректа или возвращать со страницы 404 ошибку . В таком случае поисковые системы также удалять страницы из индекса.

Мы рассмотрели основные способы по удаление страницы из индекса. Как я уже писал выше скорость удаления в каждом случае разная. Но одно можно сказать точно - это не быстро. В любом случае это займет дней 5-7 минимум.

Практически каждый вебмастер, особенно на начальном этапе создания проекта, сталкивался с необходимостью удаления страниц веб-сайта из индекса поисковиков. Даже не взирая на то, что процедура, на первый взгляд, довольно простая, у многих все же возникают трудности.

Порой владельцу веб-ресурса приходиться скрывать документ от поисковиков по следующим причинам:

  • сайт находится в стадии разработки и попал в выдачу совершенно случайно;
  • контент на странице больше неактуален;
  • документ дублирует другую страницу, которая уже есть на сайте;
  • в индекс попали служебные страницы, где размещены личные данные клиентов.

Во избежание таких случаев, сегодня мы поговорим о 4 эффективных способах удаления страницы из индекса поисковых систем.

Как закрыть страницу от поисковиков с помощью панели вебмастера?

Данный метод закрытия доступа к страницам вашего сайта для поисковых роботов считается одним из самых легких. Причем этот инструмент идеально подходит для тех случаев, когда определенные URL нужно удалить срочно.

Yandex

Для этого вам понадобится сервис Яндекс.Вебмастер . Как добавлять сайт на эту площадку для ускорения индексации, мы рассказывали . Перейдите по ссылке https://webmaster.yandex.ru/tools/del-url/ и добавьте в соответствующее поле адрес конкретной страницы, затем нажмите «Удалить».


С большой долей вероятности Yandex попросит вас ускорить процесс удаления страницы из базы данных системы. Для этого вам нужно предварительно закрыть ее от ботов через файл либо мета-тег robots, или сделать так, чтобы сервер выдавал ошибку 404. Про то, как это сделать, мы поговорим чуть позже.

Понадобится несколько часов или даже дней, прежде чем боты удалят документ из базы. Это связано с тем, что системе нужно будет отслеживать его статус и убедиться, что он уже не изменится.

Google

Авторизируйтесь на площадке Google Webmaster Tools . Предварительно добавьте свой сайт в индекс, если вы еще этого не сделали. Затем найдите там вкладку «Индекс Google», и под ним «Удалить URL адреса». В появившемся окне выберите опцию создания запроса на удаление, и укажите в поле адрес удаляемого документа. Затем отправьте запрос.

Ошибка 404 на сервере

Наверняка каждый пользователь, ища нужную информацию в Интернете, попадал на страницу, где выдавало ошибку 404 – «Страница не найдена» . Это значит, что искомый по вашему запросу документ был удален с ресурса.

Сделать это вебмастер может в панели управления сайтом, например, . Для поисковиков это означает, что вы настраиваете ответ сервер этой страницы так, чтобы на определенном адресе появился код 404 not found . И когда робот снова посетит данный URL, сервер сообщит ему, что страницы больше нет. Это дает понять поисковикам, что документ удален с сайта, и они уберут его из поисковой выдачи, чтобы посетители не заходили на него и не читали ошибку 404.

К характерным особенностям данного способа можно отнести:

  1. Простую настройку всего за несколько кликов.
  2. Полное исчезновение документа из веб-ресурса. Из-за этого не рекомендуется использовать данный метод в случае, когда из индекса нужно убрать служебную страницу (конфиденциальную информацию клиентов и пр.).
  3. Также стоит прибегнуть к другому варианту скрытия страницы, например, 301 редирект, если на нее ведут входящие ссылки.

Важно! Страница выпадает из поискового индекса не за счет ее удаления с ресурса, а за счет дальнейшей переиндексации. Поэтому для ее удаления вам придется ждать около 2ух недель, пока бот вновь не посетит ресурс.

Для вебмастеров такой метод является одним из самых удобных, а вот посетителю ошибка 404 может не понравиться, и есть риск того, что пользователь, увидев ее, перестанет заходить на сайт. Но выход есть и из этой ситуации.

На заметку. Очень часто сайтостроители занимаются интересным оформлением страницы, на которой вылетает ошибка 404 not found. Они выкладывают туда полезную информацию и предлагают посетить другие страницы ресурса, которые непременно привлекут внимание посетителя. Так вы сделаете эту страницу более привлекательной для пользователя, что непременно положительно скажется на его рейтинге и узнаваемости.

Изменение файла robots.txt

Еще один распространенный метод, к которому прибегают вебмастера. Он позволяет скрыть отдельные документы и целые разделы. В файле robots вы можете не только запретить, но и разрешить поисковым ботам индексировать сайт или определенные страницы. Подобные команды обеспечиваются применением директивы Disallow.

Для скрытия страницы от поисковых машин, вам нужно получить доступ к корневой папке сайта. В документе robots.txt в основном содержатся 2 строки:

  1. User- agent. Здесь указывается имя робота определенного поисковика, которому вы запрещаете сканировать страницу, или же прописывается код User-agent: * , применимый сразу для всех ботов.
  2. Disallow. Тут прописывается URL удаляемой страницы.

Вместе они создают команду для поисковых машин, касающуюся указанного URL. Если требуется, вы можете в одном файле скрыть сразу несколько документов на одном ресурсе, и они никак не будут влиять друг на друга.

Например, вот так мы укажем всем поисковым роботам, чтобы они не индексировали страницы index и password на нашем сайте

User-agent: * Disallow: /index Disallow: /password

Когда вы пропишите данную команду, нужно будет ждать следующей индексации. Вам стоит знать, что все изменения в файле robots несут для поисковиков рекомендательный характер, поэтому не удивляйтесь, если объект по-прежнему останется в индексе, но с пометкой о скрытии через robots.txt. Но если через определенный промежуток времени статус документа не изменится, он все же будет удален из базы данных поисковых систем.

Важно! Если на удаленных страницах есть внешние ссылки, то они останутся доступными для перехода именно по ним. Это связано с тем, что команды в файле robots не удаляют объект из поисковой выдачи фактически, а лишь скрывают его из результатов.

Мета-тег Robots

Если не вдаваться в подробности, то этот способ аналогичен вышеуказанному, вот только все команды прописываются в html-коде сайта внутри тегов head:

Все изменения также будут произведены после индексации. Преимущество использования мета-тега robots заключается в том, что посредством него из поиска можно удалить множество URL без необходимости изменения самого файла robots. Данный способ идеально подходит для начинающих сайтостроителей, которые постепенно создают новые страницы.

Также это отличный вариант тогда, когда вам нужно закрыть страницу от индекса Яндекса, но при этом оставить ее доступной в Google. Или же когда вы хотите удалить объект из поиска, но оставить информацию доступной на самом сайте.

Пример закрытия URL только для Яндекса:

Важно! Прописывание мета-тегов отличается от изменения robots.txt тем, что с их помощью вы сможете удалить объект из поиска, даже если на него ведут внешние ссылки. Этому способствует мета-тег noindex. Однако если ваш сайт создан не на базе WordPress, то процедура будет более сложной. Дело в том, что в WP есть специальный плагин Yoast SEO, который и позволяет удалять страницы мета-тегами.

Заключение

Если у вас вдруг появилась необходимость удалить отдельную страницу своего сайта из поискового индекса, вы с легкостью можете воспользоваться всеми указанными в данной статье методами. Выбирайте тот, который для вас более удобный, но при этом учитывайте характерные особенности каждого из них. Вообще, если вы хотите закрыть документ в максимально кратчайшие сроки, используйте сразу несколько вариантов.