Почему GOOGLE индексирует закрытые веб-страницы

Почему Google индексирует закрытые веб-страницы

Почему Google индексирует закрытые веб-страницы

Blog Article



Джон Мюллер из Google объяснил, почему Google индексирует закрытые страницы, а также почему отчеты Search Console, связанные с этим, можно безопасно игнорировать.

Джон Мюллер из Google разъяснил на вопрос о том, почему Google индексирует страницы, которые запрещены для выполнения обхода с помощью файла robots.txt, и по какой причине можно не учитывать соответствующие отчеты Search Console об этих обходах.

Трафик ботов к URL-адресам с параметрами запроса

Человек, задающий вопрос, задокументировал, что боты создают ссылки на несуществующие URL-адреса с параметрами запросов (?q=xyz) на страницы с мета-тегами noindex, которые также блокированы в robots.txt. Вопрос был вызван тем, что Google обходит эти ссылки на страницы, блокируется в robots.txt (не видя мета-тег noindex), а затем сообщает об этом в Google Search Console как "Индексируется, хотя заблокировано robots.txt."

Человек спросил следующий вопрос:

"Но вот главный вопрос: почему Google индексирует страницы, когда он не может ознакомиться с содержимое? В чем тут выгода?"

Джон Мюллер из Google подтвердил, что если они не могут проникнуть на страницу, они не могут увидеть мета-тег noindex. Он также сослался на оператор site:search, посоветовав пропускать результаты, потому что "средние" пользователи не видят их.

Он написал:

"Да, вы правы: если мы не можем проникнуть на страницу, мы не можем наблюдать noindex. Тем не менее, если мы не можем обходить страницы, для нас там мало что можно индексировать. Так что, хотя вы можете наблюдать некоторые из этих страниц с помощью целевого запроса site:, средний пользователь их не увидит, поэтому я бы не заморачивался. Noindex также действует (без запрета в robots.txt), это просто означает, что URL-адреса будут обходиться (и попадут в отчет Search Console как 'обойдены/не индексируются' — ни один из этих статусов не приводит к проблем для остальной части сайта). Важно, чтобы вы не делали их доступными для обхода и индексации."

Связанный: Google советует сайтам использовать файл robots.txt для блокировки URL-адресов действий.

Выводы:

1. Ответ Мюллера подтверждает недостатки использования оператора Site:search для диагностических целей. Одной из причин является то, что он не регламентирован с обычным поисковым индексом, это совсем отдельная вещь.

Джон Мюллер из Google заметил оператор site search в 2021 году:

"Короткий ответ заключается в том, что запрос site: не предназначен для полноты, а также для диагностических целей.

Запрос site: — это определенный вид поиска, который ограничивает результаты определенным веб-сайтом. Это, по сути, просто слово "site", двоеточие и затем домен веб-сайта.

Этот запрос сужает результаты конкретным веб-сайтом. Он не предназначен для того, чтобы быть исчерпывающей сборником всех страниц этого сайта."

Оператор site не показывает индекс поиска Google, что делает его ненадежным для понимания того, какие страницы Google уже учел или нет. Как и другие операторы подробного поиска Google, они ненадежны как инструменты для понимания любых вопросов, связанных с тем, как Google распределяет или индексирует контент.

2. Мета-тег noindex без применения robots.txt подходит для таких ситуаций, когда бот создает ссылки на отсутствующие страницы, которые идентифицируются Googlebot.

Мета-тег noindex на страницах, которые не блокируются в robots.txt, разрешает Google просканировать страницу и прочитать директиву noindex, гарантируя, что страница не проявится в поисковом индексе, что желательно, если цель состоит в том, чтобы не разрешить страницу в поисковый индекс Google.

3. URL-адреса с мета-тегом noindex создадут в Search Console запись "обойдены/не индексируются", что не окажет негативного влияния на остальную часть веб-сайта.

Эти записи в Search Console, в контексте страниц, которые специально заблокированы, лишь указывают на то, что Google просканировал страницу, но не учел ее. По сути говоря, что это произошло, а не то, что (в этом данном контексте) есть что-то, что нужно скорректировать. Эта запись полезна для предупреждения издателей о страницах, которые непреднамеренно заблокированы мета-тегом noindex или по какой-либо другой причине, не допускающей индексации страницы. Тогда это стоит выяснить.

Report this page