Якщо файл robots.txt повертає помилку 5xx, то Google не буде сканувати сайт
Якщо Googlebot не може отримати доступ до файлу robots.txt з-за помилки 5xx, то він не буде сканувати сайт. Про це заявив один із співробітників команди пошуку на Google Webmaster Conference, яка пройшла на початку цього тижня в штаб-квартирі компанії GooglePlex.
Згідно з Google, при скануванні robots.txt помилка 5xx повертається в 5% випадків, у 69% — краулер отримує код відповіді сервера 200 або 404, а в 26% — файл robots.txt зовсім недоступний.
Після виходу матеріалу Search Engine Land, в якому спочатку говорилося про те, що Google не буде сканувати сайт, якщо файл robots.txt існує, але недоступний (тобто в 26% випадків), у Twitter почали активно обговорювати це питання. Спільними зусиллями західним фахівцям вдалося з’ясувати, що насправді мова йшла про 5% випадків, коли сервер повертає помилку 5xx.
Відповідна поправка була внесена і в статтю Search Engine Land.
Якщо файлу robots.txt ні, то Google буде вважати, що
ніяких заборон на сканування немає:
Засновник Yoast SEO Джусто де Вальк також поцікавився, яка частина з 26% випадків, коли robots.txt недоступний, відноситься до WordPress, і варто звернути увагу на те, як WP генерує ці файли.
Співробітник Google Гері
Илш відповів, що з WP зазвичай немає проблем, але він ще додатково перевірить.
Прочитати детальніше про заяви Google з приводу сканування і ознайомитися з іншими цікавими з тезами доповідей співробітників пошуку на Webmaster Conference можна в нашому матеріалі по посиланню.