Налаштування robots.txt: що на сайті варто заховати від робота?

Файл robots.txt являє собою набір директив (набір правил для роботів), з допомогою яких можна заборонити або дозволити пошуковим роботам індексування певних розділів і файлів вашого сайту, а також повідомити додаткові відомості. Спочатку за допомогою robots.txt реально було тільки заборонити індексування розділів, можливість дозволяти до індексації з’явилася пізніше, і була введена лідерами пошуку Яндекс і Google.

Структура файлу robots.txt

Спочатку прописується директива User-agent, яка показує, до якого пошуковому роботу належать інструкції.

Невеликий список відомих і частоіспользуемих User-agent:

  • User-agent:*
  • User-agent: Yandex
  • User-agent: Googlebot
  • User-agent: Bingbot
  • User-agent: YandexImages
  • User-agent: Mail.RU

Далі зазначаються директиви Disallow і Allow, які забороняють або дозволяють індексування розділів, окремих сторінок сайту або файлів відповідно. Потім повторюємо ці дії для наступного User-agent. В кінці файлу вказується директива Sitemap, де задається адреса карти вашого сайту.

Прописуючи директиви Disallow і Дозволяють, можна використовувати спеціальні символи * і $. Тут * означає «будь-який символ», а $ – «кінець рядка». Наприклад, Disallow: /admin/*.php означає, що забороняється індексація індексацію всіх файлів, що знаходяться в папці admin і закінчуються на .php, Disallow: /admin$ забороняє адреса /admin, але не забороняє /admin.php, або /admin/new/ , якщо такий є.

Якщо для всіх User-agent використовує однаковий набір директив, не потрібно дублювати цю інформацію для кожного з них, досить буде User-agent: *. У випадку, коли необхідно доповнити інформацію для якогось з user-agent, слід продублювати інформацію і додати нову.

Приклад robots.txt для WordPress:

*Примітка для User agent: Yandex

  • Для того щоб передати роботу Яндекса Url без Get параметрів (наприклад: ?id=, ?PAGEN_1=) і utm-міток (наприклад: &utm_source=, &utm_campaign=), необхідно використовувати директиву Clean-param.

  • Раніше роботу Яндекса можна було повідомити адресу головного дзеркала сайту за допомогою директиви Host. Але від цього методу відмовилися навесні 2018 року.
  • Також раніше можна було повідомити робота Яндекса, як часто звертатися до сайту за допомогою директиви Crawl-delay. Але як повідомляється в блозі для вебмайстрів Яндекса:
    • Проаналізувавши листи за останні два роки в нашу підтримку з питань індексування, ми з’ясували, що однією з основних причин повільного завантаження документів є неправильно настроєна директива Crawl-delay.
    • Для того щоб власникам сайтів не довелося більше про це турбуватися і щоб все дійсно потрібні сторінки сайтів з’являлися і оновлювалися в пошуку швидко, ми вирішили відмовитися від обліку директиви Crawl-delay.

    Замість цієї директиви в Яндекс вебмастер додали новий розділ «Швидкість обходу».

Перевірка robots.txt

Стара версія Search console

Для перевірки правильності складання robots.txt можна скористатися Вебмайстром від Google – необхідно перейти в розділ «Сканування» і далі «Переглянути як Googlebot», потім натиснути кнопку «Отримати і відобразити». В результаті сканування будуть представлені два скріншота сайту, де зображено, як сайт користувачі бачать і як пошукові роботи. А нижче представлений список файлів, заборона індексації яких заважає коректному зчитування вашого сайту пошуковими роботами (їх необхідно буде вирішити до індексації для робота Google).

Зазвичай це можуть бути різні файли стилів (css), JavaScript, а також зображення. Після того, як ви дозволите дані файли до індексації, обидва скріншота в Вебмастере повинні бути ідентичними. Винятками є файли, які розташовані віддалено, наприклад, скрипт Яндекс.Метрики, кнопки соціальних мереж і т. д. Їх у вас не вийде заборонити/дозволити до індексації. Більш докладно про те, як усунути помилку «Googlebot не може отримати доступ до файлів CSS і JS на сайті, ви читайте в нашому блозі.

Нова версія Search console

У новій версії немає окремого пункту меню для перевірки robots.txt. Тепер достатньо просто вставити адресу потрібної країни в рядок пошуку.

У наступному вікні натискаємо «Вивчити отриманий сторінку».

Далі натискаємо ресурси сторінки

У вікні видно ресурси, які з тих чи інших причин недоступні роботу google. На конкретному прикладі немає ресурсів, заблокованих файлом robots.txt.

Якщо ж такі ресурси будуть, ви побачите повідомлення наступного вигляду:

Рекомендації, що закрити robots.txt

Кожен сайт має унікальний robots.txt, але деякі спільні риси можна виокремити такий список:

  • Закривати від індексації сторінки авторизації, реєстрації, згадати пароль та інші технічні сторінки.
  • Адмін панель ресурсу.
  • Сторінки сортувань, сторінки відображення інформації на сайті.
  • Для інтернет-магазинів сторінки кошика, вибране. Більш докладно ви можете почитати в радах інтернет-магазинах за налаштувань індексування в блозі Яндекса.
  • Сторінка пошуку.

Це лише приблизний список того, що можна закрити від індексації від роботів пошукових систем. У кожному випадку потрібно розбиратися в індивідуальному порядку, у деяких ситуаціях можуть бути винятки з правил.

Висновок

Файл robots.txt є важливим інструментом регулювання відносин між сайтом і роботом пошукових систем, важливо приділяти час його налаштуванні.

У статті велика кількість інформації присвячено роботів Яндекса і Google, але це не означає, що потрібно складати файл тільки для них. Є й інші роботи – Bing, Mail.ru та ін. Можна доповнити robots.txt інструкціями для них.

Багато сучасних cms створюють файл robots.txt автоматично, і в них можуть міститися застарілі директиви. Тому рекомендую після прочитання цієї статті перевірити файл robots.txt на своєму сайті, а якщо вони там присутні, бажано їх видалити. Якщо ви не знаєте, як це зробити, зверніться до нас за допомогою.

Читайте також  Робота з Google Analytics – самостійне налаштування лічильника

Степан Лютий

Обожнюю технології в сучасному світі. Хоча частенько і замислююся над тим, як далеко вони нас заведуть. Не те, щоб я прям і знаюся на ядрах, пікселях, коллайдерах і інших парсеках. Просто приходжу в захват від того, що може в творчому пориві вигадати людський розум.

You may also like...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *