Какими бы ни были причины создания своего сайта, самим фактом размещения его в Интернет, вы включаетесь в соревнование по продвижению сайта, где основными арбитрами становятся поисковые системы со своими вездесущими поисковыми роботами (ботами). Даже если вы специально не занимаетесь продвижением сайта, поисковики, рано или поздно начнут посещать ваш сайт, сканируя его страницы, файлы и каталоги.

Что такое файл robots.txt

Процесс сканирования поисковиками сайта практически неконтролируемый, но управляемый. Поисковые боты это всего лишь программы, в алгоритмы которых (правда, не всех) были включены обязательный поиск файла robots.txt в каталоге сайта, а при его нахождении его «чтение».

Сразу замечу, что не все поисковые системы обращают внимание на файл robots.txt. Многие боты его игнорируют, но основные поисковики его видят очень хорошо.

Правила написания файла robots.txt

Итак, при начале обхода сайта, поисковик ищет файл robots.txt и просматривает его для получения правил (директив) сканирования.

Примечание: Не путаем директивы сканирования в файле robots.txt и директивы индексирования (показа содержания) задающимися мета тегами robots.    

Файл robots.txt это специальный инструмент, который создан для управления поведением поисковых роботов при сканировании сайта. Синтаксис robots.txt нарочито простой. По расширению это простой текстовой файл, создать его можно в любом текстовом редакторе. Директив, команд которые понимают поисковики, несколько и основные из них две:

  • Disallow– Запрещено;
  • Allow– Разрешено.

Предусмотрено в файле «личное» обращение к поисковикам, при помощи директивы: [User-agent:], а именно:

  • [User-agent:*] – обращение ко всем поисковым ботам;
  • [User-agent:] – обращение к поисковикам Яндекс; 
  • [User-agent:] – обращение к поисковикам Google.

Не буду переписывать, давно написанные правила составления файла robots.txt, дам три ссылки:

  • https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml
  • https://support.google.com/webmasters/answer/6062596?hl=ru
  • http://www.robotstxt.org/orig.html

, здесь лишь отмечу: Не существует правильного или неправильного файла robots.txt, то есть, нет единого универсального файла, который может использоваться поголовно всеми. Каждый сайт уникален и вы сами должны решать, что показывать поисковикам, а что закрывать от них. Хотя у Joomla есть рекомендации на этот счет.

Рекомендованный файл robots.txt для Joomla 3

Повторюсь, нет единого файла robots.txt работающего для всех сайтов Joomla. Однако есть файл robots.txt рекомендуемый системой Joomla, который назовем файлом по умолчанию. Он лежит в системе под именем: robots.txt.dist и чтобы им воспользоваться достаточно его переименовать в файл robots.txt. В нем 14 директив disallow и общее обращение ко всем ботам.

Не обязательно самому составлять файл robots.txt. Можно воспользоваться генераторами файлов robots.txt. Например, тут: https://pr-cy.ru/robots/.

Как проверить свой файл robots.txt

Если вы самостоятельно оставили файл robots.txt его нужно и можно проверить в своем личном кабинете на сервисах вебмастеров Яндекс (https://webmaster.yandex.ru/robots.xml) и Google (https://www.google.com/webmasters/tools/robots-testing-tool)

yandex robots txt 1

проверка robots.txt на Яндекс - yandex robots txt 1

google search consol 1

проверка robots.txt на google - google search consol 1

google search consol robotstxt 1

проверка robots.txt на Google SearchConsole - google search consol robotstxt 1

Альтернатива файла robots.txt на Joomla 3

В этой статье я уже упоминал, о мета тегах robots. У них следующий синтаксис: <meta name="robots" content="noindex, nofollow">. Именно так выглядят мета теги robots задающиеся в Joomla.

Эти мета теги также обращаются к поисковым ботам, но уже не запрещают сканировать файлы сайта, а запрещают их индексирование. То есть, поисковик может поместить страницу сайта в свою базу данных, но не может поместить её в страницы выдачи (индекс).

О мета тегах и управления ими, планирую написать в следующей статье, здесь отмечу: Директивы файла robots.txt имеют преимущество перед директивами указанными в мета тегах robots. То есть, запрет сканирования, более важен, чем запрет индексирования.

©Joomla3-x.ru.

Другие статьи сайта по теме

 

Похожие статьи

Ошибки Яндекс продвижения Joomla са...

В этой статье рассмотрим и предотвратим ошибки продвижения в Яндекс Joomla ...

Установка и настройка Яндекс Метрик...

С первых дней создания сайта нужно собирать и анализировать статистику посе...

Первые шаги после публикации сайта ...

Раскрутка сайта начинается сразу после его публикации в Интернет. В этой ст...

Неработающие внутренние ссылки на с...

В этой статье поговорим про битые ссылки внутри сайта, а точнее про битые (...

Управление мета тегом Robots из пан...

Хорошо известно, что теория оптимизации предполагает, что администратор сай...

Как поменять название сайта Joomla ...

Сколько названий есть у сайта. Вы скажите одно и будете неправы. В Joomla и...

Рекомендуем

Copyright © 2024 Joomla3-х.ru. Все права защищены.