Продвигаем Ваши сайты!

Поисковая оптимизация
продвижение сайтов
контекстная реклама

Поиск:

О компании1
Новости2
Продвижение3
Портфолио4
Стоимость5
Информация6
Интернет-реклама7
Сервисы SEO8
Контакты9

 

Заказ SEO-услуг

Чтобы Ваш сайт стал приносить реальную выгоду, мы предлагаем оформить заказ на продвижение, интернет-рекламу.

По всем возникающим вопросам можно обращаться по телефону (3852) 25-38-83 а также можно написать нам письмо.

Рекомендуем

Реклама


А знаете ли вы, что...

В Алтайском крае пользователями интернета себя считают около 6% людей. В то же время столица края Барнаул, город с населением 603 500 жителей, в рунете очень активен, и это хорошо видно по достаточно высокому интернет-индексу.

Работа над файлом robots.txt

Файл robots.txt - это текстовый файл ASCII формата, который содержит специальные инструкции для роботов поисковой системы, запрещающие им индексировать контент указанных веб-страниц. Эти инструкции играют большую роль для процесса индексации веб-страниц поисковой системой. Общепринятый адрес файлов robots.txt - www.trave1.us/robots.txt. Именно с этого адреса начинается индексирование сайта роботами поисковой системы. Они читают расположенные здесь инструкции и следуют им. Файл robots.txt содержит два текстовых поля.

Например:

User-agent: *
Disallow:

Поле "User-agent" устанавливает имя поисковой системы, для которой доступ к ресурсу, указанному в поле "Disallow", запрещен. Поле "Disallow" устанавливает адрес страницы, недоступной для прочтения. Например:

User-agent: *
Disallow: /

Где "*" обозначаются все роботы поисковой системы, а "/" все URL. Такая запись читается следующим образом: "любой URL адрес не доступен для индексации любой поисковой системой". Т.к. любому URL предшествует "/", эта надпись запрещает доступ к любому URL, даже если его имя не указано. Если частичный доступ все же разрешен, то имя той поисковой системы, на которую не распространяется запрет, прописывается в команде следующим образом:

# Research access for Googlebot. (# доступ открыт для Google)
User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /concepts/new/

В этом случае оба поля прописываются дважды. Множественные команды для различных пользователей даются в разных строках. Приведенная команда обозначает, что для всех поисковых систем, кроме Google, доступ к странице с адресом /concepts/new/ запрещен. Символы, следующие за знаком "#" рассматриваются как комментарий к инструкции.

Работа с файлом robots.txt

  • Файлы robots.txt всегда прописываются в нижнем регистре (строчными буквами), например, написание Robots.txt или ROBOTS.TXT неверно.
  • Групповые символы не используются ни в одном из полей. Только знак "*" может находиться в поле "User-agent" как специальный символ со значением "все". Google - единственная поисковая система, которая поддерживает некоторые из групповых символов.
  • Файл robots.txt - это файл исключения, предназначенный для роботов поисковой системы, его использование не подразумевает того, что веб-сайт перестанет функционировать. Незаполненные пустые поля файла robots.txt сообщают, что индексирование страниц веб-сайта разрешено для роботов любой поисковой системы.
  • Один домен не должен содержать более одного файла robots.txt.
  • Владельцы сайтов, не имеющие административных прав, не могут создавать файлы robots.txt . Для реализации задач, выполняемых этим файлом, они в праве использовать специальный мета-тег Robots. Однако в последнее время нередко отмечают тот факт, что роботы поисковой системы игнорируют этот тег. По правилам работа роботов начинается именно с изучения файла robots.txt.
  • В файле robots.txt каждая команда должна прописываться в отдельной строке. Число команд не ограничено. Если оба поля содержат пустые строки, команда считается не действительной.
  • Содержание файла robots.txt прописывается только строчными буквами. Следует отметить, что во многих поисковых системах регистр, в котором написаны слова, имеет значение. Это касается системы Unix.

Преимущества использования файлов robots.txt

По правилам работа поисковой системы должна начинаться с прочтения файла robots.txt. При наличии файла роботы по умолчанию начинают индексирование сайтов именно с него. В этом файле можно разместить специальные инструкции, которые помогут при индексировании веб-ресурсов. Главные поисковые системы всегда следуют этим инструкциям.

  • Файл robots.txt используется для того, чтобы оградить ваш сайт от нежелательных роботов.
  • Файл robots.txt может использоваться для того, чтобы запретить доступ к определенным директориям на вашем сервере и их индексацию.
  • Несуществующий файл robots.txt может стать причиной ошибки  404, когда система просто не может обнаружить страницу.
  • Файл robots.txt направляет роботов на те страницы, которые необходимо проиндексировать.
  • Файл robots.txt также необходим для того, чтобы оградить серверы от непрерывных запросов и повторного индексирования одних и тех же сайтов. Если по какой-то причине определенные страницы вашего сайта содержат повторяющийся контент, вы можете контролировать их индексирование с помощью файла robots.txt, что поможет вам избежать наказаний поисковой системы.

Недостатки файла robots.txt

Многие хакеры могут проникнуть на ваш сайт, изучив файл robots.txt, и просмотреть данные ограниченного доступа. При эффективном контроле безопасности содержащейся на вашем сайте информации какие-либо хакеры, конечно, не представляют для вас серьезной опасности.

Например, если вы хотите запретить доступ к страницу с адресом www.domain.com/stats/index.php, необходимо прописать в файле robots.txt следующую команду:

User-agent: *
Disallow: /stats/

Однако хакерам не трудно догадаться, как зайти на эту страницу - нужно просто ввести в адресной строке браузера URL www.domain.com/stats. От вас же в этом случае потребуется принятие следующих мер:

  • Смените имя файла:

Поменяйте имя файла stats index.php на другое, например, stats-new.php. Тогда полный адрес страницы будет выглядеть следующим образом www.domain.com/stats/stats-new.php

Разместите по старому адресу страницы index.php простой текстовый файл, например, содержащий следующую информацию: "извините, но у вас нет прав для доступа к этой странице".

В этом случае хакерам будет трудно угадать имя файла и проникнуть на страницу ограниченного доступа.

  • Установите пароль:

Защитите паролем информацию, прописанную в robots.txt файле.

Оптимизация robots.txt файла

  • Правильные команды в robots.txt

Используйте правильные команды. Распространенной ошибкой является размещение команды, которая должна находиться в поле "User-agent" в поле "Disallow" и наоборот. Запомните, что команды "Allow", которая открывает доступ к странице, не существует. Если адрес страницы не указан в "Disallow", она автоматически считается доступной для прочтения поисковой системой. В настоящий момент поисковые системы различают только два поля: "User-agent" и "Disallow". В будущем возможно появление новых команд, контролирующих действия роботов поисковой системы.

  • Неверный синтаксис

Не размещайте сразу несколько URL адресов в одной и том же "Disallow" поле robots.txt файла. Каждая новая директория, к которой вы собираетесь ограничить доступ, должна быть прописана в новой строке (новом поле "Disallow"). Пример неправильной команды:

User-agent : *
Disallow: /concepts//links//images/

Верная запись:

User-agent: *
Disallow: /concepts/
Disallow: /links/
Disallow: /images/

  • Файлы и директории

Если вы собираетесь запретить индексацию отдельного файла, укажите после имени его расширение вместо "/". Например:

Для файла:

User-agent: *
Disallow: /hilltop.php

Для директории:

User-agent: *
Disallow: /concepts/

Запомните, что для того, чтобы запретить доступ ко всем файлам директории, не нужно прописывать в robots.txt файле каждый из них. Просто запретите доступ к директории, как показано в примере.

Распространенной ошибкой является то, что при запрете индексации файла "/" ставят с обеих сторон. При блокировании доступа к файлу в конце прописывается его расширение, при блокировании доступа к директории "/" (slash) ставится с обеих сторон.

  • Правильное расположение robots.txt файла

Не забывайте про общепринятый адрес размещения robots.txt файлов www.domain.com/robots.txt . Размещенный по другому адресу этот файл просто не обнаружится поисковой системой.

  • Прописные буквы в robots.txt

Никогда не прописывайте команды в robots.txt файле прописными буквами. Unix чувствителен к смене регистра (строчных и прописных букв) в имени файла или директории. Заглавные буквы используются в этом файле только в начале названий полей команды: "User-agent" и "Disallow".

  • Порядок команд в robots.txt файле

Если вам нужно заблокировать сайт от индексации всеми поисковыми системами, кроме одной, сначала нужно прописать команду, которая разрешит этой поисковой системе доступ к сайту. Неправильная команда:

User-agent: *
Disallow: /
User-agent: MSNbot
Disallow:

Прочитав первую часть этой команды, MSN не станет индексировать сайт.

Верная запись команды:

User-agent: MSNbot
Disallow:
User-agent: *
Disallow: /

  • Наличие robots.txt файла на сайте

Отсутствие robots.txt файла может вызвать 404 ошибку поисковой системы. Система не сможет обнаружить страницу. Обычно это не вызывает серьезных проблем, но лучше не рисковать и разместить на своем сайте стандартный robots.txt файл, разрешающий индексацию всех страниц на сайте всем поисковым системам.

User-agent: *
Disallow:

  • Использование "#" в robots.txt файле

Лучше не пишите никаких комментариев к команде, используя знак "#". Некоторые роботы могут неправильно истолковать строку комментария. Поэтому лучше написать новую строку команды вместо строки комментария.

Применение robots.txt файла

  • Роботы поисковой сети читают текст. Слишком много графических изображений делают страницу невидимой для поисковой системы. Используйте robots.txt файл для того, чтобы заблокировать нерелевантный или полностью графический контент.
  • Доступ ко всем без разбора файлам на вашем сайте может понизить релевантность контента. Это может серьезно повлиять на ваш рейтинг в поисковых системах. Используйте robots.txt файл для того, чтобы отправить роботов к релевантному контенту и блокировать от индексации нерелевантные страницы и директории.
  • robots.txt файл на многоязыковых сайтах (имеющих несколько языковых вариантов) может направлять роботов к релевантному контенту по определенным темам на разных языках. Разумеется, это очень помогает поисковым системам выдавать релевантные результаты для запроса на определенном языке. Это также помогает поисковой системе проводить расширенный поиск, когда требуется информация на указанном языке.
  • Многие роботы могут стать причиной серьезных проблем при установке сервера, не прекращая посылать на него запросы в пиковые периоды. Это может сказаться на вашем бизнесе. Запрещая доступ к своему сайту нерелевантным роботам вы можете решить эту проблему, блокируя от них доступ к электронной почте и графическим изображениям на вашем сайте.
  • С помощью robots.txt файла вы можете блокировать доступ к страницам с важной информацией и тем документам, которые находятся на стадии редактирования и не готовы для общего пользования.
  • Файл robots.txt может эффективно использоваться для повышения репутации вашего сайта в сети.