Инструменты, позволяющие управлять индексированием
На сегодняшний день разработчик Web-узла располагает скромным арсеналом технических средств, которые позволяют управлять роботами поисковых машин, занятых индексированием. Основных инструментов всего два: размещение файла со специальным именем robots.txt в корневом каталоге сервера и применение meta-тэгов в контейнере "HEAD" отдельного документа.
Файл robots.txt содержит набор команд, которые позволяют закрыть от индексирования отдельные каталоги узла. Обычно закрываются каталоги, содержащие скрипты, служебную информацию и т.п. Отчасти это повышает контрастность значимых документов узла в поисковой системе. К тому же поисковые машины нередко вводят ограничение на число ресурсов, регистрируемых для одного хоста. Некоторые роботы, как это имело место, например, для робота Lycos'а, вообще не проводят индексирования, если указанный файл отсутствует.
Итак, если вы поддерживате работу сервера с доменным именем www.your_name.com , то содержимое файла robots.txt должно быть доступно по URL http://www.your_name.com/robots.txt.
Подробное описание стандарта исключений и синтаксиса команд файла robots.txt вместе с другой полезной информацией о роботах, можно найти на WebCrawler'е по адресу http://info.webcrawler.com/mak/projects/robots/robots.html
Вместо строго изложения этого материала, приведем пример, который позволит сделать все необходимое, по крайней мере, для типичных ситуаций.
Файл robots.txt должен содержать одну или несколько записей, разделенных пустыми строками:
Пример 1:
# robots.txt for http://www.your_name.com
User-agent: *
Disallow: /cgi-bin/lex/ /tmp/ /css/ /pictures/
User-agent: scooter
Disallow:
Каждая запись должна содержать переменные User-agent и Disallow. User-agent задает оригинальное имя программы-робота соответствующей поисковой системы, для которого предназначена информация.
Позже появилась возможность перечислить несколько имен роботов через пробел. Disallow указывает на перечень закрываемых каталогов. В примере символ # предваряет строку комментария. Символ * является маской и означает "для всех роботов". Первая строка Disallow запрещает индексирование четырех каталогов. Затем роботу Scooter c поисковой системы AltaVista для доступа открываются все каталоги (поле Disallow пусто). Напротив, при необходимости закрыть все каталоги следовало бы написать "Disallow: /"
Файл robots.txt поддерживается практически всеми роботами, однако корневой каталог сервера может быть вам не доступен. В этом случае для аналогичных целей, но уже в пределах только одного документа, можно использовать специальные тэги META. МЕТА-тэги решают не только проблему запрета, но предоставляют и позитивные возможности для управления индексированием. С их помощью автор может самостоятельно задать набор ключевых слов и дать краткое описание своего ресурса.
Для демонстрации этих возможностей прибегнем к комплексному примеру HTML-кода документа.
Пример 2.
<HEAD>
<META name="robots" content="index, follow">
<META name="keywords" content="поиск, поисковая машина, поисковые машины, индексирование, управление индексированием" >
<META name="description" content="На этой странице Вы узнаете все о том, как управлять работой поискового робота с помощью МЕТА-тэгов">
<META name="author" content="M. Talantov">
<TITLE>Применение МЕТА-тэгов для управления индексированием </TITLE>
</HEAD>
Из примера видно, что все управление из META-тэга сводится к заданию двух переменных, а именно name и content. При данном значении name, переменная content может принимать значение из набора допустимых. Первая МЕТА (name="robots") дает роботам предписание индексировать и саму страницу (content="index ") , и документы, на которые она содержит ссылки (content="follow"). Вместо двух этих значений, приведенных через запятую, можно было бы написать одно content="all" с тем же результатом. Для переменной content в данной ситуации допустимо также использовать еще три значения: noindex -не индексировать сам документ, но идти по ссылкам с него, nofollow - индексировать, но не идти по ссылкам и none - эквивалентно употреблению двух последних через запятую.
Второй META-тэг (name="keywords") позволяет автору документа самому задать адекватный содержанию набор ключевых слов и фраз. Допустимая для восприятия роботом длина перечня варьируется от 874 до 1000 символов. При отсутствии META-тэга робот формирует этот набор автоматически на основе своего алгоритма. Если индексируется все содержимое документа, то он будет участвовать в отклике и по тем терминам, которые входят в его содержимое, но не присутствуют в МЕТА-тэге. Автоматический индекс при создании поискового образа документа может комбинировать содержимое META-тэгов и текста из тела документа, должным образом взвешивая термины из разных полей. Далеко не все системы, которые поддерживают META-тэги, отдают явное предпочтение терминам, входящим в них, по сравнению с другими полями Web-страницы. Так, например, из поисковых машин, приведенных в таблице 1, до последнего времени это делали только HotBot и Infoseek.
Отметим также, что МЕТА-тэг ключевых слов стоит разместить не как в примере, а в одну линию, поскольку некоторые роботы не умеют переходить к новой строке.
Следующая META c name="description" позволяет привести в поле content краткое описание документа. В зависимости от робота воспринимается длина текста от 150 до 250 символов. После индексирования описание должно появиться рядом со ссылкой на ваш документ на поисковой машине при попадании его в список отклика.
Последний МЕТА-тэг в примере 2, позволяющий ввести имя автора, также может использоваться роботом при сканировании.
Число разработчиков, предлагающих программное обеспечение, которое автоматически генерирует или проверяет meta-тэги увеличивается. Существует даже онлайновая служба Meta Medic (http://www.northernwebs.com/set/setsimjr.html), позволяющая бесплатно проверить Web-страницу на предмет корректности META-тэгов.
Комментарии Meta Medic указывают на возможные проблемы, а также дают советы по их преодолению.
Представители большинства поисковых систем уже склонились к тому, что применение META-тэгов способствует повышению релевантности отклика при обработке запросов. Тем не менее есть и прямо противоположное мнение, высказываемое, например, экспертами русской поисковой машины Рамблер (см. табл. 2).