навигация
вход на сайт
Логин
Пароль
 

информация
календарь
 
«    Май 2007    »
ПнВтСрЧтПтСбВс
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
 
опрос
Курить любите?

Да!
Ну так..
Нет!


 

Топ 30

Раскрутка сайта >> Индексирование документов поисковыми роботами 16 мая 2007
Краткая справка

Как известно, одними из наиболее эффективных и результативных средств раскрутки веб-сайтов являются регистрация в каталогах Интернет-ресурсов и индексирование поисковыми системами. Но если первый метод в большинстве случаев зависит исключительно от того, как устроена процедура занесения информации о ресурсе в базу данных каталога, то подход пользователя к индексированию веб-документов поисковиками с полной уверенностью можно назвать индивидуальным и вполне предсказуемым. Регистрируясь в каталоге, пользователь вносит в установленные формы данные о сайте так, как он хочет. Однако, далеко не всегда информация о ресурсе будет отображена впоследствии в каталоге в первозданном виде: администраторы многих подобных серверов по-своему редактируют описание ресурсов, руководствуясь при этом собственными доводами и правилами.

Поисковая система представляет собой более сложную структуру и состоит из трех компонентов:

Робот (spider): Программа, которая просматривает веб-страницы, считывает (индексирует) их содержимое, следуя по ссылкам, найденным внутри документов. Возобновляет работу через определенный период времени.
Индексы: База данных о проиндексированных роботом документах.
Поисковый механизм: Программа, проверяющая в соответствии с запросом пользователя содержание индексов.
Следует сказать, что поисковые системы, в отличие от встроенных в каталоги поисковых двигателей, ищут не в пределах определенной серверными настройками базы данных, а по всей Сети, выводя страницы, находящиеся в их индексах (реестрах данных, где хранится информация о проиндексированных ресурсах). Именно последним и занимаются так называемые поисковые роботы (spiders, wanderers, robots). При обращении к серверу робот проверяет наличие файла robots.txt в его корневой директории, в котором могут быть вручную установлены правила индексирования тех или иных документов текущего узла. Однако, не все роботы "умеют" читать указанную в этом файле информацию: часть из них не поддерживает специальный стандарт описания правил индексирования файлов - Standard for Robot Exclusion. К сожалению, сегодня не все веб-мастера и ведущие Интернет-проектов имеют представление об этом стандарте, к тому же не каждый системный администратор, настраивающий веб-сервер, придает применению правил описания для поисковых роботов должное внимание.

Но данная статья будет посвящена не стандарту Standard for Robot Exclusion, что требует изучения специальных параметров описания правил и работы с веб-сервером, а тому, как правильно подготовить веб-документ для индексирования поисковыми роботами.

Релевантность документов

Когда пользователь вводит в строке запроса поисковой системы какое-то слово или словосочетание, робот обращается ко всем проиндексированным страницам. Количество полученных результатов может достигать десятков и даже сотен тысяч. Робот выводит результаты по критерию наибольшего соответствия содержания документов запросу пользователя, который называется релевантностью. Другими словами, самые подходящие страницы будут размещены в начале результирующего списка, выдаваемого поисковой системой. На релевантность влияют факторы ключевых слов, речь о которых и пойдет.
Индексирование документов поисковыми роботами

--------------------------------------------------------------------------------

Страница: 2
Количество ключевых слов

Под количеством ключевых слов (keywords) подразумевается их частота присутствия в документе (не путать с указанием ключевых слов в мета-тегах, разговор о которых пойдет чуть ниже). То есть страница, на которой робот обнаружит 15 раз запрошенное пользователем слово, будет более релевантна, чем та, которая содержит это слово всего 3 раза. Этот фактор как правило зависит от тематики ресурса и профессиональной этики веб-мастера. Логично допустить, что если страница называется "Лучшие бесплатные программы для Unix", в ее тексте навряд ли можно встретить слова "эротика", "макияж" или "трубопровод". Зато "система" или "Unix" могут встретиться десятки раз. Но когда вопрос траффика перерастает в вопрос жизни или смерти, некоторые веб-мастера идут на неэтичный шаг: указывают в документе ключевые слова, совершенно не имеющие отношения к теме ресурса. Делается это обычно очень мелким шрифтом, в самом низу страницы или цветом, совпадающим с задним фоном. Реже эти методы берут на вооружение люди, стремящиеся искусственным путем повысить релевантность своих документов: одно и тоже ключевое слово указывается большое количество раз.

Густота (плотность) ключевых слов

Под густотой (плотностью) ключевых слов принято понимать степень отношения количества ключевых слов к остальным словам в пределах документа. Поисковые роботы считают более релевантной страницу с конкретным словосочетанием, нежели документ, в котором есть помимо этого словосочетания другие слова и фразы. Например, документ, содержащий только два слова "коммерческое предложение", будет идти в результирующем списке впереди страницы, содержащей помимо сочетания слов "коммерческое предложение" еще и другие слова.

Расположение ключевых слов

Веб-страница имеет ряд особых мест, поместив ключевые слова в которые, можно надеяться на более высокую релевантность в индексах поисковых систем. Прежде всего это самое начало документа: текст, содержащий ключевые слова в верхней части страницы, заметно повысит релевантность. Также часто включают ключевые слова между парными тегами . Многие допускают ошибку, загромождая заголовок ключевыми словами.

Такой подход имеет, как минимум, три больших минуса: во-первых, исходный размер HTML-файла заметно увеличивается, во-вторых, при выдаче результатов поисковики выводят данные, указанные в заголовке (), что делает название найденных документов малопривлекательными, в-третьих, пользователю будет довольно сложно поместить страницу с таким длинным заголовком в папку Favorites/Bookmarks. Кроме этого, на релевантность документов влияет наличие выделенных фрагментов текста (теги форматирования , , , , ,

,

и др.) и внесение ключевых слов в комментарии, поле альтернативного текста и мета-теги (им будет посвящена отдельная часть статьи). Комментарии обособляются символами и --> и могут включать абсолютно любую информацию (она в окне браузера не отображается), например:

Далее в статье идет текст, посвященный мета-тегам -->

Поле альтернативного текста , предназначенное для появления подсказок к графическим элементам при наведении на них курсора, тоже имеет большой вес, когда речь заходит о релевантности страниц. Для сравнения приведу следующий пример: на странице абстрактного предприятия "Фирма" размещена кнопка about.gif размером 5 Кб со ссылкой, ведущей в раздел, рассказывающий об истории возникновения предприятия. Три варианта использования поля альтернативного текста :





Релевантность страниц согласно порядку применения поля будет изменяться от первого варианта к последнему: документ, где кнопке присвоено поле "История возникновения ООО Фирма", будет иметь более высокую релевантность, чем тот, чья кнопка имеет значение тега "about.gif, 5 Кб".
Мета-теги

Мета-теги по сути имеют два основных атрибута - HTTP-EQUIV и NAME. Первый можно отождествить с HTTP-заголовками, и мета-теги с этим атрибутом на ряде серверов могут быть автоматически преобразованы в HTTP-заголовки. Нас больше интересует атрибут NAME, а точнее - его значения "keywords", "description" и "robots", как влияющие на индексирование поисковыми спайдерами.

META NAME="keywords" CONTENT="........."
Здесь в значении атрибута CONTENT следует указывать ключевые слова и словосочетания. Делается это через запятую. Сюда можно добавить слова, которые не встречаются в документе (или встречаются крайне мало), но имеют отношение к тематике сайта (что снова повысит релевантность). Не стоит избегать указания словосочетаний: во-первых, многие пользовательские запросы состоят из нескольких слов, а во-вторых, документ с указанием в качестве keywords целой фразы, будет иметь большую релевантность, чем страница, где вместо ключевой фразы определены ее отдельные слова (например, "электронные магазины" или "электронные" и "магазины"). В среднем допускается указывать до 150-200 символов в качестве ключевых слов.


META NAME="description" CONTENT="........."
Значение атрибута CONTENT в данном случае уместно использовать, если в самом документе нет (или очень мало) тематического описания вашего сайта. Дело в том, что большинство поисковых систем в результирующем списке рядом с заголовком выводит 70-150 символов, относящихся к характеристике найденного документа. Если робот не обнаружит данного значения, его внимание будет обращено к проверке страницы с целью нахождения текста, характеризующего документ, и дальнейшего вывода этого текста в результирующем списке. Оптимальным решением является параллельное использование значений ключевых слов и описания (возможно дублировать ключевые слова в конструкции META NAME="description" CONTENT="...").


META NAME="robots" CONTENT="........."
Эта конструкция предназначена для того, чтобы указать поисковому роботу, индексирующему ваш сайт, что надо добавлять в индексы, а что нет. Последний случай не является редким, т.к. существует множество ситуаций, когда просто необходимо запретить индексирование: чаты, баннерные показы и пр. Есть шесть возможных значений атрибута CONTENT для данной конструкции:
ALL (разрешение индексации документа со всеми присутствующими в нем гиперсвязями);
NONE (запрет индексации документа со всеми присутствующими в нем гиперсвязями);
INDEX (разрешение индексации документа);
NOINDEX (запрет индексации документа);
FOLLOW (разрешение индексации присутствующих гиперсвязей);
NOFOLLOW (запрет индексации присутствующих гиперсвязей);
Если этот мета-тег пропущен или не указано значение атрибута CONTENT, то поисковый робот понимает их отсутствие как конструкцию CONTENT="INDEX, FOLLOW" (эти два значения - INDEX и FOLLOW аналогичны ALL).

Проблемы индексирования страниц

Однако в процессе подготовки страниц к индексированию роботами пользователь может столкнуться с целым рядом затруднений (или значительно позже, что еще хуже):

Страницы с фреймами. В Сети огромное количество сайтов, созданных с применением многооконной структуры (фреймов), а большинство поисковых систем не умеют с ними работать. Что же делать пользователю, который хочет, чтобы его ресурс был проиндексирован? Оказывается, выход есть. Если вы когда-нибудь работали с фреймами, то знаете, что подобно роботам некоторые браузеры их не поддерживают, для чего в документе, определяющем адреса загрузки составных страниц, ставится парный тег . В нем обычно пишут что-то вроде "Ваш браузер не поддерживает фреймы", дается ссылка на последнюю версию MSIE или NN, а в лучшем случае - линк на безфреймовый вариант сайта. Разумеется, информация, заключенная в данный тег, не отображается браузерами, имеющими поддержку фреймовых структур. Посему туда можно поместить подробное описание вашего сайта, указать ключевые слова и словосочетания. И потом нельзя забывать заголовок начальной страницы (TITLE), в котором тоже следует определить ключевые слова.


Невозможность индексирования. Причин затруднениям индексирования может быть несколько: некоторые поисковые роботы индексируют страницы, расположенные только в зоне .RU и соответствующих ей городских зонах, посему, если ваш сайт размещен на зарубежном сервере, в индексы он не попадет; некоторые спайдеры имеют ограничение на занесение в индексы не более какого-то числа ресурсов с одного домена; в конце концов, возможно, что вы случайно вместо значения INDEX мета-тега указали NOINDEX или сделали синтаксическую ошибку в составлении конструкции тегов мета-данных, влияющих на процесс индексирования веб-документов.


От: nema72 | Просмотров [30753] | 

Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии в данной новости.
Реклама

 

наверхнаверх
реклама
реклама
реклама
     
Copyright: YourSite.ru
Hosting: Hosting
Support: DLE4U.NET
Engine: DataLife Engine v5.x
Добавить новость
Экспорт новостей
Обратная связь
Статистика
сopyright © 2007-2008