developing.ru - клуб программистов


поиск по сайту:

Google



статистика:

Rambler's Top100



return_announcements(); ?>

А. Шкондин.
about@al.ru

Измерение релевантности. №4

Очень отрадно, что появились первые отзывы от читателей. Вот один из них:

...
я представлял себе проблему общения автора с поисковиком (очень примитивно,
она конечно технически гораздо сложнее) как некоторый договор. Существует вот
некий формат "ключевой информации" о моей статье которую обрабатывает поисковик,
я ее предоставляю в составе статьи (есть тэги в HTML), отсылаю поисковику - он
включает ссылку в свою БД. Всё. Судя по Вашим статьям дело обстоит гораздо
сложнее - эту ключевую информацию чуть ли не генерируют динамически. Я могу
понять, что существует банальное мошенничество - контент делается одного
содержания, а "завлекалка" - другого, но почему с этим надо как-то изощрённо
бороться? Бороться надо, но неужели это такая тяжелая задача -
проанализировать, хотя бы частотно, совпадение контента и завлекалки?
...
Михаил.

Да, безусловно, Михаил прав, существуют специальные META тэги (keywords и description), предназначавшиеся изначально для облегчения жизни поисковиков. Но вебмастера стали включать в эти тэги слова, не относящиеся к содержанию документов, пытаясь завлечь посетителей. Поэтому в некоторвх поисковых системах эти тэги если и не игнорируются при вычислении релевантности документа, то учитываются с наименьшим весом. Кстати из определения термина META-данных следует, что эти данные могут быть построены динамически, но основе контента. И если описание документа в поисковых системах остаётся таким, каким его определил вебмастер (правда, если этот тэг отсутствует, то поисковик генерирует его сам), то ключевые слова для документа выбирает поисковик, руководствуясь правилами, определёнными его создателями. Именно эти правила мы и пытаемся определить в данной рассылке. А вот с анализом совпадения контента и "завлекалки" (т.н. doorway) ничего хорошего не получается, по одной простой причине - поисковики не могут достоверно определить, что есть doorway, а что есть обычный документ. В случае если doorway состоит из одной-двух страниц, большинство ссылок которого ведут на какой-то конкретный сайт, поисковики справляются с тем или иным успехом. Это самый простой вариант. Но если эти ссылки разместить в обычном JavaScript (будь то обычный редирект без участия пользователя при помощи window.location() или просто ссылки выведенные в документ при помощи document.write()), поисковик становится беззащитным как ребёнок - он попросту не индексирует любые скрипты на странице.

ПС: Яндекс
Фраза для поиска: лыжи

Поиск осуществлён 06.03.2001
  1. Документ: katalog ski 97-98
    URL:    http://ski-club.org.ru/george/kats97-8.htm
    mask cnt a b i u h1 pos title freq
    лыж% 349 0 2 0 0 0 4 0 26.619
  2. Документ: ski - горные лыжи : техника катания : карвинг от "а" до "я"
    URL:    http://www.SKI.ru/skiframe/techniqs/karv.htm
    mask cnt a b i u h1 pos title freq
    лыж% 157 1 4 0 0 0 3 1 18.344
  3. Документ: горные лыжи :: горные лыжи в россии и мире :: горные лыжи
    URL:    http://www.golf.ru/ski/school.php3?c=ski/carving.htm
    mask cnt a b i u h1 pos title freq
    лыж% 166 2 3 0 0 0 2 8 18.295
  4. Документ: 1 www.skinews.ru - горнолыжный сервер. горные лыжи, горные лыжи, горы, горы, лыжи, лижы, склоны, снег, снег, андорра, австрия, франция, швейария, словакия, словения, турция, италия, туризм, ski, slops, snow, snow info, andorra, austria, france, switzerland, slovakia, slovenia, turkey, italy ...
    URL:    http://www.skinews.ru/Shop/sky.search.php3?country=2&indcity=121&year=01&mounth=2&sort=6
    mask cnt a b i u h1 pos title freq
    лыж% 3 0 0 0 0 0 6 3 22.333
  5. Документ: лыжня росии ; мастер класс / ski in russia ; master class
    URL:    http://www.ski-club.ru/geka/ski-new/press/consult/consult4.html
    mask cnt a b i u h1 pos title freq
    лыж% 127 0 0 0 0 7 1 1 26.764
  6. Документ: лыжи. тур на лыжах..
    URL:    http://bvtour.by.ru/proportion.htm
    mask cnt a b i u h1 pos title freq
    лыж% 8 1 0 0 0 0 1 2 2.75
  7. Документ: англо-русский словарь терминов и сленга (состояние снега, лыжи и сноуборд)
    URL:    http://www.trialsport.ru/cgi-bin/site/index.cgi?sub=090805
    mask cnt a b i u h1 pos title freq
    лыж% 69 4 1 0 4 0 8 1 12.826
  8. Документ: ваши первые шаги на горных лыжах
    URL:    http://www.rasc.ru/school/book06.shtml
    mask cnt a b i u h1 pos title freq
    лыж% 138 1 9 15 0 0 5 1 21.674
  9. Документ: activity.ru - горные лыжи - все о горных лыжах
    URL:    http://www.activiti.ru/index.php3?r=8&rr=about&p=3
    mask cnt a b i u h1 pos title freq
    лыж% 175 4 3 0 0 0 3 2 21.411
  10. Документ: ваши первые шаги на горных лыжах
    URL:    http://rasc.ru/school/book06.shtml
    mask cnt a b i u h1 pos title freq
    лыж% 138 1 9 15 0 0 5 1 21.674

Обратите внимание на пункты №8 и №10 - это один и тот же документ, но почему он встречается дважды надо выяснять у службы поддержки. Документ №6 является типичным doorway - состоит из одной страницы, все ссылки ведут на hypermart.net. Документ №4 является замечательной иллюстрацией к нашему диалогу с Михаилом. Основное содержание документа - сообщение "В базе не найдено ни одной записи по заданным условиям поиска". С точки зрения человека, ищущего информацию при помощи поисковика этот документ является мусором. С точки зрения вебмастера - удачная "завлекалка". Слово лыжи упомянуто в документе всего три раза (в заголовке), и ещё 6 раз встречается в META-тэгах keywords и description (они являются точной копией заголовка). Как видим, Яндекс к упомянутым выше "некоторым" поисковикам не относится, поэтому придётся опять вводить в рассмотрение при анализе документов мета тэги keywords и description.


С уважением,
Артём.


<< Предыдущая статья | Оглавление | Следующая статья >>