developing.ru - клуб программистов


поиск по сайту:

Google



статистика:

Rambler's Top100



return_announcements(); ?>

А. Шкондин.
about@al.ru

Измерение релевантности. №1

Догадайтесь, с трёх раз, релевантность чего я буду измерять. Как, вы не знаете что такое релевантность? Релевантность (англ. relevancy) - уместность. Соответственно релевантный - уместный, или относящийся к делу. Если вы впервые слышите это слово, то, скорее всего все мои дальнейшие рассуждения будут для вас не интересны.

Те же, кто уже слышал это слово, знает, что оно очень часто употребляется по отношению к результатам поиска. А ищем мы что-либо в интернете при помощи поисковых систем либо каталогов. В каталогах за уместностью документов следят модераторы, т.е. живые люди. Поэтому при поиске все документы оказываются более-менее релевантны в зависимости от уровня осведомлённости модератора в той теме, за которой он закреплён. Соответственно измерять релевантность документов в каталогах не интересно, т.к. для каждой категории критерии уместности будут различны. Следовательно, речь пойдёт о помойках. Простите, оговорился, о поисковых системах. Собственно оговорка не случайна, перефразировав Владимира Владимировича можно сказать: "Релевантность и Спам близнецы-братья. Мы говорим Релевантность - подразумеваем Спам. Мы говорим Спам - подразумеваем Релевантность".

В FAQ'ах поисковых систем понятие спама почти никак не регламентировано, поэтому я дам собственное определения спама в отношении поисковиков: спам - понятие прямо противоположное уместности. Тут надо сделать маленькое уточнение. Некоторые вебмастера ошибочно считают, что релевантность документа поисковой фразе - это частота употребления этой фразы в документе и в, частности, в различных тэгах как то: <TITLE>, <A>, <B>, <H1> и др. Позвольте не согласиться. Я ещё раз напомню русский эквивалент термина - уместность. Так вот, документ, в котором через каждые два-три слова встречается одна и та же фраза (или слово) - не уместен, или попросту является спамом.

Впрочем, одно определение спама мне всё же удалось получить. Вот как описывает спам Дмитрий Тейблюм (Яндекс) в моей с ним переписке:

 
On 22-Jan-01 Artyem V. Shkondin wrote:
> Здравствуйте!
> 
> Хотелось бы узнать у Вас немного больше о том, что поисковик Яндекса считает
> спамом,  чтобы второй раз не наступать на те же грабли.
 
Критерий очень простой. Вы уже могли слышать, что наша поисковая
система занимается поиском в текстах, предназначенных для чтения 
людьми. Все остальные тексты (например, предназначенные для 
заманивания пользователей www.yandex.ru) считаются спамом.

Как видим, определения весьма расплывчаты, но мы попытаемся определить границы уместности и неуместности (или если угодно релевантности и спама) при помощи цифр, т.е. посмотрим, какие документы Яндекс считает "предназначенными для чтения людми", а какие относит ко "всем остальным".

Итак, поисковую систему мы уже выбрали, теперь выберем то, что собственно будем искать. Мой выбор остановился на двух словах, входящих в 100 самых популярных в рунете. Одно слово "плохое", другое - "хорошее". В силу нашего менталитета идут по жизни (и в 100-е, кстати, тоже) рука об руку. Слова эти халява и работа.

Результаты я буду приводить в следующей форме:

Документ: Название документа. Приводится полностью или в урезанном виде для слишком длинных заголовков.
URL:    месторасположение документа, зарегистрированное в поисковой машине
mask cnt a b i u h1 pos title freq
маска, по которой производился подсчёт общее кол-во слов по маске кол-во слов в тэге <A> кол-во слов в тэге <B> кол-во слов в тэге <I> кол-во слов в тэге <U> кол-во слов в тэге <H1> позиция, на которой слово встречается впервые в документе кол-во слов в тэге <TITLE> кол-во остальных слов на одно слово по маске

Начнём с хорошего :)

ПС: Яндекс
Фраза для поиска: работа

Поиск осуществлён 19.02.2001
  1. Документ: о пропаже архива ильи бокштейна - материалы из газеты "ри" ("русский израильтянин")
    URL:    http://a-kobrinsky.tripod.com/ibks/
    mask cnt a b i u h1 pos title freq
    работ% 1 0 1 0 0 0 1 0 25
  2. Документ: worker.ru - поиск работы и размещение вакансий
    URL:    http://www.worker.ru/resumes/result.html?sec=6&n=20&offset=20
    mask cnt a b i u h1 pos title freq
    работ% 91 0 53 0 0 0 1 1 23.198
  3. Документ: jobshop.ru: работа, заработок, резюме, вакансии, персонал и кадры.
    URL:    http://jobexchange.ru/dbv.php?start12=3&end12=7&nom=0&mode=view&SpecId=12
    mask cnt a b i u h1 pos title freq
    работ% 72 1 0 0 0 0 1 1 20.236
  4. Документ: rabota.com.ua: просмотр резюме, категория все разделы
    URL:    http://rabota.com.ua/ResumeList.asp?PART=&Words=&Pos=441&r=68557
    mask cnt a b i u h1 pos title freq
    работ% 38 1 17 0 0 0 2 0 25.447
  5. Документ: работа !
    URL:    http://jobs.boom.ru/in.htm
    mask cnt a b i u h1 pos title freq
    работ% 523 1 26 0 0 1 1 1 19.176
  6. Документ: трудовое законодательство
    URL:    http://www.kontakt.ru/content/market/zakon/pr_ksot.htm
    mask cnt a b i u h1 pos title freq
    работ% 1887 0 0 0 0 0 1 0 15.189
  7. Документ: работа и заработок : вакансии по специальностям
    URL:    http://www.rabota.diaspora.ru/vacancy/vacancy.shtml
    mask cnt a b i u h1 pos title freq
    работ% 102 13 88 0 0 1 1 1 11.804
  8. Документ: работа в днепропетровске
    URL:    http://www.newjob.dp.ua/search.php3?searchtype=browse&category=8&whatlooking=resumes&pagenum=4&keyword=
    mask cnt a b i u h1 pos title freq
    работ% 207 0 40 0 0 0 1 1 15.565
  9. Документ: новые резюме / работа в харькове
    URL:    http://www.rabota.kharkov.ua/list-r.php3?i=540
    mask cnt a b i u h1 pos title freq
    работ% 43 0 10 0 0 0 2 1 15.488
  10. Документ: работа в днепропетровске
    URL:    http://job.dp.ua/search.php3?searchtype=browse&category=3&whatlooking=resumes&pagenum=6&keyword=
    mask cnt a b i u h1 pos title freq
    работ% 190 0 62 0 0 0 1 1 25.768

Как видим, за исключением первого документа по запросу работа Яндекс считает релевантными весьма солидные документы. В смысле большие по объёму. В среднем на одно ключевое слово приходится не меньше 17-ти других слов. Лично мне больше всего нравятся показатели документов 4 и 9. Кстати первая неожиданность - это почти полное отсутствие в этих документах ссылок, содержащих ключевое слово (за исключением документа №7). А вот выделять жирным оказывается можно безнаказанно больше половины ключевых слов.

Для первого раза достаточно. Выводы каждый может сделать сам. В рассылке №2 я приведу цифры для слова халява, а поисковые слова для последующих рассылок прошу выбрать вас. Кстати, советы по тэгам, которые необходимо включить в обзор тоже приветствуются. В частности уже очевидно, что необходимо суммировать теги <H1>...<H6>


С уважением,
Артём.


<< Оглавление | Следующая статья >>