developing.ru - клуб программистов


поиск по сайту:

Google



статистика:

Rambler's Top100



return_announcements(); ?>

А. Шкондин.
about@al.ru

Измерение релевантности. №5

Сегодня я не готов предоставить исследования очередного поискового запроса, поэтому появился замечательный повод для разбора полётов.

А поговорим мы о лауреате Национальной Интел Интернет премии. Точнее о премии в номинации "Лучший сайт в области "Рубрикаторы, поисковые системы, каталоги товаров и услуг". Есть недовольные результатами награждений и представители Яндекса и Рамблера обвиняют друг друга во всех смертных грехах, забыв и о политкорректности и о цеховой солидарности. Третейским судьёй быть мне вовсе не хочется, но не указать на два небольших нюанса я не могу. Нюанс первый: почему-то на сайте www.nagrada.ru появилась статья с оправданиями результатов выборов, предвосхищающая всяческие обзоры (выходит, что и мой то же :)).

"Ох, и будут нас ругать, думали мы после того, как закончили подсчитывать голоса академиков. Ох, и закидают тухлыми помидорами..."

Ну, раз академики просят, то почему бы не сделать им одолжение? Когда оправдываться не в чем, честный человек промолчит. Дипломат промолчит, даже если и есть в чём оправдываться - ибо любые оправдания лишь усугубляют подозрения. Нюанс номер два: генеральный директор победителя в пяти номинациях и председатель жюри - одно и то же лицо - Аркадий Волож. Но, если внимательно почитать правила и FAQ сайта, то не трудно найти следующее заявление:

"Спонсоры Академии и Премии могут представлять свои работы, однако Российская Академия Интернетa гарантирует, что такие работы будут оцениваться на общих основаниях".

Так что, ситуация была предусмотрена давным-давно - на этапе составления правил. Никто ведь не обещал, что спонсоры будут участвовать вне конкурса.

И последний тухлый помидор, любезно предоставленный самими академиками:
"В системе рейтингования существует программная дыра, позволяющая накрутить рейтинг". После таких заявлений я не могу серьезно относиться к данной награде. Как любил говорить мой учитель математики - золотую медаль никто из вас не получит, так как я учу вас не ради оценок, а ради знаний.

На протяжении четырёх предыдущих рассылок я приводил примеры, которые характеризуют лауреата далеко не с лучшей стороны. Хочу добавить и ещё одну ложку дёгтя в бочку мёда. Есть у Яндекса замечательная особенность. Дело в том, что индексная база Яндекса размещена не на одном супермощном компьютере, а распределена по нескольким машинам. Обычный пользователь никакой разницы не ощущает, а вот исследователь должен знать, что во время поиска по индексу не ото всех машин поступают данные. А это весьма сильно в некоторых случаях отражается на результатах поиска. Каюсь, в своей рассылке я не приводил этих данных, но в дальнейшем обещаю исправиться. Когда я делал в качестве упражнения дорвей по запросу "горные лыжи" и отслеживал результаты, то проводил записи количества документов, которые возвращал поисковик по этому запросу. В момент попадания дорвея (14.02.01) в десятку, по указанному запросу Яндекс находил 55599 документов. 16.02.01 - уже 58864. Очевидно, что за два дня по этому запросу физически не могло появиться столько документов. А 19.02.01 их уже было 62248. Так что если ваш дорвей попал в первую десятку - не спешите радоваться. Возможно, вы провели проверку в отсутствие фаворитов. Записывайте количество найденных документов по вашему запросу, и если при резком увеличении этого количества ваш дорвей остался на первой странице, вы добились своей цели.

И, напоследок, хочу немного подсластить горькую пилюлю: не всё так плохо, как кажется. В стане разработчиков есть люди, не впавшие в эйфорию по поводу награды. Вот, что пишет Илья Сегалович (Яндекс):

"...мне кажется, что стоит не выяснять отношения или обзываться, а заняться своими искалками. Дырок в них не перечесть."

Читатели пишут

...
Я глубоко убежден, что каждый сайт/страница на которой искуственным образом
поднято количество ключевых фраз, не может быть причислен к категории спама.
Что есть спам? Будет ли считаться спамером, ползователь сайта о "домашних
питомцах", который наделал doorway страниц с ключевыми словами "халява,
раскрутка сайта, работа, секс, эротика, best XXX" и т.п.тем самым прилично
повышая траффик..... Или же пользователь который использовать ключевые слова в
doorway страницах по назначению ( например "уход за кошками, корм для собак,
помощь в селекции рыбок "гуппи" и т.п. )?  
 
На мой взглад не стоит доность на каждого, кто повысил себе траффик путем
улучшения позиций в поисковых системах, используя ключевые слова,
действительно относящиеся к его сайту, не благородное это дело. 
...
Max Folker

Кто бы спорил о не благодарности доносительства. Я собственно указал в письме к службе техподдержки Яндекса непонравившийся мне сайт в состоянии аффекта. Что сделает вебмастер, потративший не один месяц на изучение механизма индексации, и в течение недели создававший высокорелевантную страницу, которая не раздражает обычного пользователя накачкой ключевыми словами, и вылетевший с первой страницы результатов из-за страницы, сляпанной за пять минут? Вопрос открытый, но возможно и риторический. Я приведу всего лишь один пример. Вот страница, счётчик которой крутится как угорелый. Посмотрите на исходник этой страницы, и вы увидите множество ссылок, умело спрятанных под прозрачными gif'ами размером 1х1 пиксель. И куда же они ведут? Да на страницы, которые представляют собой огромные списки самых популярных поисковых фраз в различных сочетаниях. Пройдитесь по страницам, которые видны обычному посетителю и вы увидите с какой издёвкой написан на них текст. Впрочем, неискушённый посетитель этого не прочувствует.

Вернёмся к определению спама. Самое полное и в тоже время сжатое определение спама вы можете посмотреть в дискуссии на форуме. Я не буду цитировать её целиком, по причине ограниченности размера рассылки, но приведу своё высказывание, т.к. оно явно удачнее чем определение, данное в первом выпуске. Спам - понятие субъективное, как субъективно и понятие релевантности. Причём первое понятие удобно определять при помощи второго. Очень сильный приём использован в Библии: есть теза (Бог) и антитеза (дьявол). Богу посвящена вся Библия, но понятие дьявола существует в довольно компактной форме - "обезьяна Господа Бога, которая делает всё в темноте сзади и наоборот". Ещё раз напомню, что понятию релевантности, точнее поиску критериев релевантности и будут посвящены почти все выпуски данной рассылки. Поисковые машины не люди и им чуждо понятие субъективности. Есть алгоритмы, которые позволяют измерить релевантность, а мы попытаемся максимально к ним приблизится. Как я понимаю, Макс относится к той категории вебмастеров, которая считает, что все, что не запрещено, то разрешено. Возразить против такой позиции мне нечего, но истинно релевантный документ не должен страдать от ужесточения критериев спама.

В следующей рассылке я приведу пример дорвея, состоящего всего из 19 слов.
С уважением,
Артём.


<< Предыдущая статья | Оглавление | Следующая статья >>