developing.ru - клуб программистов


поиск по сайту:

Google



статистика:

Rambler's Top100





А. Шкондин.
about@al.ru

Измерение релевантности. №2

В этот раз мы поговорим о клопах. Кстати единственный сериал, который я смотрю по понедельникам, мой отец окрестил как "сериал о клопах". А официально он называется X-Files или Секретные материалы. Серия, после которой сериал был переименован носила название "The bugs." (bug - англ. клоп, жучок, подслушивающий микрофон).

Для начала я разберусь со своими тараканами, т.е. ошибками. В приведённых таблицах колонка pos по досадному недоразумению содержала бог весть что, но только не первую встреченную позицию слова. Обезжучивание произведено, или, говоря не на программерском сленге, ошибка исправлена. Кроме того, в колонке H1 просуммированы тэги <H1> ...<H6>, а в колонке <B> теперь учитывается тэг <STRONG>.

А теперь настало время обсудить чужие ошибки. Тут начинается история в стиле X-Files. В наших родимых поисковиках отсутствует ограничение на длину тэга <TITLE>...

Вообще когда программы предоставляют одинаковый интерфейс и функциональность, часто возникают разговоры о том, что кто-то у кого-то украл идею. Что собственно весьма и весьма спорно, т.к. похожесть программ может объясняться различными причинами начиная с того, что идеи витают в воздухе и заканчивая тем, что ожидания пользователей различных программ из одной и той же области применения в общем-то одни и те же. Но когда в двух программах от разных команд разработчиков встречаются одни и те же ошибки, это говорит о том, что код-то у них один и тот же. Я не склонен думать, что разработчики Яндекса, Рамблера и Апорта позаимствовали код друг у друга. Скорее всего, в начале своей деятельности они приобрели исходники одного и того же зарубежного поисковика.

Кто-то может возразить, мол стандарты HTML не предусматривают ограничений на длину тэгов, включая и <TITLE>. Да это так, но даже на самом широком мониторе больше 256 символов в одну строчку не поместится, так что все лишние символы можно уверенно считать попыткой спама поисковика. Поэтому когда вы что-то ищете в поисковых системах смело пропускайте те страницы, заголовки которых не имеют ни начала ни конца при отображении в результатах поиска. Тем самым вы просто сэкономите своё время. Разумеется, к ним всегда можно вернутся если другие страницы не отвечают вашим чаяниям. Тем же вебмастерам, которые по незнанию пытаются из тэга <TITLE> сделать описание документа напомню, что для этих целей предназначен специальный тэг, который можно оформить следующим образом:

<html>
<head>
...
<meta name="description" content="Измерение релевантности №2...">
</head>
<body>
...

Я попытался вовлечь в дискуссию представителей российских поисковых систем на форуме, но пока безрезультатно. С представителями Апорта владелец форума контактов, к сожалению, не установил, представители Рамблера топик проигнорировали, а представители Яндекса сказали, что " Мы планируем серьезено этим заняться в ближайшее время ", но пока что все обещания свелись к банальному удалению приведенной мной ссылки из первой десятки по некоторым (но не всем) запросам.

Вот из-за этой ошибки и ещё потому что, не смотря на то, что все поисковики не индексируют страницы, содержащие мета тэг Refresh, они индексируют страницы содержащие скрипт с window.location(), что в 99,9% случаев используется для тех же целей что и упомянутый тэг, я и назвал поисковики помойкой. Действительно, с ростом количества проиндексированных русскоязычных ресурсов (он происходит и за счёт бурного развития интернета Украины, и не за горами бум в Беларуси и Казахстане) находить релевантные документы становится всё труднее, а с учетом того, что механизмы подавления дубликатов (именно дубликатов, когда один и тот же документ копируется на многих серверах, а не зеркал одного и того же ресурса) отсутствуют или находятся в зачаточном состоянии, иногда просто невозможно.

А теперь собственно цифры:

ПС: Яндекс
Фраза для поиска: халява

Поиск осуществлён 22.02.2001
  1. Документ:
    URL:    http://aji.narod.ru/
    mask cnt a b i u h1 pos title freq
    халяв% 0 0 0 0 0 0 0 0 0
  2. Документ: халява
    URL:    http://halyava2.chat.ru/
    mask cnt a b i u h1 pos title freq
    халяв% 830 0 0 0 0 0 1 1 14.116
  3. Документ: 51. халява
    URL:    http://www.fair.ru/catalog/51/index.html
    mask cnt a b i u h1 pos title freq
    халяв% 64 14 15 0 0 0 1 1 16.016
  4. Документ: бесплатная еда
    URL:    http://www.geocentr.dn.ua/freemoney/free/food2.html
    mask cnt a b i u h1 pos title freq
    халяв% 17 0 0 0 0 0 3 0 11.824
  5. Документ: 100% ПРАВДА О ЗАРАБОТКЕ В СЕТИ.Халява... (всего 3966 слов)
    URL:    http://dohod.boom.ru/index.html
    mask cnt a b i u h1 pos title freq
    халяв% 264 0 0 0 0 0 4 264 15.023
  6. Документ: Самый простой и над+жный и САМЫЙ ВЫСОКООПЛАЧИВАЕМЫЙ способ заработка денег в Интернете. Халява,заработок,Халява в Интернете... (всего 7130 слов)
    URL:    http://koverovs.chat.ru/1.htm
    mask cnt a b i u h1 pos title freq
    халяв% 242 0 0 0 0 0 11 242 29.463
  7. Документ: ********* только лучшая халява сети | уникальное предложение для тех у кого нет странички
    URL:    http://ryazon.newmail.ru/edd.htm
    mask cnt a b i u h1 pos title freq
    халяв% 258 0 2 0 0 0 3 1 11.341
  8. Документ: российский халява - лучшие халяваы россии по самым низким ценам! у нас есть халяваа, бесплатно, комплекты гусениц, халяваы. большой выбор халяваов и гусениц. заходите на халява. сельскохяйственная техника, с/х техника б/у и новая, лучшая
    URL:    http://mbits.chat.ru/site/soc1.htm
    mask cnt a b i u h1 pos title freq
    халяв% 57 0 0 0 0 6 2 6 5.2281
  9. Документ: B-E-S-T-I-N-E-T2000:Вы хотите получить бесплатную гостевую книгу,счетчик на страницу... (всего 7003 слова)
    URL:    http://pavel007.narod.ru/index.htm
    mask cnt a b i u h1 pos title freq
    халяв% 234 0 0 0 0 0 62 234 29.927
  10. Документ: халява
    URL:    http://vsyaxalyava.chat.ru/hal/
    mask cnt a b i u h1 pos title freq
    халяв% 101 0 100 0 0 0 1 1 1.0099

Сразу три документа №№ 5,6 и 9 своим присутствием в первой десятке подтверждают, что если ошибка и исправлена, то база точно ещё не приведена в соответствие. Первый документ не имеет никакой информации, т.к. это страница с frameset. Тут есть два варианта - либо владелец поменял её содержимое, либо сработал клоачный скрипт (скрипт, который отправляет поисковик на одну страницу, посетителя - на другую). И самый уникальный экземпляр - страница № 10 из 102 слов 101 с корнем халява, причём все они выделены жирным. Вебмастер выделил бы и все 101, но к сожалению одно слово находится в тэге <TITLE> и это физически невозможно :) Белой вороной выглядит документ под номером 4 - если он через две недели останется на своих позициях, советую очень внимательно изучить его код.


С уважением,
Артём.


<< Предыдущая статья | Оглавление | Следующая статья >>