А. Шкондин.
about@al.ru
Измерение релевантности. №2
В этот раз мы поговорим о клопах. Кстати единственный сериал, который я смотрю по понедельникам, мой отец окрестил как "сериал о клопах". А официально он называется X-Files или Секретные материалы. Серия, после которой сериал был переименован носила название "The bugs." (bug - англ. клоп, жучок, подслушивающий микрофон).
Для начала я разберусь со своими тараканами, т.е. ошибками. В приведённых таблицах колонка pos по досадному недоразумению содержала бог весть что, но только не первую встреченную позицию слова. Обезжучивание произведено, или, говоря не на программерском сленге, ошибка исправлена. Кроме того, в колонке H1 просуммированы тэги <H1> ...<H6>, а в колонке <B> теперь учитывается тэг <STRONG>.
А теперь настало время обсудить чужие ошибки. Тут начинается история в стиле X-Files. В наших родимых поисковиках отсутствует ограничение на длину тэга <TITLE>...
Вообще когда программы предоставляют одинаковый интерфейс и функциональность, часто возникают разговоры о том, что кто-то у кого-то украл идею. Что собственно весьма и весьма спорно, т.к. похожесть программ может объясняться различными причинами начиная с того, что идеи витают в воздухе и заканчивая тем, что ожидания пользователей различных программ из одной и той же области применения в общем-то одни и те же. Но когда в двух программах от разных команд разработчиков встречаются одни и те же ошибки, это говорит о том, что код-то у них один и тот же. Я не склонен думать, что разработчики Яндекса, Рамблера и Апорта позаимствовали код друг у друга. Скорее всего, в начале своей деятельности они приобрели исходники одного и того же зарубежного поисковика.
Кто-то может возразить, мол стандарты HTML не предусматривают ограничений на длину тэгов, включая и <TITLE>. Да это так, но даже на самом широком мониторе больше 256 символов в одну строчку не поместится, так что все лишние символы можно уверенно считать попыткой спама поисковика. Поэтому когда вы что-то ищете в поисковых системах смело пропускайте те страницы, заголовки которых не имеют ни начала ни конца при отображении в результатах поиска. Тем самым вы просто сэкономите своё время. Разумеется, к ним всегда можно вернутся если другие страницы не отвечают вашим чаяниям. Тем же вебмастерам, которые по незнанию пытаются из тэга <TITLE> сделать описание документа напомню, что для этих целей предназначен специальный тэг, который можно оформить следующим образом:
<html> <head> ... <meta name="description" content="Измерение релевантности №2..."> </head> <body> ...
Я попытался вовлечь в дискуссию представителей российских поисковых систем на форуме, но пока безрезультатно. С представителями Апорта владелец форума контактов, к сожалению, не установил, представители Рамблера топик проигнорировали, а представители Яндекса сказали, что " Мы планируем серьезено этим заняться в ближайшее время ", но пока что все обещания свелись к банальному удалению приведенной мной ссылки из первой десятки по некоторым (но не всем) запросам.
Вот из-за этой ошибки и ещё потому что, не смотря на то, что все поисковики не индексируют страницы, содержащие мета тэг Refresh, они индексируют страницы содержащие скрипт с window.location(), что в 99,9% случаев используется для тех же целей что и упомянутый тэг, я и назвал поисковики помойкой. Действительно, с ростом количества проиндексированных русскоязычных ресурсов (он происходит и за счёт бурного развития интернета Украины, и не за горами бум в Беларуси и Казахстане) находить релевантные документы становится всё труднее, а с учетом того, что механизмы подавления дубликатов (именно дубликатов, когда один и тот же документ копируется на многих серверах, а не зеркал одного и того же ресурса) отсутствуют или находятся в зачаточном состоянии, иногда просто невозможно.
А теперь собственно цифры:
ПС: Яндекс
Фраза для поиска: халява
Поиск осуществлён 22.02.2001
-
Документ:
URL: http://aji.narod.ru/mask cnt a b i u h1 pos title freq халяв% 0 0 0 0 0 0 0 0 0 -
Документ: халява
URL: http://halyava2.chat.ru/mask cnt a b i u h1 pos title freq халяв% 830 0 0 0 0 0 1 1 14.116 -
Документ: 51. халява
URL: http://www.fair.ru/catalog/51/index.htmlmask cnt a b i u h1 pos title freq халяв% 64 14 15 0 0 0 1 1 16.016 -
Документ: бесплатная еда
URL: http://www.geocentr.dn.ua/freemoney/free/food2.htmlmask cnt a b i u h1 pos title freq халяв% 17 0 0 0 0 0 3 0 11.824 -
Документ:
100% ПРАВДА О ЗАРАБОТКЕ В СЕТИ.Халява... (всего 3966 слов)
URL: http://dohod.boom.ru/index.htmlmask cnt a b i u h1 pos title freq халяв% 264 0 0 0 0 0 4 264 15.023 -
Документ:
Самый простой и над+жный и САМЫЙ ВЫСОКООПЛАЧИВАЕМЫЙ способ заработка денег в Интернете. Халява,заработок,Халява в Интернете... (всего 7130 слов)
URL: http://koverovs.chat.ru/1.htmmask cnt a b i u h1 pos title freq халяв% 242 0 0 0 0 0 11 242 29.463 -
Документ: ********* только лучшая халява сети | уникальное предложение для тех у кого нет странички
URL: http://ryazon.newmail.ru/edd.htmmask cnt a b i u h1 pos title freq халяв% 258 0 2 0 0 0 3 1 11.341 -
Документ: российский халява - лучшие халяваы россии по самым низким ценам! у нас есть халяваа, бесплатно, комплекты гусениц, халяваы. большой выбор халяваов и гусениц. заходите на халява. сельскохяйственная техника, с/х техника б/у и новая, лучшая
URL: http://mbits.chat.ru/site/soc1.htmmask cnt a b i u h1 pos title freq халяв% 57 0 0 0 0 6 2 6 5.2281 -
Документ: B-E-S-T-I-N-E-T2000:Вы хотите получить бесплатную гостевую книгу,счетчик на страницу... (всего 7003 слова)
URL: http://pavel007.narod.ru/index.htmmask cnt a b i u h1 pos title freq халяв% 234 0 0 0 0 0 62 234 29.927 -
Документ: халява
URL: http://vsyaxalyava.chat.ru/hal/mask cnt a b i u h1 pos title freq халяв% 101 0 100 0 0 0 1 1 1.0099
Сразу три документа №№ 5,6 и 9 своим присутствием в первой десятке подтверждают, что если ошибка и исправлена, то база точно ещё не приведена в соответствие. Первый документ не имеет никакой информации, т.к. это страница с frameset. Тут есть два варианта - либо владелец поменял её содержимое, либо сработал клоачный скрипт (скрипт, который отправляет поисковик на одну страницу, посетителя - на другую). И самый уникальный экземпляр - страница № 10 из 102 слов 101 с корнем халява, причём все они выделены жирным. Вебмастер выделил бы и все 101, но к сожалению одно слово находится в тэге <TITLE> и это физически невозможно :) Белой вороной выглядит документ под номером 4 - если он через две недели останется на своих позициях, советую очень внимательно изучить его код.
С уважением,
Артём.
<<
Предыдущая статья |
Оглавление |
Следующая статья >>