developing.ru - клуб программистов


поиск по сайту:

Google



статистика:

Rambler's Top100




А. Шкондин.
about@al.ru

Измерение релевантности. №9

В прошлом выпуске Михаил Безверхов очень удачно подвёл нас к ещё одному термину, помогающему отделить зёрна от плевел, т.е. найти грань между релевантностью и спамом. Термин определяется опять-таки английским словом targeting. По-нашему - фокусировка. Вообще в нашей стране с таргентингом дела обстоят просто ужасно. Взять хотя бы ту же телерекламу. Если рекламу колготок, косметики в любое время суток ещё как-то можно оправдать - каждый мужик рано или поздно задумается над приобретением этих товаров для своей дамы, то реклама прокладок вызывает сильную неприязнь и крайнее раздражение как минимум у половины аудитории. Особенно, когда просмотр совпадает по времени с приёмом пищи. Я не понимаю, почему нельзя хоть минимально ограничить аудиторию - показывать эти ролики во время женских передач: различных ток-шоу, и мыльных опер. Да и идеи, используемые в этих роликах не выдерживают никакой критики - я полагаю, что ролик с цирковым номером в какой-нибудь Швейцарии был бы запрещён за пропаганду насилия и жестокости.

Ну, это так, наболело. А тирада эта была навеяна всё тем же пресс-релизом Рамблера от 15-го марта. Я если честно, ожидал, что его немного подкорректируют, но похоже в самом Рамблере его читал только тот, кто и писал. Опять-таки, если не принимать во внимание аудиторию, для которой предназначался документ, то он является самым рядовым пресс-релизом. Но давайте задумаемся, а кто будет вообще читать этот документ? Конечно, какая-нибудь секретарша, со скуки может и залезет в раздел пресс-релизы на Рамблере. Но таких секретарш едва ли пара-тройка дюжин (пусть даже чёртовых :)) наберётся. Читать же документ будут прежде всего ребята из "аффилированных компьютерных журналов". Ну и конкуренты. А уж они-то не упустят возможности "поглумится" [1] над фразой "вновь проиндексирован весь российский Интернет". Во фразе из пяти слов, только 2 слова не вызывают сомнений. Я конечно утрирую, но представьте такую картину: я поставлю на своём сайте бесплатный скрипт поисковой машины и проиндексирую свой сайт, и ещё пару-тройку русскоязычных сайтов с сервера. Через неделю переиндексирую эти сайты, и ещё проиндексирую парочку. А потом выпущу пресс-релиз: "вновь проиндексирован весь российский Интернет". А если кто-то будет возражать, то я ему отвечу, что все те сайты, которые не попали в мой индекс не Рунетом и были, и вообще на моём сайте он может скачать кряк Интернета :). Так может быть массовые увольнения из IT компаний [2] объясняются тем, что приходит время профессионалов?

* * *

Эта "замечательная" фраза заставила меня задуматься: весь российский Интернет это сколько? Скока скока? У Рамблера Рунет состоит из 12 миллионов документов. У Яндекса - почти в три раза больше. [3] О причинах, по которым Рунет распух в три раза мы поговорим чуть позднее, а сейчас займёмся арифметикой. Допустим, на индексацию одного документа тратится одна секунда (не забываем, что кроме того, что обсчитать, документ ещё и закачать надо). В сутки обрабатывается 86400 документов. Делим 12*10^6/86400 = 138.8(8) дней - столько времени должен был потратить Рамблер на индексацию "всего Рунета". И это ещё при оптимистичном предположении, что отклик от среднестатистического сервера укладывается в ту же секунду. Итого три с половиной месяца. А Яндекс должен потратить на обновление своего индекса почти год. Обновление же документа в базе нам обещают максимум за месяц. А это означает, что очень не сложно "выпасть" из сферы внимания поисковой машины, поэтому не грех напоминать поисковикам о своём существовании, добавляя новые страницы или модифицируя старые никак не реже одного раза в месяц...

* * *

Сегодня мы наведаемся в гости к дядюшке Апорту. Надо заметить, что Апорт является самой "закрытой" поисковой машиной из большой тройки. Нет у них форума, нет никакой информации о объёме индекса, представители Апорта на контакты не выходят. Очень похоже, что все документы в базе подвергаются постмодерации (иным способом, я трактовать фразу "проверенно такого-то числа" напротив почти каждого документа не могу). Рыба как известно гниёт с головы, поэтому я сознательно тестирую поисковики в основном на самых популярных запросах. В этот раз проверим, что нам предложит Апорт по рефератам:

ПС: Апорт
Фраза для поиска: рефераты

Поиск осуществлён 06.04.2001
  1. Документ: если рефератов нет...
    URL:    http://www.referatov.net/
    mask cnt a b i u h1 pos alt kw ds title freq
    реферат% 8 6 0 0 0 0 2 1 0 0 1 25.875
  2. Документ: referats collection
    URL:    http://ns.asbest.ru/referats/
    mask cnt a b i u h1 pos alt kw ds title freq
    реферат% 14 0 1 0 0 0 4 1 0 0 0 15.214
  3. Документ: referat.yaroslavl.ru - российская коллекция рефератов & курсовых ________ referat.yaroslavl.ru _____________
    URL:    http://referat.yaroslavl.ru/
    mask cnt a b i u h1 pos alt kw ds title freq
    реферат% 223 1 0 0 0 0 5 0 220 1 1 2.3453
  4. Документ: allbest - лучшее в интернет. главный проект - рефераты - мегапоиск. все о рефератах и электронных библиотеках, ресурсах по изучению иностранных языков и медицине
    URL:    http://allreferats.narod.ru/
    mask cnt a b i u h1 pos alt kw ds title freq
    реферат% 13 1 3 0 0 0 6 0 0 0 2 44.692
  5. Документ: банк рефератов - главная страница
    URL:    http://www.bankreferatov.ru/
    mask cnt a b i u h1 pos alt kw ds title freq
    реферат% 18 2 4 0 0 0 2 2 0 0 1 9.2778
  6. Документ: moscow referats collection
    URL:    http://referats.corbina.ru/
    mask cnt a b i u h1 pos alt kw ds title freq
    реферат% 31 0 0 0 0 0 8 0 28 3 0 13
  7. Документ: moscow referats collection
    URL:    http://referat.comintern.ru/
    mask cnt a b i u h1 pos alt kw ds title freq
    реферат% 3 0 3 0 0 0 6 0 0 0 0 18.667
  8. Документ: санкт-петербургская коллекция рефератов
    URL:    http://www.fem.ru/referats/
    mask cnt a b i u h1 pos alt kw ds title freq
    реферат% 13 4 1 0 0 0 4 2 0 0 1 25
  9. Документ: российская коллекция рефератов. титульная страница
    URL:    http://www.students.ru/referats/
    mask cnt a b i u h1 pos alt kw ds title freq
    реферат% 148 10 9 0 0 0 3 0 129 2 1 5.1351
  10. Документ: error: the requested url could not be retrieved
    URL:    http://www.referat.online.ru/referat/
    mask cnt a b i u h1 pos alt kw ds title freq
    реферат% 0 0 0 0 0 0 0 0 0 0 0 0

Документ под номером 10 не существует, документ №7 - сменил свое месторасположение. Документ №3 - frameset, с гипертрофированным тэгом keywords. Документ №0 я в обзор не стал включать, т.к. эта ссылка продана, также нет доверия и к ссылке под номером 5 - согласно прайс-листу она тоже может оказаться проданной. Возможно пятые проданные ссылки как-то и выделяются, но я таких (выделенных) ссылок не встречал. Если кто найдёт - не сочтите за труд кинуть в мой ящик весточку. В целом же, создалось впечатление, что релевантность документов в основном задаётся местоположением в каталоге, что безусловно надо проверять на гораздо большем количестве документов.

* * *

И, на последок, о причинах такого большого несоответствия количества документов в Яндексе и Рамблере. Совсем недавно, я заметил, что на мой сайт стали ходить люди с неучтённого мной сайта. Я этим был очень заинтригован, поскольку на тот момент рекламных компаний я не проводил. Каково же было моё удивление, когда я увидел на том сайте свой перевод, из которого владелец сайта поленился вытащить абсолютные ссылки на мой сайт. Я тут же проверил запрос в Яндексе - опаньки, да мой сайт ещё и потеснили на вторую позицию! Конечно, были у меня подозрения и раньше, что Яндекс не очень-то умеет с дубликатами бороться, но как-то я особо не проверял. Но вот вам убедительный пример: по запросу PHP вместо 10 уникальных документов, Яндекс выдаёт 2 действительно уникальных и ещё один, скопированный на 7 различных серверов. И ещё один курьёз - один из посетителей моего форума описался, изобретя тем самым новое слово Siftice. Посмотрите, что выдаёт Яндекс по этому запросу, и обратите внимание на то, что, по сути, в базе продублирован один и тот же документ 11 раз.


С уважением,
Артём.

P.S: Как правильно поправили меня читатели, статистика Апорта всё же доступна, только её на так просто найти - c главной страницы Апорта на статистику не попасть.
[1]  (обратно к тексту) - Процитирован Игорь Ашманов. Топик Рамблер, каким он будет? форума Энциклопедии поисковых систем
[2]  (обратно к тексту) - материалы по теме RICN @ Увольнения
[3]  (обратно к тексту) - cтатистика Рамблера, статистика Яндекса


<< Предыдущая статья | Оглавление | Следующая статья >>