developing.ru - клуб программистов


поиск по сайту:

Google



статистика:

Rambler's Top100


  • Wpnew.ru

    Хороший сайт по созданию сайта wpnew.ru

    wpnew.ru




А. Шкондин.
about@al.ru

Измерение релевантности. №3

Знакомы ли вы с понятием энтропии? Вы спросите причём здесь физика, а точнее термодинамика? Всё очень просто. С молекулярно-кинетической точки зрения энтропия - мера вероятности осуществления данного состояния системы. При всех процессах, совершающихся в замкнутых системах энтропия либо возрастает (необратимые процессы), или остаётся постоянной (обратимые процессы). Мы можем рассматривать совокупность всех документов в рунете как вполне замкнутую систему. В этом номере рассылки я попытаюсь разобраться, возможно ли уменьшение количества документов являющихся спамом выдаваемых поисковой системой на первых страницах по тем или иным запросам или же процесс роста спама необратим?

Для начала выясним, возможна ли саморегуляция поисковой системы? Есть два способа борьбы со спамом:

  1. автоматическая детекция спама на этапе индексирования
  2. ручное определения спама или постмодерация

Как показано в предыдущей рассылке с автоматическим определением спама дела обстоят из рук вон плохо. Причём все три ведущих поисковых системы страдают одной и той же болезнью - не ограничивают длину заголовка документа. С ручной проверкой дела обстоят не лучше. Не хватает ресурсов даже для отслеживания сотни самых популярных запросов. Но здесь пора выдвинуть предположение, что ручная проверка затрагивает только те запросы, владельцы сайтов, попадающих на первую страницу результатов поиска по таким запросам, проявляют некоторую активность. Это предположение возникло из жизненной ситуации, когда я возмущенный удалением моей страницы из Яндекса, написал письмо на addurl@yandex.ru и "наябедничал" на страницу, которая шла первой по запросу и по сравнению с которой моя была белой и пушистой. В ответ я получил определение спама, процитированное в предыдущих номерах, и ...:

...
Вы абсолютно правы, страницы на этом сервере являются спамом. Они 
будут удалены из Яндекса в течении нескольких дней. Спасибо за то,
что обратили на них наше внимание.
...

Таким образом, если вебмастер, сайт которого из-за спама переместится с первой страницы результатов поиска на вторую, обратит внимание службы поддержки Яндекса на такую ситуацию, то можно предполагать, что в недельный срок спам-страница если и не пропадёт из результатов поиска совсем, то не будет мозолить глаза на перых страницах. Разумеется, если факт спама будет общепризнан, а не является плодом уязвлённого самолюбия.

Логично предположить, что возмущённые возгласы могут раздаваться от владельцев коммерчески-ориентиованных ресурсов, а не от владельцев сайтов о халяве, который в подавляющем большинстве своём не тратят ни копейки на разработку дизайна, не говоря уже о затратах на позиционирование в поисковых системах. Следовательно можно ожидать некоторой свободы от спама для таких запросов.

Запрос я выбрал псевдослучайным образом. Сегодня мы узнаем как обстоят дела с отелями.

ПС: Яндекс
Фраза для поиска: отели

Поиск осуществлён 28.02.2001
  1. Документ: отели мира на сервере "100 дорог" отели болгарии, греции, египта, израиля, испании, италии, оаэ, таиланда, сочи, кипра, турции, финляндии, франции.
    URL:    http://www.tours.ru/hotels/default.asp?id_hotels%3d7833
    mask cnt a b i u h1 pos title freq
    отел% 9 1 1 0 0 0 1 2 27.111
  2. Документ: отели оаэ, 3-х звездночные
    URL:    http://www.mirage-travel.ru/oae/3zvezd.htm
    mask cnt a b i u h1 pos title freq
    отел% 18 9 15 0 0 0 1 1 6.5556
  3. Документ: турция - отели - кемер - рассказ об отеле клyб фазелис - 4-е звезды (club phaselis)
    URL:    http://www.unico94.ru/turkey/tells/faselis1.htm
    mask cnt a b i u h1 pos title freq
    отел% 31 18 10 0 0 1 2 2 10.71
  4. Документ: отели - подбор - гринэкс
    URL:    http://www.greenex.ru/hotels.html?gid%3d68%26s%3d1
    mask cnt a b i u h1 pos title freq
    отел% 19 1 2 0 0 0 1 1 14.737
  5. Документ: palace hotel le bristol в париже, отель бристоль, париж, франция, сьюты - обзорный вид, vip-отдых, бронирование, отели
    URL:    http://www.bolero-tour.ru/tours/dreams_france.shtml
    mask cnt a b i u h1 pos title freq
    отел% 59 2 5 3 0 0 5 2 25.22
  6. Документ: отели в праге 3 звезы.
    URL:    http://www.dest.ru/h_pr3.htm
    mask cnt a b i u h1 pos title freq
    отел% 152 0 4 0 0 7 1 1 12.559
  7. Документ: франция. карта сервера.
    URL:    http://www.marinefrance.ru/mapserver.htm
    mask cnt a b i u h1 pos title freq
    отел% 161 159 0 0 0 2 21 0 23.379
  8. Документ: ваш клуб : германия : отели : германия. отели
    URL:    http://www.pallas.ru/countries/germany/hotels/hotels34.html
    mask cnt a b i u h1 pos title freq
    отел% 46 1 0 0 0 0 4 2 19.087
  9. Документ: отели системы "mare nostrum resorte" *****
    URL:    http://www.rusiber.ru/sp/canary/mareno.htm
    mask cnt a b i u h1 pos title freq
    отел% 8 2 1 0 0 0 1 1 16.75
  10. Документ: отели
    URL:    http://www.nevaspb.ru/tunisia/resorts.html
    mask cnt a b i u h1 pos title freq
    отел% 135 0 85 21 43 0 1 1 18.326

Как видим, на первой странице по этому запросу не оказалось ни одной страницы с доменов третьего уровня и ни одну из страниц откровенным спамом не назовёшь, хотя мне лично не симпатичен документ под номерм 7. Документы №2,6,10 вызывают некоторые подозрения, поскольку страницы снабжены редиректом. Я обычно закрываю страницы, ведущие себя столь хамским образом.

И на последок хорошая новость: с 26.02.2001 разрешается устанавливать счётчик Рамблер TOP 100 на все страницы ресурса, а не только на зарегистрированные. С учётом того, что в резульаты поиска "подмешиваются" ресурсы из TOP 100 и эти ресурсы индексируются несколько чаще чем все прочие, можно ожидать некоторого увеличения количества посетителей с поисковика.


С уважением,
Артём.


<< Предыдущая статья | Оглавление | Следующая статья >>