developing.ru - клуб программистов

разделы сайта

форум

технология COM

оптимизация сайтов

SEObar

Прочие материалы

cсылки


поиск по сайту:

Google



статистика:

Rambler's Top100




А. Шкондин.

PageRank: Больше ссылок хороших и важных

В связи с успехом Google на рынке предоставления услуг поиска и в особенности с экспансией данного поисковика в Рунет, среди вебмастеров наблюдается повышение интереса к алгоритмам расчёта PageRank. В данной статье рассматриваются некторые аспекты вычисления PageRank.

Применение PageRank в поисковиках

Традиционные способы нахождения релевантных страниц, в случае односложных запросов не дают удовлетворительных результатов, т.к. по популярным темам (например “рефераты”, “работа“) всегда найдётся большое число страниц с одинаковой релевантностью. Для того, чтобы как-то упорядочить такие страницы, поисковики пускаются на разные хитрости. Например выдают первыми те страницы, которые имеют большую посещаемость (Rambler) или которые присутствуют в каталоге (Yandex, Aport). В Google для этих целей применяется PageRank, что даёт потрясающие результаты, и за короткое время Google стал занимать лидирующие позиции не только по объёму базы, но и по качеству поиска. Из наших поисковиков первым PageRank стал использовать Aport, за ним Yandex. В Rambler эта технология не применяется, но на данном этапе такая возможность рассматривается, и, не исключено, что PageRank будет использоваться и в этой поисковой системе.

На ряду с упорядочиванием результатов поиска по PageRank, есть и другое применение для этой технологии. Дело в том, что число страниц в Интернете на столько велико, что поисковики уже не могут себе позволить индексировать всё подряд. А поскольку PageRank служит критерием ценности страницы, то логично проводить индексацию страниц в порядке убывания PageRank. В Google пошли даже дальше: теперь простой отправки формы для регистрации не достаточно, - для того, чтобы сайт был проиндексирован необходимо наличие хотя бы одной внешней ссылки.

Введение в PageRank

PageRank - статическая величина, предназначенная для оценки качества страниц не зависимо от каких либо запросов, т.е. с помощью PageRank вычисляется “глобальная ценность” каждой страницы. Авторы PageRank Сергей Брин и Ларри Пейдж, разработавшие технологию дополнительного ранжирования результатов выдачи поисковиков, в последствии стали основателями компании Google.

За основу PageRank был выбран академический подход оценки важности публикации автора по числу её упоминаний в библиографических ссылках других авторов. Для адаптации к применению в Интернет в алгоритм были внесены следующие изменения: вес каждой ссылки учитывается индивидуально и нормируется по числу ссылок на ссылающейся странице. Кроме того, PageRank может быть интерпретирован в терминах случайного блуждания

Вычисление Pagerank

Представьте себе идеального веб-серфера перемещающегося по всемирной паутине. Пусть сёрфер посещает страницу p, случайное блуждание при этом находится в состоянии p. На каждом шаге, веб-сёрфер либо перепрыгивает на другую страницу в сети, выбранную псевдо-случайным образом, либо он следует по ссылке на текущей странице, при этом не возвращаясь и не посещая одну и ту же страницу дважды. Вероятность случайного прыжка обозначим как d тогда вероятность перехода по ссылке будет 1–d. Таким образом, вероятность нахождения пользователя на странице p можно вычислить по следующей формуле:

Формула для вычисления PageRank

где R(p) - PageRank страницы, С(p) – число ссылок на странице, к – число ссылающихся на p страниц, d- коэффициент затухания (damping factor). Обычно 0.1<d<0.15. Если масштабировать PageRank таким образом, что

масштабирование PageRank

где N - число всех страниц, для которых производится расчёт PageRank, то R(p) можно рассматривать как распределение вероятности по всем страницам.

Для вычисления PageRank составляется матрица M размером NxN, где каждому элементу mij матрицы присваивается значение R0(p)=1/C(p) в том случае, если с i –й страницы имеется ссылка на j-ую, все оставшиеся элементы матрицы заполняются нулями. Таким образом, вычисление PageRank сводится к отысканию собственного вектора матрицы M что достигается умножением матрицы M на вектор Rj на каждом шагу итерации. Введение коэффициента затухания гарантирует, что процесс сходится.

Повышаем значимость сайта

Осознав победное шествие PageRank, нельзя не задуматься об его увеличении для своей странички. Интуитивно понятно, что чем авторитетнее ресурс, на котором размещена ссылка тем больше она увеличивает PageRank страницы, на которую ссылается. И наоборот, чем больше ссылок на странице, тем меньше будет её вклад в повышение PageRank вашей страницы – ещё одно доказательство бесполезности участия в FFA (Free For All – сайты, содержащие набор ссылок со свободным добавлением). Менее очевидна оптимальная топология взаимоссылающихся страниц. Например, страницы организованные в “кольцо” (когда каждая страница ссылается на соседа слева и справа, последняя ссылается на первую, а первая на последнюю) будут иметь один и тот же PageRank не зависимо от числа страниц в кольце (если не проводить масштабирование по сумме, то PageRank у всех будет равен 1). То же справедливо для «звёзд» или случая, когда все ссылаются на всех, и, вероятно, это утверждение справедливо вообще для всех симметричных топологий. Гораздо более перспективны с точки зрения увеличения PageRank асимметричные топологии. Утверждение о бесполезности создания «пустых» (но ссылающихся друг на друга) сайтов у бесплатных хостеров не столь очевидно. Например, можно организовать обмен ссылками на 5 сайтах таким образом, что у одного из них PageRank будет в 15 раз больше, чем минимальный не нулевой PageRank. В этом несложно убедится, написав небольшую программку. О том, как это сделать, читайте в статье Efficient Computation of PageRank

Некоторые распространённые заблуждения связанные с PageRank

Проанализировав сообщения в рунетовских форумах, посвященных позиционированию в поисковых системах, можно выделить целый ряд утверждений о PageRank, как минимум спорных, а зачастую просто неверных. Кратко рассмотрим эти утверждения:

Не стоит путать понятия "индекс цитирования" и PageRank. При расчёте PageRank анализ содержимого ни сайта ни текста ссылки не производится, учитываются только общее число ссылок и их веса, поэтому никаких штрафных санкций при наличии ссылок с «неправильных» страниц не применяется.

Не верно, по той причине, что PageRank является не основным критерием для ранжирования страниц, а вспомогательным. В противном случае, на первых страницах по очень многим запросам располагались бы только рейтинги и топы. Только при прочих равных условиях страница с более высоким PageRank будет располагаться выше в результатах поиска.

Не стоит обольщаться - PageRank вычисляется не для сайта целиком, а для отдельно взятой страницы. Поэтому ссылка из глубокой поддириктории, скажем в Yahoo, может быть менее ценна чем страница Васи Пупкина. Так что, тут можно взять не качеством ссылок, а их количеством. Надо только обращать внимание на то, чтобы ссылки из каталога шли напрямую на ваш сайт, а не через cgi-скрипт, иначе они просто не будут учитываться. Кроме того, правила многих каталогах требуют размещения корневой страницы, а не того документа, PageRank которого вы собираетесь повышать. Поэтому гораздо эффективнее можно повысить PageRank конкретной страницы ссылкой с корневой страницы своего собственного сайта.

Весьма спорное утверждение, как говорилось выше PageRank понижается в случае симметричного объединения ссылающихся страниц, вероятность получить которое при проставлении внешней ссылки ничтожно мала. Если такую фобию в себе не перебороть, то можно дать совет завести специальную страницу для обмена ссылками. Кстати, стоит заметить, что при расчёте PageRank никто не обещал разделять ссылки на внешние и внутренние.

Ссылки для дальнейшего изучения:

  1. The PageRank Citation Ranking : Bringing Order to the Web
  2. The Anatomy of a Large-Scale Hypertextual Web Search Engine
  3. Breadth-first search crawling yields high-quality pages
  4. Efficient Computation of PageRank

Авторские права © 2001, А. Шкондин
Публикация требует разрешения автора.