developing.ru - клуб программистов


поиск по сайту:

Google



статистика:

Rambler's Top100



return_announcements(); ?>

Михаил Безверхов
vasilisk@nm.ru

Релевантность спама или спам релевантности?

Дискуссия на тему спама и релевантности стала скатываться в том направлении, в каком и должна бы была скатиться. В философию. Будь темой рассылки несколько другая тема, скажем, "Как обмануть поисковик?", то и направление склонения дискуссии тоже было бы другим - о "психологии поисковиков".

На самом деле и сама философия в этой дискуссии не очень релевантна - ведь не в философском же определении спама в ней смысл? Наверное, целью дискуссии и целью рассылки можно было бы посчитать "как уберечься от спама" или "как отфильтровать спам" или "как пробиться сквозь спам к тому, что ищу". В таком случае философия - только инструмент исследования, который обозначит области где приемлемые для пользователей социальные результаты могут быть обнаружены и подходы, какими эти результаты могли бы получаться.

Ранее правильно было замечено - спам не может считаться объективной категорией, он - субъективен. Но ведь любая информация вообще объективна не более, чем в смысле, определенном Клодом Шенноном. В остальном она - субъективна, т.е. ее важность, нужность, свежесть для себя каждый человек-потребитель определяет сам.

Общество же: общество создает всем равные условия для распространения своей информации. В таком случае получается, что спамом можно наименовать абсолютно всё?

И "да" и "нет". Да, потому, что старый затасканный анекдот когда-то не был спамом, а для кого-то и сейчас спамом не является. Нет, потому, что критерий будет лежать не в области самой информации - по её количеству или по её субъективному качеству. А, наверное, будет находиться в области человеческой коммуникации - кто-то некую "информацию X" создает, а кто-то её и потребляет. Зачем они это делают? Если цели "издателя" и "читателя" совпадают, то, наверное, информация не может быть сочтена спамом? Ведь никому не приходит в голову считать спамом учебник арифметики, хотя его содержание там для абсолютного большинства - с большей "бородой", чем самый старый анекдот. Но вот реклама, какой бы новой она ни была, скорее всего - спам, да и только?

В чем же здесь дело? А: дело-то вот в чем, не учтены еще некоторые признаки. На учебнике арифметики-то точно написано, что это именно учебник арифметики. И целью учебника арифметики является не поднятие рейтинга операции сложения. И беря в руки этот учебник его читатель точно представляет себе его "инструментальное качество", т.е. зачем он его берет и что он в результате рассчитывает получить. А вот в рекламе - нарисована красивая девушка, а предназначена она для того, чтобы я купил жевательную резинку...

Похоже, чёткий критерий начинает вырисовываться - дело в "инструментальном качестве" информации. Информация учебника арифметики нужна прежде всего читателю, потому, что его социальные интересы удовлетворяет, инструментом его активности является. А информация в рекламе нужна прежде всего рекламодателю, потому, что удовлетворяет социальные интересы "издателя"... Читателю она, скорее всего и не нужна вовсе. Если что читателю и нужно, то - не девушка из рекламы, а - сама жевательная резинка. Так, так, так: "завлекалка" - девушка, "контент" - жевательная резинка. Уже тепло. Выходит, что несоответствие "завлекалки" "контенту" - необходимый, но не достаточный признак "мусорной информации", информации, которой я, как потребитель, не заказывал, не хотел, не ожидал.

Что явилось бы достаточным признаком спама? Я думаю - социальное инструментальное качество. Иными словами, если восприятие информации читателем социально нужно издателю больше, чем самому читателю - это и есть признак "мусорности". Реклама под это определение подходит идеально - вы покупаете газетку ради того, чтобы в ней прочесть заинтересовавшую вас статью. Т.е. покупаете содержание этой статьи. А вам одновременно выдают еще и информацию, которой вы не заказывали, она вам не нужна, она нужна рекламодателю. Точнее, ему нужно, чтобы ее кто-то прочел.

С точки зрения этого определения: рекламная газета, газета на которой написано ее рекламное назначение - никакой не спам. А напротив - наисодержательнейшая информация. А реклама в обычной газетке, да еще подзамаскированная - спам чистейший. Только вот как определить меру этой самой "социальной нужности" при помощи робота? Наверное, - никак. Выход-то давно человечеством найден - брэндинг. Т.е. раскрутка рекламной марки, глядя на которую потребитель может сразу определить для себя нужна ему распространяемая данным издательством информация или нет. И несоответствие одного другому - напрямую бьёт по репутации издательства. Скажем, если я читаю название газеты "Известия" я себе точно представляю, что там найду совсем не такие материалы, как в газете "Интим". Вот это и есть брэндинг.

Являются ли всякие рейтинговые топы "брэндинговыми агентствами"? А как же - именно ими они и являются. Только критерий брэндовости у них примитивный - число посещений. Такая "псевдорепутация", формируемая по стадному принципу "если все туда валят, то и тебе туда дорога". Но ведь и релевантность, определенная по этому признаку в Библии же и охарактеризована - в рай ведут тропинки узкие, а широкая дорога ведет только в ад.

Что делать? Рассматривать поисковики только как рекламную среду и не более того. Какие бы алгоритмы в них ни содержались они никогда не смогут определить социальной направленности информации. Делать сайты - тематические каталоги, реферируемые людьми и раскручивать имена этих людей, их репутацию. Ведь в самом деле, мы обращаемся к энциклопедии потому, что внутренне доверяем ее составителям, иными словами, никакой поисковик никогда не будет даже слабым подобием энциклопедии: А вот как фильтр-классификатор, который бы по какому-то задаваемому пользователем (а не создателями поисковика!) алгоритму оценивал "веса" документов - поисковик использовать стоит. В самом деле, когда мы работаем в библиотеке, то не ждем, что библиотекарь вынесет нам именно ту информацию, именно тот ответ на вопрос, который мы разыскиваем в множестве книг. Мы только ожидаем от библиотекаря, что он принесет нам заказанные книги, а не будет нам выносить дешевый детектив на обложке которого написано "Арифметика"? И всю библиотеку мы просмотреть не в состоянии...

Алгоритм поиска, задаваемый пользователем трудная задача! Сумеет ли пользователь его реализовать? А кто сказал, что пользователь должен его реализовывать сам? Пусть будет набор алгоритмов сделанный профессионалами, а пользователь будет выбирать: еще и не у одного, а у нескольких независимых поставщиков - ведь пользуемся же мы не нами составленными программами? Только мы сами выбираем, какими программами пользоваться, верно?

Поэтому, подводя итог этой статье можно дать и такое определение спама - спам это то, чем нам приходится пользоваться не по своей собственной, а по чужой воле.

* * *

Как и обещал, публикую наиболее инетерсные письма читателей. Небольшое замечание по теме рассылки. Для себя я поставил задачу - научиться делать документы более релевантными. Наиболее простой способ добиться этой цели - понять, по каким критериям тот или иной поисковик ранжирует документы в результатах поиска. Понятно, что если я добавлю пару тройку тэгов в документ, с точки зрения читателя релевантность документа останется неизменной, а вот с точки зрения поисковой системы может измениться весьма существенно. И скорее всего целью рассылки можно считать не "как пробиться сквозь спам к тому, что ищу", а "как пробиться сквозь спам, не порождая спама". Т.е. я скорее ориентируюсь на вебмастера, а не на человека ищущего информацию.

Отклонение же в философию - наверное издержки высшего образования :).

P.S:

24.01.2001 в возрасте 84 лет умер один из основателей теории информации Клод Шеннон. Влияние, которое он оказал на развитие вычислительной техники и информатики, невозможно переоценить. На его идеях основаны все сегодняшние компьютерные технологии. В 1948 году Шеннон опубликовал книгу "Математическая теория связи", в которой была предложена унифицированная теория передачи и обработки информации. Им было предложено измерять информацию в математическом смысле, сводя ее к выбору между двумя значениями, или двоичными разрядами. Большой вклад в превращение криптографии в науку был сделан Шенноном в 1949 году, когда была опубликована его работа "Теория связи секретных систем". Процитировано с сайта computerra.ru



С уважением,
Артём.


<< Предыдущая статья | Оглавление | Следующая статья >>