Со спамом на татами

Каталог портала Скайфэмели Идеи

Каталог | Карта | Администрирование

Рынок спамерских услуг - это действительно профессиональный рынок с довольно зрелой инфраструктурой и определенной системой разделения труда. Здесь можно выделить несколько слоев: рассыльные службы, собиратели баз адресов, производители ПО. Есть также компании, объединяющие в своем лице несколько функций. Среди спамеров есть и "непрофессионалы", которые, как правило, пытаются рекламировать собственную компанию, а не внешних заказчиков. Конечно же, основную угрозу представляют профессиональные компании, которые, имея весьма прибыльный бизнес, в состоянии использовать квалифицированных специалистов и обеспечивать отличное техническое оснащение и юридическую поддержку своей деятельности.

Способы противодействия спаму можно условно разделить на несколько категорий.

Юридические и социальные способы. Имеются в виду, например, такие акции: принять закон о спаме и наказывать спамеров; создать службы для выявления и преследования спамеров; дать провайдерам полномочия для фильтрации почты и т. д.

Процедурные способы подразумевают повышение защищенности электронной почты: введение платных электронных марок, подтверждение отправки и т. п. Такие меры должны сделать спам процедурно невозможным или экономически невыгодным.

Технические способы предполагают фильтрацию спама с помощью технических средств.

Пропаганда: разъяснение незаконности и аморальности спама. Демонстрация альтернативных - эффективных и законных - методов рекламы в Интернете.

Анализируя методы борьбы, следует понять, какие именно аспекты проблемы можно разрешить с их помощью. Пропаганда должна предотвратить приток новых спамеров, причем в основном из категории "любителей". Юридические методы направлены против самих спамеров, но не против спама как такового. К тому же нужно иметь в виду, что эти методы необходимы, но явно недостаточны: об этом говорит хотя бы накопленный опыт борьбы с компьютерными вирусами.

Процедурные методы (мы не будем детально обсуждать имеющиеся здесь возможности) могут дать некоторый эффект, но в любом случае их применение требует определенной коррекции работы самого Интернета, что в любом случае не удастся реализовать быстро.

Таким образом, на ближайшее время (год-два), на наш взгляд, остается только один более или менее перспективный путь - фильтрация спама теми или иными техническими средствами.

Кто борется со спамом

Состояние отрасли средств борьбы со спамом в целом можно охарактеризовать как еще незрелое. Каждый месяц появляется множество новых продуктов для фильтрации спама и предложений по реорганизации Интернета и электронной почты. Однако пока в компьютерном сообществе не выработано понимание того, что именно должны делать эти средства, какими функциями они должны обладать, каков допустимый процент распознавания спама и ложных тревог, как тестировать программы фильтрации, на каких массивах писем и т. д.

Сегодня ряд организаций просто вынуждены устанавливать антиспамерские средства - это владельцы почтовых служб и провайдеры. В первую очередь мишенью спамеров становятся бесплатные почтовые сервисы, потому что они насчитывают миллионы пользователей и в силу своего публичного положения очень уязвимы для спамерских атак. Доля спама здесь достигает 75%. Для борьбы с ним применяются различные методы фильтрации. Западные публичные почты - Yahoo, MSN, AOL, по словам их представителей, практически все без исключения используют те или иные фильтры, однако спама в них по-прежнему много, что, возможно, объясняется невысоким уровнем интеллектуальности используемых фильтров.

Провайдеры доступа в Интернет используют в основном черные списки (публичные и собственные внутренние), позволяющие сразу отказаться от получения письма на основании IP-адреса отправителя.

По нашим оценкам, прошедшим летом уже до половины спама приходилось на долю личных и корпоративных почтовых ящиков. Однако в настоящее время основную долю пользователей антиспамерских средств в этом сегменте (частные лица и системные администраторы организаций) составляют так называемые пионеры, т. е. те, кто постоянно пробует технические новинки, готов их устанавливать и настраивать самостоятельно, даже при отсутствии документации или технической поддержки. Именно ориентируясь на эту категорию людей, мы расскажем ниже о технических методах борьбы со спамом.

Хотя может показаться, что главное - это распознать 100% спама, на самом деле главное - не допускать ложных срабатываний, т. е. случаев, когда нормальное деловое письмо принимается за спам. Ясно, что в теории фильтрацию 100% спама обеспечить легко - не пропускать никаких писем вообще. Но нужно ведь не это: деловые и личные письма должны доставляться получателю без проблем.

Распознавание спама и ложные срабатывания - классический рычаг, как "время-сила" в физике или "быстродействие-память" в программировании. На определенном уровне развития технологии либо то, либо другое страдает.

Можно сказать, что идеальное средство от спама должно почти никогда не допускать ложных срабатываний и фильтровать почти 100% спама. "Почти" - потому что на 100% выполнить обе задачи одновременно невозможно.

О тестировании

Мы не приводим никаких собственных данных по тестированию антиспамерского ПО - фактически сейчас нет достоверных данных на этот счет, систематического тестирования антиспамерских методов и программ не проводится. Тому есть две основные причины: во-первых, еще не выработано общепризнанных методик тестирования (в первую очередь из-за отсутствия эталонных массивов почты и чрезвычайно сильной изменчивости потока спама во времени), и во-вторых, большая часть фильтров дает пока очень плохие результаты - т. е. фактически тестировать в них нечего.

Электронные марки и сертификаты. В настоящее время во многих антиспамерских ассоциациях и в сетевом сообществе активно обсуждается идея создать систему аутентификации отправителей на основе электронной подписи письма, сертификата отправителя и т. д. Технически здесь все кажется весьма простым - нужно снабдить каждое письмо той или иной "электронной маркой", а каждый почтовый сервер - средствами верификации таких марок, и не принимать никакой другой почты. Но вот социальные аспекты данной идеи, на взгляд автора, и станут камнем преткновения. Такой метод, безусловно, будет работать, но потребует модификации протоколов пересылки почты и в любом случае - создания фактически глобального стандарта, что не так просто, учитывая, что электронной почтой пользуются примерно 500 млн человек в сотне стран. Сегодня многие системные администраторы не в состоянии даже соблюдать простейшие правила настройки почтового сервера, принятые всем Интернет-сообществом, так что о внедрении нового протокола говорить пока не приходится.

Методы распознавания спама

Технически существуют два основных подхода к фильтрации спама - по формальным признакам сообщения (по способу посылки и оформлению) и по его содержанию (т. е. по смыслу - семантически).

Формальные методы включают фильтрацию по спискам (почтовых адресов, IP-адресов) и фильтрацию по формальным признакам письма (наличие полей, много отправителей, нет получателя, путь, формат, размер и т. п.).

Семантические методы предполагают распознавание по содержанию письма (словосочетания, эвристики, статистика) или распознавание по образцам писем (по сигнатурам, с голосованием и т. п.).

Формальные методы

"Черные" и "белые" списки. Черные списки (real-time blackhole lists - RBLs) - это списки IP-адресов известных спамеров, адресов открытых почтовых пересылок, используемых спамерами эпизодически или регулярно, и списки диапазонов адресов тех сетей, которые не борются со спамерами или слишком к ним либеральны. Эти списки ведут организации провайдеров и некоторые доброхоты. Наиболее известных списков около десятка. Количество "плохих" адресов в черных списках достигает сотен тысяч. Антиспамерские программы обычно "подписываются" на те или иные списки и проверяют по ним адреса отправителей. Администратор системы или частный пользователь может также вести свои белые списки (списки друзей), от которых почта принимается всегда.

Формальные правила. Правила проверяют форму письма - способ его посылки и оформление. К типичным признакам спамерского письма относятся отсутствие адреса отправителя, отсутствие или слишком большое число получателей, отсутствие IP-адреса в системе Интернет-адресов DNS, фальшивые или некорректные технические заголовки и т. п. Часто также проводится фильтрация по размеру или формату сообщения. Набор правил антиспамерской программы может содержать сотни и даже тысячи правил.

Сигнатуры. Для каждого спамерского письма может быть автоматически создана так называемая сигнатура, позволяющая распознать это письмо, иногда даже с небольшими модификациями. Сигнатуры - это слепки письма, его отпечатки пальцев, более короткие, чем само письмо, но идентифицирующие его достаточно точно. Сигнатуры могут быть самыми разными: список наиболее часто встречающихся слов документа, вектор служебных слов, контрольные суммы байтов каждых пяти слов и т. д.

Сигнатуры хороши тем, что почти не дают ложных срабатываний. Они используются как в персональных/корпоративных продуктах, так и в сетевых сервисах, основанных на голосовании пользователей (см. ниже).

Лингвистические эвристики. Это наборы характерных для спама терминов (слов и словосочетаний) вместе с их вероятностными показателями (вероятностью встретить их в спамерском письме). Эвристики хороши тем, что позволяют распознать совершенно новое спамерское письмо за счет ограниченности языка спамеров, а плохи - тем, что требуют серьезной ручной работы с письмами. Чтобы работать хорошо, база эвристик должна включать десятки тысяч терминов.

На рисунке показано, как соотносятся множества писем, распознаваемые различными методами. Качество метода оценивается двумя основными показателями: полнотой (процент распознанных спамерских писем относительно общего потока) и уровнем ложных срабатываний (УЛС - количество нормальных писем, признанных спамом).

Эффективность фильтрации различными способами.

Следует обратить внимание на то, что на рисунке множества писем, признаваемых спамом, "задевают" область нормальных деловых и личных писем. Это показывает важность проблемы ложных срабатываний.

Самообучающиеся фильтры. В последнее время довольно много пишут о так называемых статистических байесовских фильтрах, которые сами обучаются распознавать спам на образцах писем пользователя. Можно слышать и мнение, что байесовские фильтры решают проблему фильтрации спама.

Сама по себе технология не представляет собой ничего нового - данный метод известен в кибернетике более 30 лет. Основная идея такова: берутся два эталонных массива, массив спамерских писем и массив "нормальных" сообщений. Для каждого слова из обоих массивов вычисляется частота вхождения в оба массива. Если некоторое слово часто встречается в спамерских письмах и редко - в обычных, то обнаружение такого слова в новом письме с некоторой вероятностью указывает на то, что письмо представляет собой спам. Естественно, большее количество таких слов в письме дает большую уверенность.

При анализе спама остается взять все слова из анализируемого письма и объединить их "спамерские" вероятности, получив таким образом оценку всего письма в целом. Объединение выполняется по известным формулам условных вероятностей Байеса, почему такие фильтры и называются байесовскими. Фактически здесь работа по составлению лингвистических эвристик возложена на саму программу.

Идея автоматически обучать программу поначалу производит сильное впечатление, однако, как обычно, у данного метода есть свои ограничения. Во-первых, борьба со спамом, равно как и с вирусами, - это борьба человека с человеком. Сомнительно, что удастся раз и навсегда заменить одну из сторон довольно простым автоматом. Спамеры постоянно предпринимают энергичные усилия для обмана вероятностных фильтров.

Достаточно упомянуть два приема, чтобы понять, что вероятностные фильтры - не панацея. К примеру, в последнее время спамеры начали применять вставку в письма случайных последовательностей и случайных слов (и даже обширных цитат из Шекспира и Уитмена). Применяется также случайная замена букв на похожие по написанию (например, русских "у", "о", "а" на соответствующие латинские или английских гласных - на немецкие с умляутами). Это дает десятки тысяч новых несуществующих "слов" каждую неделю.

Во-вторых, вероятностные фильтры вообще довольно неустойчивы относительно потока спама. Их приходится постоянно доучивать, и далеко не все пользователи готовы этим заниматься.

Детекторы массовых рассылок. Этот метод может применяться там, где есть большие потоки почты, - у провайдеров и на публичных почтовых серверах. Если какое-то письмо направлено сразу в сотни тысяч адресов и при этом адрес отправителя не входит в список основных серверов подписных рассылок (наподобие Subscribe.ru), можно с большой вероятностью предположить, что это спамерская рассылка.

Чтобы таким образом детектировать спам, нужно два условия: а) большой поток почты, б) способ определения "одинаковости" писем. Для последнего применяются различного рода сигнатуры - "отпечатки пальцев" письма. В частности, данный метод применяет почтовая служба Яndex - письма, разосланные массово, откладываются в специальную папку "Рассылки". Заметим, что данный метод не может с уверенностью дать заключение, действительно ли это спам, а только констатирует факт массовости рассылки.

Голосование пользователей. Ту же идею с сигнатурами письма можно использовать и другим способом: центральный сервер собирает от пользователей либо образцы спама, либо уже созданные пользователями сигнатуры спамерских писем (для чего пользователям бесплатно раздаются средства генерации сигнатур). Сигнатуры накапливаются на сервере, и для них подсчитывается количество обращений с данной сигнатурой; при превышении некоторого порога "популярности" соответствующее письмо признается спамерским и добавляется в базу "плохих" сигнатур. Далее с некоторой периодичностью на компьютеры пользователей отправляется обновление базы фильтра, содержащее сигнатуры спамерских писем.

Для борьбы со спамом можно применять встроенные средства почтовых программ. Кроме того, существует уже довольно много персональных продуктов. Заметим, что большая часть программ для борьбы со спамом использует одновременно различные методы детектирования спама.

Встроенные средства почтовых программ

В почтовых программах для пользователя есть средства фильтрации, построенные в виде "пустой рамки" для правил, которые пользователь должен задавать сам.

В частности, именно так устроены правила фильтрации Outlook (называемые Rules Wizard). Весьма распространенный в нашей стране почтовый клиент The Bat! также имеет мощные средства создания правил фильтрации, однако опять-таки представляет собой пустую рамку, которую пользователю предлагается заполнять самому. Увы, этот подход не работает. Пользователь, как правило, сам ничего не настраивает, а правила от Microsoft лишь изредка распознают небольшой процент старомодных спамерских писем. Скачать же новые базы негде - вторичного рынка правил для Outlook не возникло.

Сами правила в Outlook слишком примитивны, не позволяют распознавать разные формы слов и использовать статистические соображения о доле спамерской лексики. Таким образом, можно сделать вывод, что рассчитывать на ручную настройку фильтров пользователем не приходится. Впрочем, компания Microsoft обещает, что в ее новом Outlook 2003 будут более развитые средства фильтрации и "разъемы" для подключения фильтров от третьих сторон.

Фильтры для корпораций представляют собой серверные решения, устанавливаемые "на входе" в корпорацию. Основное отличие их от персональных средств фильтрации - развитая бизнес-логика, т. е. средства настройки для администратора, позволяющие определить, что делать с распознанным спамерским письмом - удалить, отложить, переслать и т. д. Кроме того, для корпоративного сервера фильтрации важна высокая производительность.

Среди корпоративных фильтров спама стоит упомянуть Brightmail Antispam Enterprise Ed., MessageLabs SkyScan AS, Postini Perimeter Manager, Kaspersky Antispam.

Сравнение и описание характеристик корпоративных фильтров - тема отдельной статьи, здесь же скажем только, что большая часть этих корпоративных продуктов использует одновременно несколько методов фильтрации, некоторые из них автоматически скачивают обновления базы фильтрации, практически все позволяют подписаться на "черные списки" третьих сторон.

Качество корпоративных фильтров, по-видимому, выше, чем у персональных, однако и здесь не сложилось признанной системы независимого тестирования и "табели о рангах". Заметим, что упоминавшийся выше отчет о тестировании корпоративных фильтров от PC Magazine показывает пока весьма низкое качество фильтрации (в среднем 0,3-0,5% ложных тревог при пропуске 6-15% спама).

Сформулируем основной вывод: в борьбе со спамом будущее за профессиональными программными продуктами для фильтрации. Мы считаем, что в ближайшие год-два сформируется рынок таких продуктов. Они будут обладать следующими свойствами:

использование всех методов фильтрации, как формальных, так и лингвистических (объединенных единым интеллектуальным решающим центром);
использование "антивирусной" схемы бизнеса: поддержка в режиме 24х7 от специальной лаборатории по борьбе со спамом (аналог антивирусных лабораторий) и регулярные обновления баз (скачиваемые автоматически через сеть);
простота установки и использования (фильтрация "под ключ", работа по

Компьютеры и Интернет ::: Программинг и софт

Неофициальный

Нет

396

Комментарии:

Комментариев нет