Как это работает

Существует несколько подходов к обнаружению и фильтрации нежелательных посетителей в рекламном трафике.

Черные списки

Это наиболее распространенный и в то же время примитивный и наивный подход. Обычно для анализа выбирается узкий набор атрибутов посетителя (IP-адрес, заголовки HTTP-запроса и т.п.) и сверяется с заранее составленным «черным» списком этих атрибутов. Совпадение означает сигнал к блокировке. Несмотря на популярность, у этого подхода есть фатальный недостаток.

Черные списки никогда не являются исчерпывающими, что делает процесс их обхода тривиальным. Для обхода черных списков IP-адресов достаточно менять IP-адреса, каждый раз выбирая для проверки новый из длинного списка, как это часто и делается с помощью прокси-сервисов. Невозможно занести в черный список все, всегда останутся бреши, через которые недоброжелатели получат доступ к защищаемому контенту. Существуют целые компании, бизнес которых построен на предоставлении в аренду огромных пулов резидентских IP-адресов (т.е. выданных провайдерам домашнего Интернета), постоянно пополняемых, что делает поддержание актуального черного списка таких IP-адресов невероятно сложной, если вообще выполнимой задачей.

Черные списки — это самый распространенный и зачастую единственный подход, используемый сервисами клоакинга в сфере партнерского маркетинга. Пусть и оправданный в некоторых случаях, этот подход слишком грубый и ненадежный, чтобы использовать его сам по себе. Ложноотрицательные результаты такой фильтрации — наиболее частая причина «пробива клоаки». Adspect имеет массивные встроенные черные списки IP-адресов заведомо неблагонадежных источников трафика, совокупный объем которых насчитывает порядка одного миллиарда адресов.

Анализ JavaScript-отпечатков

Сбор отпечатков, по аналогии с отпечатками пальцев, — это процесс сбора «машинных отпечатков» посетителей, которые их идентифицируют. Но, в отличие от совершенно уникальных отпечатков пальцев, машинные отпечатки не уникальны. В зависимости от алгоритма, они могут включать в себя разное число составляющих фактов. Некоторые факты встречаются очень часто, например строка user agent популярного браузера. Другие же факты, встречающиеся реже, примечательны тем, что встречаются только у всех тех нежелательных видов трафика, от которых мы защищаем своих клиентов. И мы в Adspect отлично знаем, что это за факты.

Анализ машинных отпечатков — это намного более продвинутая технология, которую используют крупные, ориентированные на бизнес-клиентов игроки на рынке защиты информации. Их услугами пользуются VAS-провайдеры (VAS — «value-added services», мобильный контент) для защиты wap-click-офферов от скликивания. Adspect первыми применили технологию сбора и анализа отпечатков в adtech-индустрии для защиты рекламных кампаний частных рекламодателей.

У нас имеется богатый опыт в анализе JavaScript-отпечатков — машинных отпечатков, составленных из многочисленных деталей среды исполнения JavaScript в браузерах посетителей. Собираемые нами отпечатки состоят в среднем из 1600–2200 различных фактов, которые показывают нам очень детальную картину внутреннего устройства программного обеспечения посетителей. Мы проверяем эти отпечатки десятками высокоточных тестов и безошибочно определяем нежелательный трафик.

Машинное обучение VLA™

Машинное обучение (ML) — это широкий термин, в общем случае обозначающий алгоритмы обучения компьютеров для того, чтобы в дальнейшем использовать полученные ими знания для выполнения конкретной задачи. В плане защиты рекламного трафика машинное обучение может использоваться для оценки каждого отдельного клика с целью понять, целевой это посетитель или кто-то нежелательный. В научной среде это называется задачей классификации. И при условии наличия достаточного объема данных для обучения эта задача решается с очень высокой точностью.

Машинное обучение оказалось идеальным инструментом анализа отпечатков с их огромным набором составляющих их фактов. Adspect использует собственную технологию машинного обучения VLA™, которая постоянно обучается и точно распознает нежелательных посетителей далеко за рамками тех проверок, которые мы изначально в нее заложили.

VLA™ — это аббревиатура от «Virtual Learning Appliance». Это торговое название нашей технологии машинного обучения, лежащей в основе наиболее продвинутых фильтров трафика в Adspect. Если говорить упрощенно, то это математическая машина, т.н. модель, которая проверяет входящий трафик и сама находит подозрительные повторяющиеся последовательности среди тысяч фактов в машинных отпечатках посетителей. По этим признакам она определяет модераторов, кликфрод и прочую злонамеренную активность. VLA находится в постоянном цикле самообучения, развиваясь и адаптируясь к новым угрозам по мере их появления. VLA является нашим самым мощным оружием в гонке вооружений партнерского маркетинга, так как может распознавать цели далеко за рамками тех проверок, которые мы изначально заложили. То, что человек-аналитик может упустить, никогда не ускользнет от математически точного анализа запрограммированной машины.

В то время, как наши обычные проверки отпечатков дают очень близкую к 100% точность определения нежелательных посетителей, VLA является по своей природе вероятностной системой. Реальная ценность VLA в том, что стандартные проверки охватывают лишь заранее известные нам типы угроз, но VLA обнаруживает новые, ранее не известные нам образцы. Система получает на вход отпечаток, анализирует каждый факт в его составе и выдает процент уверенности в его опасности, как будто говоря: «я на 97% уверена в том, что это отпечаток опасного посетителя, и тебе лучше отфильтровать его!»

Остается лишь определить, какой процент уверенности является достаточно высоким, чтобы фильтровать. В этом вопросе решение принимаете вы. В настройках каждого потока есть параметр «Точность VLA», который предназначен как раз для этого: вы выбираете минимально необходимую уверенность VLA, при которой посетитель будет отфильтрован на белую страницу. Например, если вы указали точность в 95%, то VLA отфильтрует всех тех посетителей, в чьей опасности она уверена на 95% и более. Те же, в ком VLA сомневается меньше, будут пропущены на контент (при отсутствии других признаков опасности). Этот единственный параметр точности позволяет вам тонко настроить систему в соответствии с вашим личным пониманием того, что значит «достаточная уверенность». Наши тесты показали, что 95% — хорошее начальное значение для точности VLA.

«Под капотом» VLA представляет из себя самообучающуюся модель дискретного байесовского классификатора с единым общим датасетом (шаблоном) и множеством дочерних датасетов (специализаций), индивидуальных для каждого потока. Это означает, в частности, что со временем база знаний VLA адаптируется к специфике трафика каждого конкретного потока в Adspect.

Наш подход

Adspect использует все три описанных подхода совместно, не полагаясь целиком на какой-то один из них. Мы не держим все яйца в одной корзине. Это позволяет нам принимать точные решения с наименьшими ложноположительными и ложноотрицательными результатами. Мы твердо уверены в том, что детальные машинные отпечатки и их анализ алгоритмами машинного обучения будут играть ключевую роль в новых adtech-проектах, направленных на защиту рекламного трафика, благодаря огромному потенциалу обеих технологий, особенно когда они применяются совместно.