Автор: Никита Шунько, помощник SEO-специалиста SiteClinic.ru
Подсказки в поисковой строке— действенный метод продвижения, но не все пользуются им в благих целях. Недавно мне встретилась статья, о том, как Google и Facebook манипулировали избирателями с помощью саджестов во время президентских выборов в США в 2016 году. Я решил изучить эту тему подробнее.
Весной 2018 года американские специалисты опубликовали результаты масштабного исследования манипуляций с поисковыми подсказками. Авторы проекта разработали первый рабочий метод выявления «фальсифицированных» подсказок в Google. В данной статье я подробно расскажу об этом методе, а также о том, как выявлять ненастоящие подсказки в Яндексе.
Поисковые подсказки или саджесты (от англ. suggestion — «предложение») — одна из наиболее актуальных тем в интернет-маркетинге. Веб-аналитики предполагают, что этот инструмент станет одним из способов продвижения и перенаправления траффика.
Но что, если саджесты уже используют для продвижения? Ведь при вводе поискового запроса мы часто кликаем по первой подсказке, не задумываясь (особенно при использовании мобильного устройства).
Как попасть в поисковые подсказки
Подсказки – это всплывающие варианты запросов в поисковой системе. Они дублируют начало текста, введенного пользователем. Саджесты помогают юзеру точно сформулировать запрос и подобрать наиболее релевантную выдачу.
В поисковой системе Google, в отличие от Yandex, у поисковых подсказок есть «география», но нет «таргетинга». Например, по запросу пользователя, который находится в Белгороде, ему покажут географическую привязку. Однако здесь же могут быть запросы по Киеву Харькову. И не факт, что при этом будет упомянут Белгород или хотя бы Россия. Yandex осуществляет более точную привязку к местонахождению, и количество появляющихся саджестов намного больше. Обе системы используют «пользовательскую память», и в первую очередь будут предлагать запросы, которые уже вводились на устройстве.
Поисковики официально не используют подсказки в коммерческих целях, однако манипулировать трафиком и влиять на подсознание с их помощью, все же, можно.
Автозаполнение как способ накрутки поисковых подсказок
Как только в поисковой строке появились подсказки, предприимчивые SEO-специалисты начали использовать их для повышения трафика своих сайтов. Создается большое количество поддельных запросов с упоминанием определенного термина (название организации, продукта и т.п.), чтобы направлять посетителей на «нужные» сайты и имитировать спрос:
Данный тип продвижения не только снижает качество результатов поиска, но и отрицательно влияет на репутацию поисковой системы. По очень многим коммерческим ВЧ-запросам в списке подсказок появляются такие «примеси», и все поисковые системы, включая Google, Yandex, Bing, Yahoo являются жертвами этой атаки.
Согласно данным Google, 60% сегодняшних поисковых запросов поступают с мобильных устройств. Здесь форм-факторы затрудняют ввод запроса, потому пользователи планшетов и телефонов, в большинстве случаев, полагаются на готовые варианты автозаполнения. Именно так мобильные пользователи подвергаются манипуляциям с помощью подсказок.
Как выявить накрученные подсказки в Google
Не так давно специалисты из трех американских университетов провели масштабный эксперимент с манипуляциями при помощи автозаполнений. Исследование основывалось на автоматическом обнаружении манипулятивных предложений без доступа к журналам запросов. Ученые разработали метод Sacabuche (Search AutoComplete Abuse Checking), решающий данную проблему.
Согласно данному подходу, манипулятивные подсказки можно выявить по семантической несогласованности между триггерными фразами (ключевыми словами внутри триггера) и соответствующими им целевыми фразами (ключевые слова в предложении). Настоящие подсказки содержат общие формулировки, например, «обзоры», «компании», «список», «услуги». Манипулятивные саджесты являются более конкретными (потому что используются с целью продвижения продукта). Для примера, введя триггер «online backup free download», исследователи обнаружили, что в его предложении появилось незнакомое слово «strongvault»:
Оказалось, что это вредоносное программное обеспечение, которое попало в список с автозаполнениями за счёт манипуляций.
Как работает Sacabuche
На рисунке 5 показана архитектура Sacabuche, включая Искатель Прогнозирования (ИП), анализатор поискового термина (АПТ) и анализатор результатов поиска (АРП). ИП предназначен для обнаружения большого количества автоматических предложений. В частности, он итеративно запрашивает поисковые системы с ограничением глубины до 3 начиная с набора триггеров в качестве входных данных. Это позволяет получить большее количество автозаполнений. Данные предложения дополнительно анализируются АПТ, который рассматривает набор семантических признаков для выявления подозрительных терминов. Затем такие термины запрашиваются в поисковых системах АРП, и их результаты проверяются на основе характеристик контента для захвата управляемых прогнозов.
Метод Sacabuche использует двухэтапный подход, основанный на семантике и минимизирующий его влияние на производительность. Здесь применяется обработка естественного языка для анализа большого количества комбинаций триггеров и предложений без запроса поисковых систем. Таким образом, отфильтровывается подавляющее большинство настоящих подсказок. И только небольшой набор подозрительных формулировок запускается против поисковых систем, чтобы получить результаты запроса для обнаружения манипуляций. Манипулятор может создавать большое количество запросов, но намного сложнее создать множество релевантных результатов, проиндексированных поисковыми системами, поэтому эта особенность помогает отличать проблемные предложения от законных.
Эффективность подхода подтверждается точностью более 96,23% и отзыв 95,63%, а его масштабируемость позволила провести исследование на 114 миллионах предложений.
Для автоматической идентификации манипуляторов исследователи использовали набор технологий NLP (обработка естественного языка):
- Векторное представление слов. Это общее название для различных подходов к моделированию языка на основе обработки естественной речи. Данные методы направлены на сопоставление слов из некоторого словаря векторов. Теоретической базой для векторных представлений является дистрибутивная семантика. Векторное представление предназначено для того, чтобы синонимы получали аналогичные векторы, а антонимы сопоставлялись с разнородными векторами. В исследовании использовался популярный инструмент для встраивания слов Word2Vec, который работает на основе искусственной нейронной сети для построения модели и генерации векторов. С помощью этого инструмента сравнивались семантические значения разных слов и измерялось расстояние косинуса между векторами. Например, технология встраивания автоматически идентифицирует слова, семантически близкие к «казино», такие как «азартные игры» (расстояние до косинуса 0,35), «вегас» (0,46) и «блэкджек» (0,48).
- Анализ зависимостей. Анализ синтаксиса — это метод NLP для описания грамматических отношений между словами в предложении. Такие отношения включают прямой объект, определитель, модификатор существительного соединения и др. Такой современный анализатор зависимости между словами, как, парсер Стэнфорда, достигает 92,2% точности в обнаружении грамматических отношений в предложении.
- Лемматизация. В документе на естественном языке всегда содержатся слова в разных формах, из-за временных аббревиатур и грамматических потребностей. Например, «организовать», «организует» и «организация». Кроме того, существуют слова деривации со сходными значениями, такими как «медленный» и «медлительность». Поэтому нужно узнать исходную форму каждого слова, а затем связать их с выражениями в разных формах. Это можно сделать, используя методы лемматизации, которые уменьшают флективные формы, удаляют флективные окончания и возвращают базовую или словарную форму. Общим алгоритмом лемматизации является морфологический анализ, позволяющий выяснить лемму для каждого слова. Современный алгоритм WordNetLemmatizer позволяет достичь 95% точности.
- Противоположная модель. Манипуляторы создают большое количество запросов в различных источниках для распространения незаконного, нежелательного или несвязанного контента. Из-за этого подход обнаружения на основе IP-идентификаторов становится менее эффективным. Однако, с другой стороны, предполагается, что таким манипуляторам трудно создавать большое количество веб-контента, распространять его на авторитетных веб-сайтах и индексироваться поисковыми системами. Такие меры, безусловно, требуют больших затрат и ресурсов, чем поддельные запросы.
Очевидно, что манипулятивные подсказки «выдает» семантическая несогласованность. Она заключается в том, что триггер и его предложение менее связаны, когда происходит манипуляция с автозаполнением. Это происходит потому, что продвигается малоизвестный продукт, который менее актуален для соответствующего триггера. Например, «играть в онлайн-бинго онлайн-игры на moonbingo. com» и «бесплатные сайты для бинго игроков» — это предложения для триггера «сайты для бинго». При этом первый, с которым манипулируют, более конкретен (продвигает moonbingo. com, сайт бинго) и, следовательно, менее похож на триггер.
В дополнение к семантической несогласованности было обнаружено, что результаты поиска поддельных подсказок не согласуются с их соответствующими триггерами, в то время как «хорошие» им соответствуют. Это связано с тем, что манипулятивное предложение влияет на расставление приоритетов поисковой системой: продвигаемый контент на делает более заметным в выдаче.
На рисунке 6 показана несогласованность результатов поиска поддельных и обычных предложений. Для результатов поиска «доброкачественного» предложения «Norton резервное копирование онлайн бесплатно» они были аналогичны поисковым запросам «резервное копирование онлайн скачать бесплатно». В то же время, в 20-ти лучших результатах поиска по данному триггеру нет ни одного предложения, из тех, что нам предлагала подсказка «strongvault онлайн-резервное копирование бесплатно».
По результатам исследования выяснилось, что 3 тысячи скомпрометированных сайтов, находящихся в ТОП-10 Google, фактически связаны с накруткой поисковых подсказок.
Как обнаружить накрутку подсказок в Яндексе?
У систем подсказок Google и Yandex есть такое понятие, как «свежесть». Например, если какой-то запрос становится популярным за короткий срок, у него есть шанс попасть в подсказки. Но также он может исчезнуть через некоторое время из-за спада интереса.
Yandex обновляет подсказки, как минимум, один раз в день. Запросы, которые теряют актуальность, удаляются. Данная ПС следит за ростом их количества. Поэтому актуальные запросы, которые заинтересовали большое количество юзеров, попадают в «быстрые» подсказки Яндекса. Они обновляются каждые полчаса. Такой отбор происходит на основе резкого роста интереса к событиям (например, последним новостям, и новым публикации и в социальных сетях).
Как же понять, что запрос «накручивают»? Приведу пример очевидной манипуляции с подсказками: случай, когда продвигаемый сайт перекрыл все поисковые подсказки Яндекса по ключу «образование»:
А теперь приведу пример естественных подсказок по актуальной теме, которая интересует многих пользователей:
Итак, определить накрутку запроса можно по косвенным факторам. К примеру, если среди информационных подсказок по коммерческому запросу попадается подсказка, содержащая название неизвестной компании.
В поисковой системе Yandex можно заглянуть в Wordstat — историю запроса. Она может о многом рассказать. Если частота запроса за один месяц увеличивается со 100 показов до 10000, это должно насторожить. Такие цифры относятся к первому примеру очевидной накрутки.
Также обнаружить такие манипуляции позволяет анализ журналов поиска и источников для создания предложений. Однако такой подход может выполнять только поставщик поиска, например Yandex или Google. Даже если учитывать поисковые журналы, тщательный анализ огромного количества данных является нетривиальным.
Выводы
Тема манипуляции с поисковыми подсказками очень актуальна. Количество компаний и сервисов, которые предлагают услуги продвижения за счет накрутки саджестов, быстро растет. Однако такой метод снижает качество результатов поиска и негативно влияет на репутацию поисковой системы. Ввиду того что количество подсказок достигает более сотни миллионов, и они постоянно обновляются, такие манипуляции тяжело отследить. Этим могут пользоваться недоброжелатели для фишинга, распространения вредоносных программ или для продажи трафика через партнерскую программу. На мой взгляд, это главные проблемы данного метода.
Подробнее об исследовании, можно прочесть здесь.