Алгоритм Матрикснет (MatrixNet)

Алгоритмы поисковых систем: Матрикснет Яндекса

Яндекс с 2009 года использует при ранжировании сайтов систему машинного обучения, которая называется Матрикснет. Это позволяет поисковой системе учитывать очень много факторов при ранжировании сайтов.

Общий принцип работы Матрикснета

Специально обученные люди (асессоры) готовят для Матрикснета выборку вручную оцененных сайтов, а Матрикснет при помощи алгоритмов машинного обучения ищет в предоставленной выборке различные закономерности и применяет выявленные критерии оценки для формирования «мнения» обо всех остальных сайтах.

Например, на высоко оцененных асессорами сайтах наблюдается высокая скорость загрузки страниц и плотность ключевых слов достаточно средняя, а низкооцененные сайты работают медленно и содержат значительно более высокое количество вхождений ключевых слов. На основании этой информации Матрикснет будет ставить выше быстрые сайты со средней плотностью ключевых слов, а медленные сайты с плохими SEO-текстами окажутся далеко от первой десятки по большинству запросов.

Десятки тысяч факторов ранжирования

Яндекс очень много знает о сайтах: это и само содержание сайта (он знает и про структуру сайта, и про текстовое наполнение, про изображения и другой медийный контент, про частоту обновления информации), и характеристики его работы (скорость ответа сервера, наличие ошибок в верстке и в работе серверной части, скорость работы сайта в разных браузерах и на разных платформах), и про поведение аудитории на сайте (длительность и глубина просмотров, процент возвратов на сайт, количество отказов, а также ему доступны прочие подобные характеристики удовлетворенности аудитории), и внешние ссылки.

По информации Яндекса, Матрикснет использует формулу ранжирования с десятками тысяч различных коэффициентов, причём эта формула постоянно обновляется и улучшается, что позволяет добиться максимально точного поиска и снизить внешнее влияние на результаты поисковой выдачи. По сути, на основании поискового запроса пользователя к коллекции известных Яндексу сайтов применяется формула, составленная Матрикснетом, каждый сайт получает числовую оценку, характеризующую его соответствие поисковому запросу, после чего список сайтов упорядочивается по этой оценке и в его верхней части оказываются сайты, получившие максимальную оценку. В общем-то, поиск также работал и до Матрикснета, использовалось достаточно большое количество критериев, но Матрикснет позволил как увеличить число используемых факторов и сегментировать условия их учёта, так и автоматизировать сам процесс составления формулы ранжирования.

Ранжирование по тематике поисковых запросов

Матрикснет использует в своей работе тематическую классификацию: например, сайты про бухгалтерские услуги и сайты про рыбалку ранжируются на основании разных алгоритмов. Тоже самое касается и типа поискового запроса — если человек ищет товары и услуги, то ему показываются коммерческие сайты, если информацию — то порталы и энциклопедии, если новости — новостные сайты, список можно продолжить. Если же непонятно, что пользователь ищет: информацию или возможность что-то купить, то алгоритм выдаёт смесь информационных и коммерческих сайтов.

По сути, Яндекс определяет тематику поисковых запросов и на основании сделанных выводов применяет те или иные факторы ранжирования. Например, в конце 2013 года Яндекс заявил, что перестанет учитывать ссылочное ранжирование в коммерческих темах, а в марте 2014 уже фактически перестал учитывать внешние ссылки при ранжировании результатов поиска по коммерческим запросам. Именно Матрикснет дал Яндексу возможность отделить коммерческие запросы от некоммерческих и использовать для них различные формулы ранжирования.

Откуда Yandex узнает возраст и пол посетителей сайта?

Осенью 2011 года Яндекс запустил технологию «Крипта» (на основе самообучающегося алгоритма Матрикснет), которая отслеживает поведение пользователя и по собранным данным относит его к той или иной целевой группе. Это позволяет более точно таргетировать поисковую выдачу, сервисы и рекламу.

Технология Крипта

Благодаря Крипте каждый из миллионов людей, которые заходят на сайты сервисов Яндекса и его партнёров, видит на их страницах предложения, которые могут быть актуальны именно для него. Другими словами, эта технология даёт рекламодателям возможность показывать свои объявления только тем, на кого они рассчитаны, например людям определенного возраста, дохода и привычек, которые живут в конкретном районе города. Выяснить, принадлежит ли пользователь к такому сегменту, Крипта может по его поведению в интернете.

Система специально устроена так, что Крипта не получает личной информации о людях и тем более не передаёт её рекламодателям. Каждый пользователь для неё — это набор идентификаторов. Крипта может с высокой вероятностью предположить, что пользователю с таким-то идентификатором может быть интересно такое-то предложение, — но кто этот человек, как его зовут и тому подобное, она не знает.

Возможности Крипты

Построение профиля пользователя

Крипта работает на основе различных методов машинного обучения. Чтобы установить признаки, по которым человека можно отнести к какой-либо группе, она исследует сетевое поведение её типичных представителей

: какие слова они используют в запросах, сколько запросов задают за сессию, какие сайты посещают, в какое время суток выходят в интернет и т. д. — всего около 300 факторов.

Затем Крипта рассчитывает значимость каждого фактора для конкретного сегмента пользователей. В итоге получается формула, с помощью которой вычисляется вероятность принадлежности пользователя к данной группе. Эти данные пересчитываются каждый день, чтобы успевать реагировать на изменения в интересах людей. Например, если переход в другую возрастную группу требует времени, то стать автолюбителем можно очень быстро. Сама формула тоже время от времени проверяется и, если нужно, корректируется.

«Склейка» профиля из идентификаторов браузеров и устройств.

Как уже было сказано выше, пользователь для Крипты — это не человек с именем и фамилией, а набор идентификаторов. Но почему набор? Дело в том, что каждое устройство и браузер, которым человек пользуется для выхода в сеть, имеет свой уникальный идентификатор — файл cookie, который сайты используют, чтобы узнавать пользователя и, например, не спрашивать каждый раз пароль для входа. Свои идентификаторы есть и у приложений — если приложение (например, Карты или Навигатор) отправляет данные на сервера Яндекса, информацию из его идентификатора Крипта тоже учитывает.

Крипта умеет определять, что все эти идентификаторы принадлежат одному пользователю. В результате их «склейки»; можно получить более полный портрет человека и распределять рекламные сообщения между его устройствами и приложениями. Например, человеку, который со своего домашнего компьютера часто ищет что-то про средиземноморскую кухню, можно в Навигаторе показать рекламу греческого ресторана, когда он будет проезжать неподалёку.

Для «склейки» применяются два метода — вероятностный и факторный. Первый позволяет предположить, что два устройства принадлежат одному человеку, если поведение их пользователей очень похоже. Второй работает с более явными свидетельствами — например, фактором для «склейки» идентификаторов устройств может быть использование одного и того же логина на каком-нибудь сервисе. Правда, даже такой фактор нельзя трактовать однозначно, ведь одним логином часто пользуются несколько человек, члены семьи или коллеги. Поэтому на последнем этапе «склейки» производится обратный процесс, «расклейка» — устранение лишних и ненадёжных связей.

Применение

Данные Крипты о социально-демографических характеристиках аудитории учитываются при отборе контекстных объявлений, которые показываются на сайтах Рекламной сети Яндекса. В медийной рекламе Крипта применяется для показа баннеров людям определенного пола и возраста или, например, только тем, кто почти не смотрит телевизор.

Крипта применяется и в других инструментах для рекламодателей. С её помощью бизнес может показывать свои предложения пользователям, которые похожи на людей, уже ставших его клиентами, и выделять другие сложные сегменты пользователей — для кампаний в Директе, а также в каналах персональной коммуникации. Кроме того, Крипта умеет определять актуальные координаты — их можно использовать для таргетирования кампаний на конкретные районы или, например, для показа рекламы магазина людям, которые оказались рядом с ним.

Комментарии
RSS
Вам может быть интересно
Узнайте больше от разработчиков компании DST Global о том, как, внедрив правильную структуру, разработчики программного обеспечения могут выбирать и использовать инструменты ИИ-кодирования, не создава...
В настоящее время подразделение по обеспечению надежности объектов (SRE) стало о...
Структура управления рисками ИИ NIST предлагает ко...
Давайте рассмотрим взаимосвязь между системами иск...
Пересечение искусственного интеллекта (ИИ) и управ...
Искусственный интеллект (ИИ) быстро трансформирует...
: революция в изучении языкаИзучение языка всегда ...
Как чат-боты произведут революцию в CRM: что нужно...
Потенциальные преимущества аналитики социальных се...

Новые комментарии

Pagelook достаточно старая Социальная сеть, основное направление развлечения, как я понял она хорошо подойдет тем кто приверженец старого ВК и в свое ...
Pagelook достаточно старая Социальная сеть, основное направление развлечения, как я понял она хорошо подойдет тем кто приверженец старого ВК и в свое ...
Pagelook достаточно старая Социальная сеть, основное направление развлечения, как я понял она хорошо подойдет тем кто приверженец старого ВК и в свое ...
Интересная и на редкость полезная Социальная сеть, а главное как я считаю это то что она тематическая, ничего лишнего

Заявка на услуги DST

Наш специалист свяжется с вами, обсудит оптимальную стратегию сотрудничества,
поможет сформировать бизнес требования и рассчитает стоимость услуг.

Адрес

Россия, Ижевск, ул.Салютовская,
д.1, офис 17

8 495 1985800
Заказать звонок

Режим работы: Пн-Пт 10:00-19:00

info@dstglobal.ru

Задать вопрос по почте

Укажите ваше имя
Укажите ваше email
Укажите ваше телефон