Заявка на услуги DST
Наш специалист свяжется с вами, обсудит оптимальную стратегию сотрудничества,
поможет сформировать бизнес требования и рассчитает стоимость услуг.
Алгоритмы поисковых систем: Матрикснет Яндекса
Яндекс с 2009 года использует при ранжировании сайтов систему машинного обучения, которая называется Матрикснет. Это позволяет поисковой системе учитывать очень много факторов при ранжировании сайтов.
Общий принцип работы Матрикснета
Специально обученные люди (асессоры) готовят для Матрикснета выборку вручную оцененных сайтов, а Матрикснет при помощи алгоритмов машинного обучения ищет в предоставленной выборке различные закономерности и применяет выявленные критерии оценки для формирования «мнения» обо всех остальных сайтах.
Например, на высоко оцененных асессорами сайтах наблюдается высокая скорость загрузки страниц и плотность ключевых слов достаточно средняя, а низкооцененные сайты работают медленно и содержат значительно более высокое количество вхождений ключевых слов. На основании этой информации Матрикснет будет ставить выше быстрые сайты со средней плотностью ключевых слов, а медленные сайты с плохими SEO-текстами окажутся далеко от первой десятки по большинству запросов.
Десятки тысяч факторов ранжирования
Яндекс очень много знает о сайтах: это и само содержание сайта (он знает и про структуру сайта, и про текстовое наполнение, про изображения и другой медийный контент, про частоту обновления информации), и характеристики его работы (скорость ответа сервера, наличие ошибок в верстке и в работе серверной части, скорость работы сайта в разных браузерах и на разных платформах), и про поведение аудитории на сайте (длительность и глубина просмотров, процент возвратов на сайт, количество отказов, а также ему доступны прочие подобные характеристики удовлетворенности аудитории), и внешние ссылки.
По информации Яндекса, Матрикснет использует формулу ранжирования с десятками тысяч различных коэффициентов, причём эта формула постоянно обновляется и улучшается, что позволяет добиться максимально точного поиска и снизить внешнее влияние на результаты поисковой выдачи. По сути, на основании поискового запроса пользователя к коллекции известных Яндексу сайтов применяется формула, составленная Матрикснетом, каждый сайт получает числовую оценку, характеризующую его соответствие поисковому запросу, после чего список сайтов упорядочивается по этой оценке и в его верхней части оказываются сайты, получившие максимальную оценку. В общем-то, поиск также работал и до Матрикснета, использовалось достаточно большое количество критериев, но Матрикснет позволил как увеличить число используемых факторов и сегментировать условия их учёта, так и автоматизировать сам процесс составления формулы ранжирования.
Ранжирование по тематике поисковых запросов
Матрикснет использует в своей работе тематическую классификацию: например, сайты про бухгалтерские услуги и сайты про рыбалку ранжируются на основании разных алгоритмов. Тоже самое касается и типа поискового запроса — если человек ищет товары и услуги, то ему показываются коммерческие сайты, если информацию — то порталы и энциклопедии, если новости — новостные сайты, список можно продолжить. Если же непонятно, что пользователь ищет: информацию или возможность что-то купить, то алгоритм выдаёт смесь информационных и коммерческих сайтов.
По сути, Яндекс определяет тематику поисковых запросов и на основании сделанных выводов применяет те или иные факторы ранжирования. Например, в конце 2013 года Яндекс заявил, что перестанет учитывать ссылочное ранжирование в коммерческих темах, а в марте 2014 уже фактически перестал учитывать внешние ссылки при ранжировании результатов поиска по коммерческим запросам. Именно Матрикснет дал Яндексу возможность отделить коммерческие запросы от некоммерческих и использовать для них различные формулы ранжирования.
Откуда Yandex узнает возраст и пол посетителей сайта?
Осенью 2011 года Яндекс запустил технологию «Крипта» (на основе самообучающегося алгоритма Матрикснет), которая отслеживает поведение пользователя и по собранным данным относит его к той или иной целевой группе. Это позволяет более точно таргетировать поисковую выдачу, сервисы и рекламу.
Технология Крипта
Благодаря Крипте каждый из миллионов людей, которые заходят на сайты сервисов Яндекса и его партнёров, видит на их страницах предложения, которые могут быть актуальны именно для него. Другими словами, эта технология даёт рекламодателям возможность показывать свои объявления только тем, на кого они рассчитаны, например людям определенного возраста, дохода и привычек, которые живут в конкретном районе города. Выяснить, принадлежит ли пользователь к такому сегменту, Крипта может по его поведению в интернете.
Система специально устроена так, что Крипта не получает личной информации о людях и тем более не передаёт её рекламодателям. Каждый пользователь для неё — это набор идентификаторов. Крипта может с высокой вероятностью предположить, что пользователю с таким-то идентификатором может быть интересно такое-то предложение, — но кто этот человек, как его зовут и тому подобное, она не знает.
Возможности Крипты
Построение профиля пользователя
Крипта работает на основе различных методов машинного обучения. Чтобы установить признаки, по которым человека можно отнести к какой-либо группе, она исследует сетевое поведение её типичных представителей
: какие слова они используют в запросах, сколько запросов задают за сессию, какие сайты посещают, в какое время суток выходят в интернет и т. д. — всего около 300 факторов.
Затем Крипта рассчитывает значимость каждого фактора для конкретного сегмента пользователей.
«Склейка» профиля из идентификаторов браузеров и устройств.
Как уже было сказано выше, пользователь для Крипты — это не человек с именем и фамилией, а набор идентификаторов. Но почему набор? Дело в том, что каждое устройство и браузер, которым человек пользуется для выхода в сеть, имеет свой уникальный идентификатор — файл cookie, который сайты используют, чтобы узнавать пользователя и, например, не спрашивать каждый раз пароль для входа. Свои идентификаторы есть и у приложений — если приложение (например, Карты или Навигатор) отправляет данные на сервера Яндекса, информацию из его идентификатора Крипта тоже учитывает.
Крипта умеет определять, что все эти идентификаторы принадлежат одному пользователю. В результате их «склейки»; можно получить более полный портрет человека и распределять рекламные сообщения между его устройствами и приложениями. Например, человеку, который со своего домашнего компьютера часто ищет что-то про средиземноморскую кухню, можно в Навигаторе показать рекламу греческого ресторана, когда он будет проезжать неподалёку.
Для «склейки» применяются два метода — вероятностный и факторный. Первый позволяет предположить, что два устройства принадлежат одному человеку, если поведение их пользователей очень похоже. Второй работает с более явными свидетельствами — например, фактором для «склейки» идентификаторов устройств может быть использование одного и того же логина на каком-нибудь сервисе. Правда, даже такой фактор нельзя трактовать однозначно, ведь одним логином часто пользуются несколько человек, члены семьи или коллеги. Поэтому на последнем этапе «склейки» производится обратный процесс, «расклейка» — устранение лишних и ненадёжных связей.
Применение
Данные Крипты о социально-демографических характеристиках аудитории учитываются при отборе контекстных объявлений, которые показываются на сайтах Рекламной сети Яндекса. В медийной рекламе Крипта применяется для показа баннеров людям определенного пола и возраста или, например, только тем, кто почти не смотрит телевизор.
Крипта применяется и в других инструментах для рекламодателей. С её помощью бизнес может показывать свои предложения пользователям, которые похожи на людей, уже ставших его клиентами, и выделять другие сложные сегменты пользователей — для кампаний в Директе, а также в каналах персональной коммуникации. Кроме того, Крипта умеет определять актуальные координаты — их можно использовать для таргетирования кампаний на конкретные районы или, например, для показа рекламы магазина людям, которые оказались рядом с ним.
Наш специалист свяжется с вами, обсудит оптимальную стратегию сотрудничества,
поможет сформировать бизнес требования и рассчитает стоимость услуг.
Ижевск, ул. Воткинское шоссе, д. 170 Е, Технопарк Нобель, офис 1117
Задать вопрос по почте
Критерии не поддаются контролю и анализу со стороны веб-мастеров и оптимизаторов. Им трудно понять, по каким признакам робот ранжирует конкретный сайт. Алгоритм недоступен для восстановления факторов, которые привели к тому или иному решению, его трудно настроить вручную.
Особенно тяжело стало анализировать поведенческие факторы, которые роботом учитываются гораздо объективнее. Информация о поведении и интересах пользователей в алгоритме оценивания Матрикснет более достоверная и точная.
КАК ПРОИСХОДИТ РАНЖИРОВАНИЕ САЙТОВ?
Поисковая система, получая запрос пользователя, ищет ответ в базе проиндексированных страниц. Ссылки на все ресурсы со словами из запроса размещаются на страницах выдачи результата. Чтобы облегчить пользователю поиск, система располагает ресурсы в порядке релевантности. Вверху находятся адреса сайтов, наиболее полно отвечающих на запрос.
Такая оценка способствует высокому качеству поиска. Поскольку система самообучающаяся, формула ранжирования постоянно расширяется за счет привлечения новых факторов. Вычислительные мощности при этом существенно не увеличиваются.
МАТРИКСНЕТ В ДЕЙСТВИИ
Сейчас Яндекс стал строго относиться к платным ссылкам и к тематическому содержанию сайта. Алгоритм предусматривает:
— удаление из топа страниц с купленными ссылками и не дающих ответ на запрос;
— формула Матрикснет содержит большое число переменных. Робот проверяет множество критериев за короткий период;
— в поиске задействованы одномоментно тысячи серверов, каждый из них выполняет свою задачу, обеспечивая максимально точный конечный результат.
Кроме того, есть возможность настроить поиск отдельно для узкоспециальных запросов. Например, по искусству живописи только XVI века. При этом качество ранжирования по другим художественным запросам не ухудшается. Матрикснет автоматически задает различную чувствительность для разных показателей критериев ранжирования.
ЗАДАЧИ ВЕБ-МАСТЕРОВ И ОПТИМИЗАТОРОВ
Возникает вопрос: как оптимизировать сайт и продвигать его? Противоречие состоит в следующем:
— Веб-мастера, продвигая свои сайты, преследуют цель заработка.
— Поисковик старается отсеять некачественные ресурсы и максимально точно удовлетворить спрос людей.
— Система делает бессмысленными попытки раскрутить сайт за счет недозволенных манипуляций, более того, за это можно получить санкции. Обмануть робота становится все труднее.
Успешное продвижение сайта возможно только при наличии его реальной полезности для пользователей. Веб-мастер, зная принципы Матрикснета, еще на этапе создания сайта или его продвижения должен представлять, каким увидит его поисковик и как он его оценит. Внутренняя оптимизация сайта приобретает особенно большое значение. Алгоритм ранжирования продолжает совершенствоваться.
Одним из ключевых преимуществ MatrixNet является его способность работать с большим количеством признаков и обрабатывать неструктурированные данные, такие как текст и изображения. Он также может быстро обрабатывать большие объемы данных, что делает его идеальным для применения в поисковых системах.
В простейшем случае MatrixNet может использоваться для классификации данных. Например, он может быть обучен для классификации электронных писем как спам или не спам, или для классификации изображений как содержащих объекты или не содержащих объектов.
Одним из интересных аспектов MatrixNet является его способность обрабатывать различные типы данных одновременно. Например, он может обрабатывать текст, изображения и числовые данные одновременно, что делает его очень мощным инструментом для анализа данных.
MatrixNet также имеет возможность обучаться на нескольких языках одновременно, что делает его очень полезным для мультиязычных приложений. Например, он может быть обучен для классификации текста на нескольких языках одновременно, что облегчает работу в мультиязычных средах.
Хотя MatrixNet был разработан для работы в области поиска и рекомендаций, он также может быть использован в других областях, таких как финансы, медицина, наука и другие. В качестве примера, он может быть использован для предсказания болезней на основе медицинских данных, для анализа финансовых данных или для определения связей между различными научными данными.
У многих рядовых интернет-пользователей может создаться устойчивое впечатление, что всякий раз при отправке запроса в поисковую систему, робот сканирует абсолютно все страницы в Сети, в которых содержатся слова запроса.
На самом деле интернет-поиск работает по-другому, поскольку при использовании упомянутого выше алгоритма продолжительность каждой операции поиска составляла бы десятки минут вместо нескольких секунд в реальности.
Количество всех веб-страниц в мире исчисляется миллионами и миллиардами. На их обзор может уйти очень много времени. По этой причине поисковый робот, получив запрос, обращается к заранее созданной специальной базе данных, которая называется «поисковым индексом».
Здесь хранится информация о страницах, наиболее соответствующих, или, как выражаются специалисты поисковой среды, релевантных конкретным поисковым запросам. Именно эти страницы, найденные в поисковом индексе, предлагаются пользователю.
Поисковый индекс не является чем-то неизменным, а постоянно подвергается незаметным для пользователей обновлениям, которые в поисковой среде зовутся «апдейтами» (название произошло от английского слова “update”). Таким образом, результаты поиска формируются всегда на основе самого актуального индекса.
Алгоритм обучения у «Яндекса» до внедрения алгоритма MatrixNet выглядел примерно, таким образом: в ходе процедуры обновления поиск соответствующих конкретным запросам страниц производится роботом. А затем они проверяются на релевантность с точки зрения человека специальным лицом – асессором.
Если страницы окажутся достаточно релевантными, то они заносятся в поисковый индекс. Присваиваемый в ходе проверки странице ранг соответствия прямо пропорционален самой релевантности.
Когда возможность создания сайтов появилась и у обычных пользователей интернета, количество страниц на просторах сети интернет стало настолько большим, что уже существующих асессоров стало не хватать для объективной оценки релевантности ресурсов, отысканных роботом.
Было принято решение о том, чтобы научить компьютер частично учитывать критерии ранжирования в динамике, возложив на него обязанности поисковых асессоров. Именно так появился обновленный алгоритм обучения поисковых машин — «Алгоритм Matrixnet Yandex».
Описание алгоритма Matrixnet от поисковика Yandex
Первые сообщения об алгоритме MatrixNet появились вместе с введением нового алгоритма поиска в «Яндексе» — «Снежинск». Разработчики алгоритма Матрикснет стремились к увеличению числа используемых факторов ранжирования, чтобы, таким образом, сделать качество поиска в интернете более высоким.
Например, расчёты по специальным математическим формулам помогли сократить ошибочно оценённые важности различных факторов.
Таким образом, обученная по алгоритму MatrixNet поисковая машина стала придавать больший вес критериям ранжирования, которые ранее не были существенными, и прекратила выдавать желаемое за действительное.
Ещё одна ключевая особенность алгоритма MatrixNet — это возможность точной подстройки методов ранжирования сайтов под различные категории поисковых запросов. Качество поиска по запросам, которые не вошли в упомянутые выше категории, при этом не ухудшается.
Формула ранжирования, специально создаваемая алгоритмом MatrixNet для обучения поисковых машин, включает в себя более 10000 коэффициентов.
Благодаря возможности тонкого регулирования процесса ранжирования, поисковые машины «Яндекса» способны теперь исключать из проверки те страницы, которые хоть и содержат ключевые слова по какой-либо теме, но не имеют в целом отношения к ней. Это становится причиной возрастания точности поиска.
Внедрение «Яндексом» нового алгоритма машинного обучения под названием “MatrixNet” сделало выдачу этой поисковой системы ещё более релевантной, хоть и число страниц, анализируемых поисковым роботом, увеличилось в несколько тысяч раз.