RSS

Комментарии

Интересно как работает Matrixnet было бы услышать более детально и технически подробнее
Современный алгоритм оценки и ранжирования сайтов Matrixnet, запущенный в 2009 г., основан на использовании самообучающегося искусственного интеллекта и методологии нейронных сетей. Его преимуществом является то, что количество факторов и их комбинаций, по которым происходит оценка и ранжирование сайта, огромно.

Критерии не поддаются контролю и анализу со стороны веб-мастеров и оптимизаторов. Им трудно понять, по каким признакам робот ранжирует конкретный сайт. Алгоритм недоступен для восстановления факторов, которые привели к тому или иному решению, его трудно настроить вручную.

Особенно тяжело стало анализировать поведенческие факторы, которые роботом учитываются гораздо объективнее. Информация о поведении и интересах пользователей в алгоритме оценивания Матрикснет более достоверная и точная.

КАК ПРОИСХОДИТ РАНЖИРОВАНИЕ САЙТОВ?

Поисковая система, получая запрос пользователя, ищет ответ в базе проиндексированных страниц. Ссылки на все ресурсы со словами из запроса размещаются на страницах выдачи результата. Чтобы облегчить пользователю поиск, система располагает ресурсы в порядке релевантности. Вверху находятся адреса сайтов, наиболее полно отвечающих на запрос.

Такая оценка способствует высокому качеству поиска. Поскольку система самообучающаяся, формула ранжирования постоянно расширяется за счет привлечения новых факторов. Вычислительные мощности при этом существенно не увеличиваются.

МАТРИКСНЕТ В ДЕЙСТВИИ

Сейчас Яндекс стал строго относиться к платным ссылкам и к тематическому содержанию сайта. Алгоритм предусматривает:

— удаление из топа страниц с купленными ссылками и не дающих ответ на запрос;
— формула Матрикснет содержит большое число переменных. Робот проверяет множество критериев за короткий период;
— в поиске задействованы одномоментно тысячи серверов, каждый из них выполняет свою задачу, обеспечивая максимально точный конечный результат.

Кроме того, есть возможность настроить поиск отдельно для узкоспециальных запросов. Например, по искусству живописи только XVI века. При этом качество ранжирования по другим художественным запросам не ухудшается. Матрикснет автоматически задает различную чувствительность для разных показателей критериев ранжирования.

ЗАДАЧИ ВЕБ-МАСТЕРОВ И ОПТИМИЗАТОРОВ

Возникает вопрос: как оптимизировать сайт и продвигать его? Противоречие состоит в следующем:

— Веб-мастера, продвигая свои сайты, преследуют цель заработка.
— Поисковик старается отсеять некачественные ресурсы и максимально точно удовлетворить спрос людей.
— Система делает бессмысленными попытки раскрутить сайт за счет недозволенных манипуляций, более того, за это можно получить санкции. Обмануть робота становится все труднее.

Успешное продвижение сайта возможно только при наличии его реальной полезности для пользователей. Веб-мастер, зная принципы Матрикснета, еще на этапе создания сайта или его продвижения должен представлять, каким увидит его поисковик и как он его оценит. Внутренняя оптимизация сайта приобретает особенно большое значение. Алгоритм ранжирования продолжает совершенствоваться.
Новая технология машинного обучения основана на градиентном бустинге, и призвана сделать поисковую выдачу лучше. Нас ждут изменения в принципе ранжирования. Матрикснет уступает место категориальному бустингу, потому что последний способен обрабатывать разнородные данные намного быстрее и качественнее своего предшественника. Будет ли это реально заметно для обычных пользователей? Ну, время покажет.
Однозначно можно сказать, что продвигать сайты станет сложнее. CatBoost рассчитан на то, чтобы максимально персонализироваться под интересы конкретного пользователя. А любая персонализация — это лишний стресс для веб-мастера.
Что это нам даст в реале?
Что мы знаем о ранжировании поисковой выдачи?

Давайте по порядку. На расцвете поисковиков, например, того же Яндекса, не было сложных алгоритмов ранжирования. Интернет был по карману только обеспеченным слоям общества, запросы которых вместе с требований к интернету были вполне приемлемы. Забили запрос, получили ответ и нормально.
Перемотаем ленту лет так на 10 вперед… Интернет уже особо не роскошь, количество пользователей существенно выросло, а вместе с ними количество запросов и предложений. Сайтов стало очень много и стандартные алгоритмы поисковиков просто перестали справляться с таким наплывом сайтов и нечестных вебмастеров, которые использовали серые схемы продвижений.
В помощь пришли искусственные нейронные сети, которые помогли анализировать и фильтровать информацию, для выдачи максимально релевантного содержимого по запросу пользователя. И В ноябре 2009 года выходит новый алгоритм Яндекса под названием Матрикснет. Это принципиально новый подход к оценке сайтов и построению поисковой выдачи, в основе которого лежит самообучающийся алгоритм с элементами искусственного интеллекта.

До введения Матрикснета компьютеры обрабатывали информацию алгоритмическим подходом
Алгоритмический подход отлично подходит для решения огромного круга задач. Это и поиск, и различные вычисления, да и все «бытовые» компьютерные программы, которыми мы пользуется, построены на основе алгоритмов. И безусловно, компьютер работает в миллионы раз быстрее человека.
В то же время существует ряд трудных задач, с которыми человек справляется просто и естественно, а машине они не под силу. Мы легко можем узнать знакомого нам человека, встретившись на улице или даже со спины, по походке, по интонации в голосе. Никакими алгоритмами эта задача не решаема.
Тут и пришел на помощь Матрикснет с использованием нейронных сетей
Говоря о нейронных сетях, можно привести аналогию с человеческим мозгом, который состоит из огромного числа нейронов, каждый из которых в отдельности разумом не обладает и способен лишь на самые элементарные действия. Но объединенные вместе они представляют удивительную силу.
Нейронные сети построены по тому же принципу. Множество простых «вычислительных элементов», объединенных в единую структуру.
Долгое время в Яндекс основным алгоритмом машинного обучения был Матрикснет, но сейчас на смену ему пришел CatBoost и дело здесь вовсе не в котиках.

А в чем тогда дело?

CatBoost остается все тем же градиентным бустингом, то есть методом, в котором строится серия очень слабых алгоритмов (в данном случае — решающих деревьев), последовательно минимизирующих ошибку друг друга и в итоге, в комбинации, хорошо описывающих обучающую выборку данных. Однако в отличие от Матрикснет CatBoost изначально разрабатывался для того, чтобы наилучшим образом работать не только с числовыми, но и с категориальными признаками. Речь идет о тех признаках данных, которые не имеют числового выражения. Например, если вы классифицируете бытовую технику, то «энергопотребление» и «средняя цена» — это числовые признаки, ваша компьютерная модель может с ними работать (складывать, вычитать и так далее). Но признак «тип» (стиральная машина, телевизор, кофемолка) является категориальным, то есть для модели это просто слово, которое не несет никакой смысловой нагрузки. Чтобы его эффективно вставить в модель, этот признак надо сначала оцифровать, привести к численному виду.
Опытный специалист, работающий с машинным обучением, может придумать более интеллектуальный способ превращения категориальных признаков в числовые, однако такая предварительная предобработка приведет к потере части информации и приведет к ухудшению качества итогового решения.
Именно поэтому было важно научить машину работать не только с числами, но и с категориями напрямую, закономерности между которыми она будет выявлять самостоятельно, без ручной помощи. И CatBoost разработан так, чтобы одинаково хорошо работать «из коробки» как с числовыми признаками, так и с категориальными. Благодаря этому он показывает более высокое качество обучения при работе с разнородными данными, чем альтернативные решения. Его можно применять в самых разных областях — от банковской сферы до промышленности.
CatBoost на практике
Яндекс пока не применяет CatBoost в своих проектах полноценно, но разработчики уже провели тестирование технологии, и она показала свою состоятельность.

И кстати, ранее Яндекс никогда не предоставлял сторонним разработчикам прямого доступа к алгоритму Матрикснет. Они могли использовать Матрикснет лишь косвенно — через API других продуктов компании.
Но в этот раз CatBoost доступен на GitHub по открытой лицензии Apache. Алгоритм существует в виде библиотек для Python и R и максимально настроен для пользователей с малым опытом работы с машинным обучением. Так, в CatBoost есть встроенный алгоритм для обработки категориальных признаков в зависимости от типа данных и задачи, есть встроенный детектор переобучения (он сам остановит алгоритм на оптимальном количестве построенных деревьев), а исходные параметры подобраны таким образом, чтобы выдавать удовлетворительный результат даже без тонкой настройки. Отдельной особенностью CatBoost разработчики называют наличие встроенных инструментов для визуализации и анализа результатов.
Как начать использование CatBoost

Для работы с CatBoost достаточно установить его на свой компьютер. Библиотека поддерживает операционные системы Linux, Windows и MacOS и доступна на языках программирования Python и R. Яндекс разработал также программу визуализации CatBoost Viewer, которая позволяет следить за процессом обучения на графиках.
CatBoost применялся для улучшения результатов поиска, ранжирования ленты рекомендаций «Яндекс.Дзен» и для расчёта прогноза погоды в технологии «Метеум» — и во всех случаях показал себя лучше Матрикснета. Его также использует команда Yandex Data Factory — в своих решениях для промышленности: оптимизации расходов сырья и предсказания дефектов. Алгоритм внедрил Европейский центр ядерных исследований (ЦЕРН) для объединения данных, полученных с разных частей одного из детекторов Большого адронного коллайдера.​

Постепенно CatBoost заменит «Матрикснет» во всех продуктах компании
Я не буду рассказывать о схожастях между GitHub и GitLab, вместо этого хочу рассказать именно об отличиях, на мой взгляд это важнее.

— Встроенная непрерывная интеграция — GitLab известен своей бесплатной встроенной непрерывной интеграцией, которую GitHub не предлагает. Вместо этого GitHub предлагает сторонние интеграции, которые обеспечивают непрерывную интеграцию.
— Аутентификация — В GitLab разрешение предоставляется на основе ролей людей, в то время как в GitHub разработчики могут предоставлять доступ на чтение или запись к определенным репозиториям.
— Импорт/экспорт данных — GitLab предлагает гораздо более подробную документацию о том, как импортировать/экспортировать данные от внешних поставщиков, в то время как документация GitHub не такая подробная. GitLab способен импортировать проекты и проблемы из большего количества источников, чем GitHub. При этом GitHub предлагает инструмент под названием GitHub Importer для ввода данных. Что касается экспорта, GitLab предлагает комплексное решение для экспорта вики, репозиториев проектов, загрузки проектов, веб-хуков и сервисов, а также проблем. С другой стороны, GitHub немного более ограничен с точки зрения возможностей экспорта.
— Платформа развертывания — GitHub не поставляется со встроенной платформой развертывания и требует сторонней интеграции с внешним приложением для развертывания приложений. С другой стороны, GitLab использует Kubernetes для беспроблемного развертывания.
— Частные репозитории — GitLab предлагает бесплатные частные репозитории для проектов с открытым исходным кодом, а GitHub — нет.
— Отслеживание комментариев — GitHub способен предоставить полную историю обновлений комментариев — GitLab не поддерживает это.
— Экспорт файла CSV — GitLab способен экспортировать файлы CSV с проблемами на адреса электронной почты уведомлений по умолчанию в виде вложений.
— Конфиденциальные вопросы — Модуль GitLab Confidential Issues создает конфиденциальные проблемы, которые видны только участникам проекта с уровнем доступа Reporter или выше.
— Графики выгрузки — В отличие от GitHub, GitLab предлагает Burndown Charts как часть этапов, которые позволяют разработчикам отслеживать прогресс во время спринтов или при работе над новыми версиями программного обеспечения.
— Циклическая аналитика — GitLab предоставляет панель мониторинга для анализа времени, планирования и мониторинга.
— Ежемесячные новые функции — GitLab известен своими ежемесячными обновлениями новых функций и улучшений, которые неукоснительно делаются 22-го числа каждого месяца.

Это были все основные различия.

Что касается схожести, то они оба предлагают систему меток или можно сделать документацию.

Вывод: Как видите, различий много, но из-за возможности сделать возможности сделать свой частный репозиторий и ежемесячных новых функции, я выбираю GitLab, но из-за того, что GitHub более популярен, приходится пользоваться им.
GitHub или GitLab, что лучше выбрать? Незнаком с обоими системами
GitLab — это мощная платформа для управления репозиториями Git, которая позволяет хранить, отслеживать и разрабатывать код в командной среде. Помимо базового функционала Git, GitLab предлагает инструменты для CI/CD, управления проектами, мониторинга и обеспечения безопасности, что делает его идеальным для крупных и малых проектов. В этой статье разберем, как начать работу с GitLab, от регистрации до первого коммита.

1. Регистрация и создание репозитория

Создайте аккаунт. Перейдите на GitLab.com и зарегистрируйтесь, указав адрес электронной почты, имя пользователя и пароль. Подтвердите свою почту.
Создание нового проекта:
— После входа в GitLab нажмите на кнопку «New Project».
— Выберите «Create Blank Project» или «Import Project», если у вас уже есть готовый репозиторий.
— Дайте проекту имя, настройте уровень приватности (Private, Internal, Public) и создайте проект.

2. Установка Git и настройка SSH-ключей

Установка Git: На macOS: brew install git
На Ubuntu/Debian: sudo apt update && sudo apt install git
На Windows: скачайте Git for Windows и установите.
Создание SSH-ключа:
В терминале выполните команду:ssh-keygen -t rsa -b 4096 -C «your_email@example.com»

Скопируйте публичный ключ:cat ~/.ssh/id_rsa.pub
Добавление SSH-ключа в GitLab: Войдите в GitLab и откройте Settings > SSH Keys.
Вставьте ключ в поле Key и нажмите Add Key.

3. Настройка репозитория

Теперь, когда SSH-ключ добавлен, клонируйте репозиторий на свой компьютер.

Клонирование репозитория: На странице вашего проекта скопируйте SSH URL репозитория.

В терминале выполните:git clone git@gitlab.com:username/repo-name.git

Переходите в директорию репозитория:cd repo-name

4. Работа с Git: Основные команды

Создание новой ветки:git checkout -b new-feature
Создание коммита:
Добавьте файлы в индекс:git add.

Зафиксируйте изменения:git commit -m «Добавлен новый функционал»
Отправка изменений на сервер:git push origin new-feature
Создание Merge Request: На странице проекта в GitLab выберите свою ветку и создайте Merge Request.
Опишите изменения и отправьте на ревью.

5. Настройка CI/CD

GitLab предоставляет встроенные инструменты для CI/CD, позволяющие автоматически тестировать и разворачивать код. Начнем с простого конвейера.

Создание .gitlab-ci.yml: В корне проекта создайте файл .gitlab-ci.yml, который будет описывать ваш конвейер.

Пример простого файла:stages:
— build
— test

build_job:
stage: build
script:
— echo «Building the project»

test_job:
stage: test
script:
— echo «Running tests»
Добавление CI/CD в проект:
GitLab автоматически обнаружит .gitlab-ci.yml и запустит описанные процессы после каждого коммита.

6. Полезные советы

Ветки: Создавайте отдельные ветки для каждой фичи или бага. Это упрощает ревью и уменьшает вероятность конфликтов.
Защита веток: В настройках проекта можно настроить Protected Branches, чтобы разрешить коммиты только после ревью.
Pipeline и Jobs: Используйте Pipeline для автоматизации задач, таких как тестирование и деплой.

GitLab — это больше, чем хранилище кода. Это целая платформа, которая объединяет управление проектами, автоматизацию и безопасность в одном месте. Начать работу просто, а возможности GitLab позволяют глубоко интегрировать его в процессы разработки и деплоя. Удачи в работе с GitLab!
Есть две хорошие практики, которые может взять на вооружение любая команда.

Бюджет ошибки. SRE-команды считают так называемый бюджет ошибки — допустимый период, в течение которого сервис может работать ниже целевых уровней. С помощью бюджета можно измерять серьёзность инцидентов. Если, например, инцидент истратил 30% бюджета, его можно считать серьёзным. Это помогает SRE-инженерам не отвлекаться на минорные проблемы, которые регулярно возникают даже в самых оттестированных проектах.

Постмортемы. Это грустное слово означает отчёт или небольшую статью, которую пишут по результатам решения проблемы. С помощью постмортемов SRE-инженер делится важным знанием с командами разработки, помогая избежать ошибок в будущих проектах.
Хорошо. А чему разработчики и команды могут научиться у парадигмы SRE, даже если таких специалистов в штате нет?
Вроде того, он настоящий Бэтмен. Чтобы задержать преступника быстрее полиции, важно действовать не хуже настоящего полицейского. SRE должен разбираться в инфраструктуре, конфигурации серверов, быстро читать логи. Он умеет писать код не хуже программистов — ведь часто для исправления бага нужно быстро переписать что-то руками.

Чтобы работать очень быстро, в SRE используют парадигму «инфраструктура как код». Инженеры могут управлять инфраструктурой и настраивать её через процедуры в коде — так они работают со всеми компонентами в одной среде и не отвлекаются на ручное «накликивание» настроек серверов.

Чтобы SRE-инженер хорошо знал свой продукт, он часто участвует в его разработке. Как правило, это очень опытный, сильный программист, вожак стаи с самыми мощными лапищами. Иначе команда просто не будет ему доверять.
Получается, SRE-специалист — это такой сисадмин-девопс-программист
У команды по доступности работает мощный мониторинг, отслеживаются десятки показателей жизнедеятельности сервиса. Если метрики начинают сыпаться, срабатывают алерты.

Но обычного письма или пуша для SRE-инженера мало. Алерт в его случае работает многоступенчато. Например, сперва разработчик получает уведомление через телеграм-бота. После этого он должен быстро отметить в мониторинговой админке, что увидел проблему. Если этого не сделать, мониторинг начнёт звонить SRE-специалисту по телефону, вызывая на бой с багами. Многоступенчатость важна, ведь сервис может упасть и ночью, а во сне можно случайно пропустить вызов или машинально отменить его, как будильник.

В небольших и средних компаниях обычно дежурит один SRE-инженер. Если он пропустит алерт, то решение ситуации придётся откладывать. В больших компаниях инженеров сразу несколько — они могут подстраховать друг друга.
А как SRE узнает, что что-то случилось?
Возьмёт и починит сам. SRE-инженер — это «дежурный программист», который не только первым узнаёт о проблеме, но и сразу же приступает к её решению. В итоге он экономит несколько часов для своей компании и пользователей. А программисты могут спокойно отдыхать, даже если у сервиса проблемы.

В компаниях с командой из 10–15 человек можно обойтись без SRE: обычно разработчики дежурят по очереди. А вот большому высоконагруженному сервису, например банку, без такого специалиста не обойтись: в случае проблем счёт идёт на минуты.
А что в такой ситуации сделает SRE-инженер?
Была — но её обеспечивали иначе. Представим большой и популярный онлайн-кинотеатр. Это сложный сервис, который должен показывать сериалы и фильмы 24/7 с минимальной задержкой.

Предположим, что в пятницу у сервиса два важных события: вечером выходит финальный эпизод сериала «Игры у стола» и тем же вечером разработчики апдейтят бэк. Тесты проходят, всё работает, «Игры» летят — разработчики уходят в бар отмечать долгожданный релиз. А в субботу утром десятки тысяч людей не могут нормально посмотреть сериал: вместо 20 мс сайт работает с задержкой 100500 мс.

При традиционном подходе к надёжности первыми о ситуации узнают сотрудники поддержки, ведь расстроенные зрители заполнят все чаты. Специалист поддержки не может восстановить работу сервиса — он эскалирует проблему, передав её в технический хелп. Там увидят, что случилась большая беда, и начнут вызванивать разработчиков. Не факт, что все они на связи в субботу, ведь у всех нас есть свои дела по выходным. В итоге через несколько часов соберётся консилиум программистов и будет решать, что делать: откатывать апдейт или попытаться пофиксить текущий билд. На восстановление нормальной работоспособности уйдут часы или даже дни — а такой простой очень дорого обходится бизнесу.
А что, до SRE безотказности сервисов не было?
Есть две хорошие практики, которые может взять на вооружение любая команда.

Бюджет ошибки. SRE-команды считают так называемый бюджет ошибки — допустимый период, в течение которого сервис может работать ниже целевых уровней. С помощью бюджета можно измерять серьёзность инцидентов. Если, например, инцидент истратил 30% бюджета, его можно считать серьёзным. Это помогает SRE-инженерам не отвлекаться на минорные проблемы, которые регулярно возникают даже в самых оттестированных проектах.

Постмортемы. Это грустное слово означает отчёт или небольшую статью, которую пишут по результатам решения проблемы. С помощью постмортемов SRE-инженер делится важным знанием с командами разработки, помогая избежать ошибок в будущих проектах.

Заявка на услуги DST

Наш специалист свяжется с вами, обсудит оптимальную стратегию сотрудничества,
поможет сформировать бизнес требования и рассчитает стоимость услуг.

Адрес

Ижевск, ул. Воткинское шоссе 170 Е.
Региональный оператор Сколково. Технопарк Нобель

8 495 1985800
Заказать звонок

Режим работы: Пн-Пт 10:00-19:00

info@dstglobal.ru

Задать вопрос по почте

Укажите ваше имя
Укажите ваше email
Укажите ваше телефон