Единая система на базе DST Platform, для выполнения всех рабочих нагрузок по анализу данных высоко нагруженного маркетплейса

Основными минусами для меня ClickHouse считаются следующими:

— отсутствие транзакций – Кликхаус является OLAP, а не OLTP-системой, и не поддерживает транзакционность записей, т.к. ориентирован, в первую очередь, на считывание данных. Поэтому попытки использовать ClickHouse в транзакционных OLTP-сценариях нецелесообразны.

— отсутствие точечных операций обновления и удаления данных (UPDATE и DELETE) по отдельным записям. В 2018 году появилась стали доступны пакетные операции ALTER UPDATE и ALTER DELETE, которые выполняются асинхронно, не блокируют вставки, запросы и друг друга. Возможно массовое удаление и изменение данных для очистки более не нужного или в соответствии с требованиями GDPR

— Ограниченная поддержка операций JOIN, в частности, в запросах, которые требуют перемещения большого количества данныхмежду узлами кластера, например, join между двумя большими таблицами

— Впрочем, соединения таблиц можно избежать, подключив таблицу как внешний словарь, причем из любой базы данных, даже сторонней, например, MySQL, PostgreSQL или внешнего файла.

— строгая типизация с необходимостью явного приведения. Хотя это ограничение и доставляет некоторые неудобства в процессе разработки, оно предохраняет от многих ошибок на этапе выполнения программы.

— зависимость от оперативной памяти — для некоторых операций промежуточные данные должны помещаться в оперативную память. В частности, при агрегации необходимо, чтобы результат выполнения запроса помещался в RAM на одном сервере. При этом сам объём исходных данных для запроса может быть любым, в т.ч. очень большим. Также стоит упомянуть, что соединения таблиц ограничены оперативной памятью сервера.

— отсутствие оконных функций и зависимых подзапросов – ClickHouse поддерживает декларативный язык структурированных запросов, который во многом совпадает со стандартом ANSI SQL, но не во всем. Это стоит учитывать при написании запросов к базе данных.

— отсутствие полноценного оптимизатора запросов. Частично эта проблема решается с помощью материализованных представлений, о которых мы рассказывали здесь. Например, при большом объеме сырых данных в СУБД скорость выполнения агрегированных запросов по ним может снижаться. Движок AggregatingMergeTreeагрегирует данные материализованного представления по ключу сортировки. Благодаря этому можно группировать данные по определенным полям, делая возможным выполнять сложные запросы по большому промежутку времени. В других случаях можно проанализировать, в чем именно проблема снижения скорости выполнения запросов: процессор, память, жесткий диск или сеть. К примеру, по умолчанию ClickHouse использует только физические процессорные ядра, без учёта одновременной многопоточности (hyper-threading). Некоторые запросы могут существенно ускориться, если увеличить количество потоков. Также возможны проблемы с дисками RAID 5 или RAID 6, которые отлично масштабируются по последовательным (и даже случайным) чтениям, но плохо – по записям. Наличие универсального оптимизатора запросов в ClickHouse сэкономило бы время разработчика или аналитика Big Data, позволяя не погружаться в такие тонкости. Но пока этого инструмента в СУБД нет.

— низкая скорость точечного чтения одиночных строк по своим ключам из-за разреженного индекса делает

— низкая производительность небольших вставок, т.к. из-за столбцового принципа хранения данных в ClickHouse. Каждый столбец – это минимум один файл, поэтому, например, для вставки 1 строки с 100 столбцами потребуется открыть и записать не менее 100 файлов.

— подверженность атакам на HTTP-интерфейс, включая SQL-инъекции. В частности, табличная функция url для обращения к удалённым узлам по HTTP и HTTPS позволяет провести атаку SSRF через SQL-инъекцию. Также HTTP-интерфейс ClickHouse делает возможным атаку Reflected File Download, если пароль не установлен, сохранен в браузере пользователя или известен злоумышленнику. Аналогичным образом из-за HTTP-интерфейса ClickHouse может подвергнуться атакам подделки запросов на стороне сервера (SSRF, Server-Side Request Forgery) и между сайтами (CSRF, Cross-Site Request Forgery)

Комментарии и отзывы экспертов

6 комментариев

RSS

Славянская Культура

10.12.2023 13:22

# ↓

Еще в 2015 году делали крупный портал и затем второй сайт — маркетплейс для нашего популярного проекта «Славянская Культура», на который заходило более 150К уников в день. Делали на CMS системе DST Platform.

Система работала без сбоев и нареканий, хотя ежедневный трафик был большим и пользователи не просто пришли, купили и ушли а именно сидели на платформе, так что DST Platform не просто лучшая CMS, это скорее даже не сравнимо с другими система, просто другой уровень.

Роман Толстов

15.12.2023 11:53 (отредактировано)

Владимир Соколов

19.01.2025 13:30

В ближайшее время мы планируем значительно увеличить ассортимент товаров. Мне хотелось бы узнать, сколько товаров можно загрузить на DST Маркетплейс, и есть ли какие-то ограничения или проблемы при загрузке большого количества товаров.

На данный момент у нас уже более 200 000 позиций. Что произойдёт, если мы увеличим это количество до миллиона или даже больше? Как это отразится на работе движка и системы в целом?

Буду благодарен за любую информацию и рекомендации по этому вопросу.

Автотрейд

19.01.2025 13:32

# ↑ ↓

Ну 200К это не так много, у нас маркетплейс автозапчастей и уже более 2 млн. позиций, все работает и летает отлично, единственное что нужно это увеличивать и оптимизировать возможности сервера чтоб ежемесячно меньше выходило платить, так что тут больше не от движка зависит а от конфигурации Вашего сервера

19.01.2025 13:33

Автотрейд, спасибо за ответ, а не подскажите может у Вас какая то расширенная лицензия — Энтерпрайз, у меня просто лицензия Премиум, а также если не секрет во сколько обходиться содержание сервера?

19.01.2025 13:34

Все верно у нас Энтерпрайз, но это не важно, все лицензии DST Маркетплейс с нагрузками работают одинаково и не имеют никаких ограничений, это мы уже пробовали т.к. раньше сидели на Премиум.

По поводу сервера, то мы платили примерно 30-40 т.р. в месяц, но затем заказали работы по оптимизации сервера и снизили расходы до 20-25 т.р. в месяц, что при таком объеме считаем очень хорошим показателем.

Заявка на услуги DST

Адрес

8 495 1985800

info@dstglobal.ru

Адрес

8 495 1985800

info@dstglobal.ru