Масштабирование баз данных: стратегии оптимизации производительности и масштабируемости

Ранее я описывал подходы масштабирования фронтэнда и масштабирования бэкенда и теперь настал черед немного поговорить о наиболее важной части — масштабировании базы данных.

Масштабирование базы данных

Прежде всего нужно понять, какие данные требуют масштабирования базы данных, почему они требуют. Единого решения и ответа здесь нет, а все зависит от конкретного проекта. Все зависит от множества нюансов, например, от того, как и где храняться данные. А ведь хранить разные данные можно по разному.

Давайте кратко вспомним какие основные модели хранения данных обычно используют.

— Реляционные базы данных — все данные хранятся в виде набора отношений, связанных между собой данных.
— Иерархические базы данных — данные хранятся в объектах в виде отношений между этими объектами.
— Сетевые базы данных — данные хранятся в структуре в виде графа.
— Объектно-ориентированные базы данных — данные храняться в виде моделей объектов.

Выбор и использование модели базы данных зависит от самих данных и все вопросы, которые касаются работы с данными, должны решаться на стадии выбора способа хранения данных.

С ростом количества пользователей, растет и количество данных, а соответственно и количество запросов и действий для работы с этими данными.

При масштабировании базы данных следует учитывать особенности сервера базы данных, какие настройки это сервера используются, правильно ли сервер вообще настроен. Нужно анализировать, какие запросы в приложении используются и какие затрудняют работу с данными, улучшить такие запросы, проверить структура базы в целом: таблицы, индексы полей этих таблиц.

Шардинг базы данных

И конечно же, здесь применимо масштабирование в горизонтальном направлении, разделение данных на несколько баз данных на разных серверах. Но при масштабировании базы данных это не просто горизонтальное масштабирование, а шардинг. Шардинг — это когда вы разделяете данные по базам данных на отдельных серверах, при этом разбиение данных должно производиться с учетом их максимальной связности в одном шарде и минимальной связанности в остальных шардах.

Репликация

Любой сервер, на котором расположена база данных, может выйти из строя и перестать работать. Чтобы не потерять данные используется репликация.

Репликация — это осуществление связи между серверами баз данных, перенос данных между этими серверами в тот момент, когда данные добавляются. При выходе из строя одного сервера базы данных, к работе подключается другой сервер, с точно такими же данными и все продолжает работать. Когда нерабочий сервер восстанавливается в работе, он вновь подключается для репликации и на него копируются данные добавленные в момент выхода из строя.Более подробней о репликации можно почитать в моем посте о репликации данных в MongoDB.

Партиционирование

Еще один метод масштабирования базы данных — партиционирование. Партиционирование — это функциональное разделение базы данных на некие отдельные места хранения: в разных таблицах, в разных типах баз данных (одни данные в MySQL, другие в MongoDB), в разных моделях хранения данных.

Денормализация

В некоторых случаях, разработчики прибегают к использованию денормализации для обеспечения быстрого доступа к данным. Денормализация — это когда данных дублируются при сохранении. Например, при создании поста для сайта, производится добавление тегов к этому посту. Вместо того, чтобы сохранять теги в отдельную таблицу, проверяя каждый раз тег на существование, чтобы не плодить дубли текста, а связь с постами и тегами во вторую таблицу, при денормализации все добавляет в одну таблицу, дублируя каждый раз текст. В некоторых случаях, денормализация данных приемлема, в остальных от нее лучше отказаться.

Комментарии пользователей
и отзывы экспертов

4 комментария

RSS

Динар Шакирзянов

20.09.2024 12:20

# ↓

Сложности с масштабированием классических СУБД привели к тому, что люди придумали NoSQL-базы данных, в которых нет операции JOIN. Нет джойнов — нет проблем. Но нет и ACID-свойств, а об этом в маркетинговых материалах умолчали. Быстро нашлись умельцы, которые испытывают на прочность разные распределенные системы и выкладывают результаты публично. Оказалось, бывают сценарии, когда кластер Redis теряет 45% сохраненных данных, кластер RabbitMQ — 35% сообщений, MongoDB — 9% записей, Cassandra — до 5%. Причем речь идет о потере после того, как кластер сообщил клиенту об успешном сохранении. Обычно ты ожидаешь более высокий уровень надежности от выбранной технологии.

Компания Google разработала базу данных Spanner, которая работает глобально по всему миру. Spanner гарантирует ACID-свойства, Serializability и даже больше. У них в дата-центрах стоят атомные часы, которые обеспечивают точное время, и это позволяет выстраивать глобальный порядок транзакций без необходимости пересылать сетевые пакеты между континентами. Идея Spanner в том, что пусть лучше программисты разбираются с проблемами производительности, которые возникают при большом количестве транзакций, чем делают костыли вокруг отсутствия транзакций. Однако, Spanner — закрытая технология, он вам не подходит, если вы по каким-либо причинам не хотите зависеть от одного вендора.

Выходцы из Google разработали open source аналог Spanner и назвали его CockroachDB («cockroach» по-английски «таракан», что должно символизировать живучесть БД). На Хабре уже писали о неготовности продукта к production, потому что кластер терял данные. Мы решили проверить более новую версию 2.0, и пришли к аналогичному выводу. Данные мы не потеряли, но некоторые простейшие запросы выполнялись необоснованно долго.

В итоге на сегодняшний день есть реляционные БД, которые хорошо масштабируются только вертикально, а это дорого. И есть NoSQL-решения без транзакций и без гарантий ACID (хочешь ACID — пиши костыли).

Алексей Девятов

06.11.2024 01:31

Я использую стратегии масштабирования базы данных на протяжении нескольких месяцев, и результаты превзошли все мои ожидания. Индексирование и кэширование позволили значительно сократить время отклика приложений, что критически важно для нашего бизнеса. Вертикальное масштабирование дало возможность эффективно управлять увеличивающимися объемами данных без значительных затрат на инфраструктуру. Особенно хочу отметить, как сегментирование данных помогло улучшить производительность при работе с большими массивами информации. Все эти методы в совокупности обеспечили надежность системы и позволили нам легко справляться с ростом количества пользователей. Рекомендую всем, кто стремится оптимизировать свои базы данных и повысить их эффективность.

Денис Наумов

06.11.2024 01:32

Как специалист в области IT, я всегда искал способы улучшить производительность наших баз данных. Стратегии масштабирования, такие как денормализация и репликация, оказались настоящим открытием. Денормализация значительно упростила структуру данных, что позволило ускорить запросы. Репликация, в свою очередь, обеспечила надежность и доступность данных даже в условиях высокой нагрузки. Я был приятно удивлён, как быстро мы смогли адаптироваться к растущим требованиям пользователей. Эти методы масштабирования не только улучшили производительность, но и повысили общую стабильность системы. Настоятельно рекомендую всем, кто работает с большими данными!

Владислав Кузнецов

05.12.2024 16:14

Адрес

8 495 1985800

info@dstglobal.ru