Что такое ускорение и масштаб в СУБД?

13.02.2025

В этой статье разработчики компании DST Global обсудят ускорение и масштаб в СУБД, две фундаментальные концепции из параллельной обработки для баз данных, которые используются для настройки баз данных.

Ускорение

Хранилище данных с несколькими сотнями гигабайт данных в настоящее время относительно типичны из -за устойчивого увеличения размеров базы данных. Даже несколько терабайт данных могут храниться в некоторых базах данных, называемых очень большими базами данных (VLDB).

Эти хранилища данных подвергаются сложным запросам для получения бизнес-аналитики и поддержки принятия решений. Такие запросы занимают очень много времени для обработки. Вы можете сократить общее время, потраченное на то, что все еще предоставляя необходимое время ЦП, одновременно запустив эти запросы.

Соотношение времени выполнения с использованием одного процессора к времени выполнения с использованием нескольких процессоров известно как ускорение.

Следующая формула используется для его вычисления. Он оценивает преимущество производительности, полученное с использованием более одного процессора вместо одного процессора:

Ускорение равна времени 1 / Тимону

Time1 - это количество времени, необходимое для выполнения задачи с помощью одного процессора, тогда как Тимон - это количество времени, необходимое для выполнения той же работы с M -процессорами.

Кривая ускорения

В идеальном сценарии ускорение от параллельной обработки будет соответствовать количеству процессоров, используемых для каждой заданной операции.

В качестве альтернативы, 45-градусная линия является оптимальной формой для кривой ускорения.

Поскольку параллелизм включает в себя некоторые накладные расходы, оптимальная кривая ускорения редко получается. Степень ускорения, которую вы можете получить, значительно зависит от присущего применения параллелизма .

Компоненты некоторых задач могут быть обработаны параллельно с легкостью. Например, можно сделать два огромных таблица одновременно.

Однако некоторые задачи не могут быть разделены. Одним из таких экземпляров является необоснованное индексное сканирование. Количество ускорения будет минимальным или не существует, если приложение имеет незначительное или нет присутствующего параллелизма.

Эффективность рассчитывается как ускорение, деленное на общее количество процессоров. В нашем примере четыре процессора, а ускорение также четыре. Следовательно, эффективность составляет 100%, что представляет собой идеальный случай.

Пример:

ЦП требует три минуты для выполнения процесса.

N 'CPU требует одной минуты, чтобы выполнить процесс, разделив его на меньшие задачи.

Типы ускорения

- Линейное ускорение

- Суб-линейное ускорение

Линейное ускорение

Если ускорение n, то ускорение линейное. Другими словами, время прошедшего времени крошечной системы народе времени больше, чем время, проведенное большой системой (n - это количество ресурсов, скажем, процессор).

Например, если одна машина выполняет задачу за 10 секунд, но десять отдельных машин, работающих параллельно, выполняют ту же задачу за 1 секунду, ускорение составляет (10/1) = 10 (см. Уравнение выше), которое равно N, размер большей системы. В десять раз более мощный механизм - это то, что позволяет ускорить.

Суб-линейное ускорение

Если ускорение меньше n, оно является суб-линейным (что обычно в большинстве параллельных систем).

Более проницательные дискуссии: если ускорение является n или линейным, это означает, что производительность такая же ожидаемое.

Два сценария возможны, если ускорение меньше n

Случай 1: Если ускорение превышает n, система работает лучше, чем предполагалось. В этом сценарии значение ускорения будет ниже 1.

Случай 2: Это суб-линейно, если ускорение N. Знаменатель (огромное время прошло время) в этой ситуации превышает истеченное время одной машины.

В этой ситуации значение будет варьироваться от 0 до 1, и нам нужно было бы установить пороговое значение, так что любое значение, под порогом, предотвратило бы параллельную обработку.

Перераспределение рабочей нагрузки между процессорами в такой системе требует особой осторожности.

Несколько методов ускорения вашей базы данных

Теперь давайте посмотрим на некоторые методы, чтобы ускорить базу данных

Индексы

Сохранение эффективной структуры данных поиска, индексы позволяют базе данных быстрее определять местонахождение соответствующих строк (например, B-три ).

Каждая таблица должна выполнить это. Индекс может быть добавлен редко, потому что он может быть вычислительно интенсивным и требует производственной системы.

С SQL ( MySQL , PostgreSQL ), создание индекса просто:


CREATE INDEX random index name


ON your table name
(col1, col2);

Базу данных можно найти быстрее, добавив индекс; Однако UPDATE, INSERT и DELETE Команды занимают больше времени для выполнения, если только пункт «Где» занимает много времени.

Повышение запроса

Пользователь базы данных выполняет оптимизацию запросов для каждого запроса. Есть множество способов написать запросы, и некоторые из них могут быть более эффективными, чем другие.

Проблема n+1 и использование цикла для отправки многочисленных запросов, а не только одного, чтобы получить данные, попадают под слегка отдельную подкатегорию темы оптимизации запросов.

Изменения в бизнесе и разделении

Вы хотите произвести впечатление на своих клиентов по мере расширения вашей фирмы. Вы пытаетесь включить любые незначительные новые функции, которые клиенты запрашивают. Это может привести к ползучести.

Это была проблема довольно давно, согласно философии UNIX:

Сравнимо, разделение данных ваших онлайн -сервисов на группы пользователей может быть приемлемым. Может быть, разделение их на области имеет смысл? Это то, что разработчики DST Global наблюдали в Secure Code Warrior и AWS .

Можно было бы разделить его на «частных клиентов», «клиентов малого бизнеса» и «крупных бизнес -клиентов». Возможно, часть приложения может функционировать в качестве собственной службы с отдельной базой данных.

Репликация

Если чтения являются вашей проблемой, и небольшая задержка времени обновления не является основной сделкой, репликация является простым решением. База данных непрерывно копируется в другую систему во время репликации. Он служит механизмом аварийного переключения и ускоряет чтения.

Один основной сервер и многочисленные серверы репликации, которые были ранее известны под разными именами, являются предполагаемой конфигурацией. Обновления данных обрабатываются основным сервером, а не серверами репликации, которые просто отражают основной сервер.

Существуют другие топологии, такие как конфигурация кольца или звезды.

Горизонтальное распределение

Если бы стол был действительно большим, мы могли бы хранить несколько рядов на одной машине, а другие на другой. Горизонтальное разделение - это концепция деления данных на строки.

Вертикальное разделение

Большая база данных может быть разделена на меньшие секции, используя столбцы, а не строки. Вы можете беспокоиться об этом, потому что вас учили в школе, что нормализация базы данных - это хорошо.

То, что мы обсуждаем различные этапы архитектуры базы данных, имеет решающее значение. Логический дизайн связан с многочисленными нормальными видами баз данных. Физический дизайн - это то, на чем мы сосредоточены прямо сейчас.

Возможно, не все столбцы строки требуются всеми компонентами приложения. Может быть приемлемо разделить их из -за этого. Разделение строк - это еще одно название для вертикального разделения из -за этого.

Следует иметь в виду, что масштабирование вертикально не имеет ничего общего с вертикальным разделением!

Вертикальное разделение может быть выгодным, если конфиденциальность или юридические проблемы не участвуют. Рассмотрим информацию о вашей платежной карте.

Хотя было бы логично объединить это с другими данными, большая часть приложения не требует этого, даже лучше, вы можете скрыть его за частным микросервисом и сохранить его в совершенно новой базе данных.

Sharding: следующий шаг в перегородке

Вы видели, что есть два разных способа группировать данные. Чтобы помочь процессу базы данных частые запросы быстрее, возможно, уже имеет смысл разделить данные на одну и ту же систему.

Тем не менее, было бы разумно использовать разные машины, если база данных использует весь процессор или оперативную память на текущем.

Единственный логический набор данных окрашивается и распространяется по различным устройствам.

У этого есть много проблем, как вы можете ожидать, поэтому вы должны использовать его только в качестве последнего средства. Например, в октябре 2010 года проблема с шардингом привела к недоступности Foursquare в течение 11 часов.

Первая очевидная проблема заключается в том, что ваше приложение должно знать, какой у Shard есть желаемые данные. Следовательно, на вашу логику приложения может повлиять повсюду.

Кластеризация баз данных

Только после того, как разработчики DST Global посмотрели на Vitess и столкнулись с этой фразой. Концепция, по -видимому, скрывает проблемы с шардингом, используя репликацию в качестве техники прикрытия.

Масштаб

Добавляя больше процессоров и дисков, масштаб - это способность приложения сохранять время отклика по мере роста размер рабочей нагрузки или объема транзакций. Масштаб часто обсуждается с точки зрения масштабируемости.

Масштаб в приложениях базы данных может основываться на пакетировании или транзакциях. Большие партийные задания могут быть поддержаны с помощью пакетного масштаба без ущерба от времени ответа. Большие количества транзакций могут быть подтверждены с помощью масштаба транзакций, не жертвуя временем ответа.

Больше процессоров добавляется в обоих сценариях для поддержания времени отклика. Например, система с четырьмя процессорами может обеспечить такое же время отклика с 400 транзакциями в минуту бремени, что и система с одним процессором, которая поддерживает 100 транзакций в минуту дежурства.

Идеальная кривая масштабирования

Рисунок показывает идеал в виде кривой или действительно плоской линии. По правде говоря, даже если добавлено больше процессоров, время реакции в конечном итоге увеличивается для увеличения объемов транзакции.

Способность масштабировать определяется тем, насколько больше мощности обработки может быть добавлена, сохраняя при этом постоянное время отклика. Формула ниже используется для определения масштаба:

ScaleUp = Volumem/Volume1

Объем1 - это объем транзакций, проведенных за тот же период времени с использованием одного процессора, тогда как объемный объем - это объем транзакций, выполняемых с использованием M -процессоров. Для предыдущего экземпляра:

ScaleUp = 400/100.

Масштабированный = 4,

Используя четыре процессора, этот масштаб 4 достигается.

Типы масштабирования

- Шкаф в лайнере

- Суб-линейный масштаб

Линейное масштабирование

Если ресурсы растут пропорционально величине проблемы, масштаб является линейным (это очень редко). В предыдущем уравнении говорится, что масштабирование = 1 и является линейным, если время, необходимое для решения небольшой системы, малая проблема равен времени для решения большой системы.

Суб-линейный масштаб

Масштаб является суб-линейным, если истекшее время для крупных систем с огромными проблемами длиннее, чем для небольших систем с незначительными проблемами.

Дополнительные дискуссии, которые имеют отношение к тому, чтобы: система работает безупречно, если масштаб является одним или линейным.

Мы должны проявить дополнительную осторожность при выборе нашего плана для параллельного выполнения, если масштаб сублинерна, а значение колеблется от 0 до 1. Например, если время, необходимое для решения небольшой проблемы, составляет 5 секунд, а большая система с большой Проблема занимает 5 секунд, чтобы решить.

Это демонстрирует линейность ясно. Следовательно, 5/5 = 1. Система превосходно работает для различных значения значения, особенно низких значений (невозможных за пределами предела).

Тем не менее, масштабное значение снижается ниже 1, что требует значительного внимания для лучшего перераспределения задач для более высоких значений знаменателя, таких как 6, 7, 8 и т. Д.

Разница между ускорением и масштабным

Масштаб и ускорение значительно различаются в том, что ускорение вычисляется путем поддержания фиксированного размера задачи, тогда как масштаб определяется путем увеличения размера задачи или объема транзакции.

Насколько объем транзакции может быть увеличен, добавив дополнительные процессоры, однако сохраняя постоянное время отклика, - это то, как измеряется масштаб.

Заключение

Надеемся, эта статья на масштабе и ускорение помогла вам узнать основы того же самого. Спасибо за чтение!