Рынок СУБД
Объем рынка и темпы роста -->
Основные классы решений по работе с данными -->
Ценообразование. Облака и OpenSource -->
Инвестиционные и M&A сделки -->



Сделано в SH Capital

1
Объем рынка и темпы роста
Объем данных в мире ежегодно возрастает очень значительно, при этом бóльшая часть как объема, так и прироста приходится на корпоративные данные.
[IDC: Data Age 2025]
На основании данных Pitchbook.com, IDC и исследовании SH Capital

2
Ключевая проблема
Существующие решения начинают терять эффективность при работе с все возрастающим объемом данных.
Это приводит к развитию технических решений по работе с большими данными. Значительная часть новых технологических решений по-прежнему относится к классу СУБД — систем управления базами данных.

3
Основные классы решений по работе с данными
с точки зрения адаптации к большим данным (Big Data), удобства разработчика приложений (Application Data) и архитектора данных (Enterprise Data).
Подробнее о методологии здесь.

4
Региональная сегментация
Размер локальных рынков и доступ на них глобальных игроков.
Поставщики на рынке в основном глобальны.

Считается, что объемы североамериканского, европейского, азиатско-тихоокеанского, латиноамериканского и ближневосточно-африканского рынков образуют арифметическую прогрессию и растут приблизительно одинаково в абсолютном выражении. В 2019 первый оценивался больше последнего в три раза, к 2024 году ожидается превышение лишь в два.

При сегментации на иных основаниях в более новых сегментах рынка более зрелые региональные сегменты имеют обычно большую долю, но возможны и исключения. Так, на азиатско-тихоокеанском рынке повышенно популярны резидентные (in-memory) СУБД.
Китай
В соответствии с [NPC: 网络安全法] с 1 июня 2017 года хранение персональных данных китайских граждан и «иных важных данных» (статья 37) возможно лишь на территории материкового Китая.

В соответствии с [CAC: 网络安全审查办法] с 1 июня 2020 года операторы критической информационной инфраструктуры (к ней относится информационная инфраструктура достаточно большого числа отраслей) при приобретении в том числе СУБД (статья 20) должны предоставлять Управлению кибербезопасности исчерпывающую документацию, касающуюся закупки, и получать его одобрение.

Сказанное затрудняет проникновение на рынок иностранных производителей СУБД и DBaaS-провайдеров. Несмотря на то, что Amazon Web Services и Microsoft Azure на китайском рынке представлены, доминируют на нем локальные облачные провайдеры: Alibaba, Tencent и Huawei. Ассортимент DBaaS-сервисов у всех довольно невелик.

Локальные производители СУБД постепенно получают известность за пределами Китая. Наиболее известны SequoiaDB и TiDB, относящиеся к классу реляционных СУБД, но есть и значимые продукты в классе NoSQL, например, Nebula Graph.
Россия
Значительная роль государства в экономике имеет два следствия для рынка СУБД.
  • Нормы госрегулирования распространяются на значительную часть экономики. Это препятствует использованию полноценных зарубежных DBaaS и создает преференции на внутреннем рынке для продуктов из [Минкомсвязь: Реестр ПО].
  • Несклонность к инновациям в целях повышения эффективности и, как следствие, технологическая отсталость. Овладение современными концепциями произошло на уровне [Fowler: 2012], более актуальные часто встречают непонимание.

В отличие от китайского рынка, компенсирующего сходные характеристики своим объемом, российский едва достигает $1B. Дополнительно изолированный характер экономики не способствует перенятию передового опыта и, например, использованию технологических решений, имеющими преимущества при трансграничных интеграциях данных.

Ассортимент DBaaS-сервисов российских облачных провайдеров не уступает таковому у китайских. Имеются известные СУБД, созданные выходцами из РФ, например, memSQL.

5
Ценообразование на рынке.
Облака и OpenSource.
Основные классы решений по степени коммерциализации, необходимости лицензирования и представленности «в облаках».
Подробнее о методологии здесь.
Облака
Согласно [Gartner: The Future of the DBMS Market is Cloud] к 2022 году три четверти баз данных будет развернуто в облачной инфраструктуре, т. е. одним из трех способов:
  1. с использованием DBaaS-сервисов публичных облачных провайдеров,
  2. с использованием СУБД сторонних производителей на основе IaaS-сервисов публичных облачных провайдеров,
  3. в частных облаках предприятий или в гибридных частно-публичных облаках.

Преимущества облачного развертывания:

  • снижение затрат на обслуживание и администрирование СУБД; публичные DBaas-провайдеры характеризуют свои продукты как fully managed database;
  • снижение капитальных затрат, оплата преимущественно за реальное использование.

Многие современные СУБД являются потенциально готовыми к развертыванию в облаках (cloud ready) с учетом заложенной в них способности к горизонтальному масштабированию, а значительная часть собственных DBaaS-сервисов облачных провайдеров — популярные решения с открытым кодом, хотя предлагаются и СУБД собственной разработки.

По крайней мере первому и второму способу облачного развертывания противодействует тренд «Edge IT» [IDC: Data Age 2025] — использование ИТ-инфраструктуры, физически приближенной к источникам данных при наличии больших потоков данных, хотя публичные DBaaS-провайдеры предлагают в том числе, например, и хранилища временных рядов.
OpenSource
По оценке [Gartner: Open-Source DBMS Market 2019] по прошествии трех лет до 70% баз данных будет развернуто одним из следующим способов:
  • на мощностях пользователя с использованием СУБД с открытым кодом,
  • на мощностях IaaS-провайдера с использованием СУБД с открытым кодом,
  • как экземпляры DBaaS-сервисов, созданных на основе СУБД с открытым кодом.

6
Реляционные СУБД
Основной — более 80% — сегмент рынка СУБД. Рост сегмента лишь ненамного отстает от роста рынка в целом из-за инерции, обусловленной значительным достигнутым объемом, и относительной успешности усвоения реляционными СУБД наработок СУБД других типов, в частности, условной поддержкой других моделей данных и частичным устранением причин, приведших к появлению этих моделей.
Big Data
Объем данных, перестаёт быть проблемой за счет улучшения горизонтального масштабирования, появления SQL-интерфейсов к фреймворкам обработки больших данных и пр.

Enterprise Data Management
Используются при устаревающем подходе Data Warehouse

Application Data Management
Имеется опыт применения где бы то ни было — обычно удачный, если нет других, помимо объема, характеристик «больших данных».
Основные игроки и их продукты
Основные инвестиционные сделки
в сегменте реляционных СУБД

7
Графовые СУБД
В графовых СУБД связи между сущностей непосредственно хранятся, нет необходимости вычислять их при каждом запросе, как в реляционных СУБД. Это предотвращает падение производительности на сложных запросах, содержащих несколько операций соединения (JOIN), характерное для реляционных СУБД. Другие преимущества графовых СУБД — большая универсальность и гибкость графовой модели по сравнению с реляционной и удобство моделирования данных сетевой и графовой природы (соцсети и т. д.).
Big Data
Горизонтальное масштабирование графовых СУБД нельзя считать вполне решенной проблемой.

Enterprise Data Management
Вендоры приписывают им все достоинства RDF-хранилищ, но обычно не объясняют, что имеется в виду под «knowledge» в «knowledge graph».

Application Data Management
Способны замещать реляционные в большинстве применений; наиболее эффектные применения — в кибербезопасности, системах «360-градусного обзора», рекомендательных системах.
Основные игроки и их продукты
Основные инвестиционные сделки
в сегменте графовых СУБД

8
Документарные СУБД
Документные БД решают проблему низкой производительности операций соединения реляционных СУБД за счет того, что хранят предвычисленные «агрегаты» ([NoSQL Distilled]) — структурированные пакеты данных, в которых операции соединения уже выполнены. Эти пакеты данных и называются документами, можно сказать, что они являются результатами выполнения ожидаемых типовых запросов.

Другие преимущества документных СУБД — возможность хранения данных в форматах, близких к форматам обмена, легкость масштабирования ввиду отсутствия необходимости соединения данных различных узлов кластера, легкость прототипирования и изменения модели данных приложения.
Big Data
Одни из исторически первых представителей класса NoSQL, одним из драйверов появления которого был феномен «больших данных».

Enterprise Data Management
В соответствии с [Gartner: Hype Cycle for Data Management 2019] в течение двух лет выйдут на плато продуктивности.

Application Data Management
Гибкость модели данных приложения в некоторых пределах — если существенно не изменяются запросы к СУБД, т. е. сценарии использования.
Основные игроки и их продукты
Основные инвестиционные сделки
в сегменте документарных СУБД

9
Мультимодельные СУБД
Мультимодельные СУБД — ответ индустрии на часто возникающую ситуацию polyglot persistence, когда в рамках одной системы используются несколько СУБД, каждая из которых поддерживает одну модель данных. Проблемы polyglot persistence — высокие затраты на сопровождение систем и трудности обеспечение согласованности данных.

Различные вендоры называют свои СУБД мультимодельными на различных основаниях. Степень мультимодельности характеризуется степенью «равноправия» поддерживаемых моделей и степенью их «связанности». В традиционных СУБД, объявляющих о поддержке дополнительных моделей данных, чаще низкая степень того и другого. В мультимодельных СУБД нового типа зачастую вводятся новые гибридные модели данных.
Big Data
Как наиболее современный класс СУБД, создавались по крайней мере с оглядкой на феномен «Big Data».

Enterprise Data Management
Может быть реализовано совместное хранение данных различных информационных систем.

Application Data Management
Объявляющие себя мультимодельными традиционные СУБД хорошо знакомы рядовому разработчику; модели данных новых мультимодельных СУБД может быть ему непривычны и несовместимы с унаследованными.
Основные игроки и их продукты
Основные инвестиционные сделки
в сегменте мультимодельных СУБД

10
Ширококолоночные СУБД
Ширококолоночные СУБД можно представлять как хранилище «ключ-значение», в котором значение в свою очередь является набором пар «ключ-значение»; либо как реляционные СУБД с отличающимся для каждой строки составом столбцов; либо как документную СУБД с документами ограниченной глубины.

Данные обычно хранятся в денормализованном и дублированном (для каждого запроса своя таблица) виде. Такой подход по большей части снимает необходимость в операциях соединения и делает простым горизонтальное масштабирование при увеличении объема данных. СУБД этой группы — подходящий выбором для больших и растущих объемов данных OLTP-природы.
Big Data
То, для чего ширококолоночные СУБД создавались.

Enterprise Data Management
Возможно использование при создании систем класса DWH, но нужно быть готовым к дублированию данных в разных комбинациях и необходимости заранее эти комбинации, т. е. возможные запросы к данным, представлять.

Application Data Management
Примерно те же сценарии использования, что у хранилищ «ключ-значение» или временных рядов, но для данных более сложной структуры.
Основные игроки и их продукты
Основные инвестиционные сделки
в сегменте ширококолоночных СУБД

11
Объектные СУБД
По мнению Gartner объектные СУБД находятся в состоянии «end of life».
[Gartner: Market Clock for DBMSs 2019]

Существует, однако, тренд по использованию при работе с СУБД не языков запросов, а «language integrated queries» — специальных расширений объектно-ориентированных языков программирования общего назначения. Считается, что их использование повышает удобство разработки, создавая эффект уменьшения стека используемых технологий [PwC: Collapsing the IT Stack].

Для объектных СУБД такие «language integrated queries» наиболее естественны, что, возможно, способно продлить их существование.
Big Data
Вендоры заявляют о пригодности объектных СУБД для решения проблем Big Data. «Volume» преодолевается горизонтальным масштабированием в той степени, в которой данные не являются сильно связанными, «variety» — выразительностью модели, «velocity» — высокой производительностью).

Enterprise Data Management
Вендоры объектных СУБД предлагают решения в сфере enterprise data management, чаще не очень известные вне экосистем их продуктов.

Application Data Management
Близкое соответствие модели хранения ООП — наиболее популярной модели исполнения; сильные позиции в здравоохранении и финансах.
Основные игроки и их продукты
Основные инвестиционные сделки
в сегменте объектных СУБД

12
Хранилища «ключ-значение»
«Ключ-значение» — максимально простая модель данных, по сути лишь персистентный ассоциативный массив. Благодаря этому легко обеспечиваются скорость чтения и записи и масштабируемость.

Исторически первым применением хранилищ «ключ-значение» являлось кэширование данных в оперативной памяти. Многие хранилища «ключ-значение» и сейчас относятся к классу «in-memory», благодаря чему объявляются их создателями системами класса HTAP. Однако чаще областью применения являются все же приложения, не требующие серьезной аналитики.

Вместе с тем на основе хранилищ «ключ-значение» могут быть построены другие СУБД, которые поддерживают более выразительные модели и частично наследуют достоинства хранилищ «ключ-значение». Самый известный пример такого хранилища «ключ-значение», являющегося нижележащим движком хранения для многих других СУБД — RocksDB.

В [Gartner: Hype Cycle for Data Management, 2019] предсказывается устаревание хранилищ «ключ-значение» до достижения ими «плато продуктивности».
Big Data
Проблема «volume» преодолевается легкостью масштабирования, проблема «velocity» — скоростью чтения и записи.

Enterprise Data Management
Корпоративный ландшафт данных может быть выстроен вокруг системы класса In-Memory Data Grid, но обычно они обладают все же большими по сравнению с СУБД «ключ-значение» возможностями, в частности, аналитическими.

Application Data Management
Типичные применения: приложения, не требующие СУБД или берущие на себя отдельные её функции; быстрая тривиальная обработка или кэширование данных; собственная СУБД.
Основные игроки и их продукты
Основные инвестиционные сделки
в сегменте xранилищ «ключ-значение»

13
Хранилища временных рядов
Основной особенностью хранилищ временных рядов является наличие у каждой записи первичного ключа — момента времени. Хранилища временных рядов возникли как ответ на специфические требования к работе с потоками данных, возникающими в «интернете вещей» (internet of things, IoT), развитие которого является основным драйвером их роста. В числе этих требований — поддержка сверхчастой и параллельной записи, базовая специализированная аналитика на временных интервалах, компактификация собранных данных.
Big Data
Принципиально неспособны решить такую характеристику «больших данных», как «variety» — разнообразие.

Enterprise Data Management
Если вы пытаетесь рассмотреть корпоративные данные как последовательность записей, обратите внимание на реестровые СУБД.

Application Data Management
Нишевые применения; интернет вещей и различные системы оперативного мониторинга: в ИТ, промышленности, финансах, метеорологии и пр.
Основные игроки и их продукты
Основные инвестиционные сделки
в сегменте xранилищ временных рядов

14
RDF-хранилища
RDF-хранилища — основные современные представители класса СУБД с условным названием «Online Intellectual Processing» (что не исключает возможности их OLTP- и OLAP-применений). В последнее время СУБД этого класса привлекают значительное внимание в связи с указанным Gartner трендом «Knowledge Graphs» [Gartner: Hype Cycle For Emerging Technologies 2018].

Основные области применения — сложные предметные области, гетерогенные интеграции, публикация данных в вебе. Ключевые особенности — простота и универсальность модели, документированность данных, выполнение СУБД отдельных функций языка общего назначения и разработчика на нём [PwC: Collapsing the IT Stack].
Big Data
Как ядро распределенного интеграционного решения.

Enterprise Data Management
Возможная технология при реализации подходов Logical Data Warehouse, Data Fabric и Data Virtualization в Data Integration; субститут или конкурент традиционных решений в сфере Data Management.

Application Data Management
Нишевые применения; популярны в здравоохранении, финсекторе, ТЭК, государственных и некоммерческих организациях.
Основные игроки и их продукты
Основные инвестиционные сделки
в сегменте RDF хранилищ

15
Основные инвестиционные сделки на рынке СУБД

16
Особые задачи, решаемые СУБД
Индивидуальная разработка
Зачастую компании, могущие позволить себе вместо использования рыночной СУБД создать собственную СУБД общего назначения, адаптированную к их задачам, делают это. Наиболее известны такие СУБД, передававшиеся затем в open source известными в ИТ-индустрии компаниями — LevelDB от Google, RocksDB от Facebook; из российских — Clickhouse от Яндекс и Tarantool от Mail.ru Group.
Криптография
Существует отдельный класс реестровых СУБД (ledger DBMS), в которых данные хранятся как последовательности неудаляемых записей с криптографической верификацией их подлинности. Реестровые СУБД уже присутствуют, например, в [Gartner: IT Market Clock for DBMSs 2019], однако пока их коммерциализация оценивается как низкая. Одна такая СУБД, Quantum Ledger Database уже есть в составе облачных сервисов AWS, другие интересные примеры реестровых СУБД — Fluree и BigchainDB.

К данной категории можно отнести и СУБД с особым упором на безопасность (например, SioDB), и пока скорее исследовательские проекты на темы гомоморфного шифрования.
In-memory
Наиболее очевидным способом обеспечить возможность аналитики в режиме реального времени является хранение данных в оперативной памяти. Даже в сжатом (ввиду большей стоимости RAM по сравнению с HDD и SSD) виде данные обрабатываются существенно быстрее. Возможно создание масштабных кластеров из узлов, хранящих данные в памяти: технология получила название In-Memory Data Grid. Считаются перспективными для таких применений новые виды оперативной памяти, например, энергонезависимая оперативная память (NVRAM).
ML/AI
Предпринимаются попытки интегрировать в СУБД программные библиотеки машинного обучения, что позволяет, например, обучать и разворачивать модели, не перемещая данные из СУБД и обратно. Также известны попытки использовать машинное обучение для оптимизации хранения данных в СУБД и при построении планов выполнения запросов.
HTAP
Постепенно стирается разделение баз данных на транзакционные и аналитические, OLTP и OLAP. Первые изначально предназначались для операционной деятельности, вторые — для BI-задач. Однако ввиду постепенного превращения Business Intelligence в Continuous Intelligence: операционализации аналитики и аналитизации операционной деятельности, возникает потребность в гибридных СУБД, способных производить аналитику в режиме реального времени. СУБД такого класса называют по-разному:
  • HTAP (Hybrid Transactional and Analytical Processing) — Gartner;
  • HOAP (Hybrid Operational and Analytical Processing) — 451 Research;
  • Translytical — Forrester.

17
Методологические замечания
Методика присвоения категорий в сегментах рынка
Популярность, как правило, соответствует рейтингу той или иной СУБД на [DB-Engines] в сравнении с рейтингами других СУБД того же типа, однако:
  • Для отдельных решений, заведомо нишевых даже в рамках одного типа СУБД, популярность понижена относительно рейтинга [DB-Engines].
  • Для решений, имеющих значительную долю на рынке в своем сегменте согласно финансовой отчетности производителей, популярность повышена относительно рейтинга [DB-Engines].

Перспективность чаще всего соответствуют динамике рейтинга на [DB-Engines], однако:
  • Могут быть улучшены с учетом сведений о появлении у СУБД функциональности, призванной увеличить долю в сегменте или расширить его границы.
  • Могут быть ухудшены при наличии негативной динамики финансовых показателей основных компаний-производителей.

Дополнительно при оценке учитывались другие исследования рынка и его участников. При наличии высоких оценок участника рынка по синонимичным характеристикам в большинстве других исследований оценка в данном обзоре по возможности приводилась в соответствие.

Привлекательность для инвестиций полагается слабо связанной как с «популярностью», и с «перспективностью». Ситуация может различаться от сегмента к сегменту, но обычно:
  • игроки категории 1 (значительная популярность, очевидные перспективы) — не нуждаются в инвестициях, достаточно профинансированы;
  • игроки категории 2 (значительная популярность, неочевидные перспективы) — не имеют собственного видения своего дальнейшего развития даже при наличии финансирования, достигли финальной стадии своего развития;
  • игроки категории 3 (ограниченная популярность, очевидные перспективы) — имеют собственное видение дальнейшего развития, причиной ограниченной популярности в текущий момент может быть недостаток финансирования;
  • игроки категории 4 (ограниченная популярность, неочевидные перспективы) — «темные лошадки», видение дальнейшего развития может как отсутствовать, так и не быть продемонстрированным из-за недостатка финансирования.

Исходя из сказанного, «популярность» оказывается довольно близка к «ability to execute», а «перспективы» — к «completeness of vision» в терминах «магических квадрантов» Gartner.
Методика оценки динамики сегмента рынка
Для каждого из типов СУБД для объема соответствующего сегмента рынка в 2019 году и его CAGR использовались следующие оценки:
  • оценки из других обзоров рынка и его сегментов — как публично доступных, так и распространяемых платно;
  • собственные оценки методами как «сверху вниз», так и «снизу вверх»;
  • откалиброванные в соответствии с реальными финансовыми показателями рейтинги «популярности» [DB-Engines].

Фиксировались наименьшие и наибольшие из найденных оценок объема рынка и CAGR (не обязательно источник с наименьшей оценкой объема и наименьшей оценкой CAGR — один и тот же; то же и для наибольших оценок). Отдельные оценки в случае понимания их методологической пересчитывались или заменялись следующими по величине.

Для мультимодельных СУБД в минимальный объем рынка включены лишь совокупные годовые обороты вендоров новых мультимодельных СУБД, в максимальный — доли от оборотов традиционных СУБД, объявивших себя мультимодельными, пропорциональные доле пользователей, для которых эти новые мультимодельные возможности актуальны. Последняя полагалась равной годовому приросту оборота соответствующего вендора.
Методика оценки динамики сегмента рынка
Принципы присвоения типам СУБД оценок по шкалам «Big Data», «Enterprise Data Management» и «Application Data Management» следующие:
  • Значение «Big Data» — оценка с точки зрения адекватности объективной дата-реальности (с которой пока удалось столкнуться во всей её полноте). В целом пропорциональна тому, сколько из трёх основных проблем Big Data — «volume»,«variety», «velocity» — тип СУБД позволяет решать.
  • Значение «Application Data Management» — оценка с точки зрения удобства разработчика приложений. К оценке добавляются баллы за высокие производительность, масштабируемость, гибкость, низкую сложность освоения и обеспеченную надлежащей производительностью высокую выразительность. Примечания перечисляют области и способы применения СУБД данного типа.
  • Значение «Enterprise Data Management» — оценка с точки зрения архитектора данных. Показывает, будет ли СУБД данного типа при её помещении в дата-ландшафт предприятия очередным data silo или же наоборот, будет способствовать решению отдельных задач управления корпоративными данными. Оценка коррелирует с числом потенциально достигаемых с использованием СУБД данного типа характеристик [FAIR Data]
Вернуться обратно -->
Коммерциализация, Проприетарность и Облачность
Коммерциализация
на основании [Gartner: IT Market Clock for DBMSs 2019].

Проприетарность
процент проприетарных СУБД из числа поддерживающих эту модель данных на [DB-Engines].

Облачность
процент DBaaS-поставщиков, предлагающих собственные DBaaS-сервисы, поддерживающие эти модели, из числа ведущих (Amazon, Microsoft, IBM, Google, Oracle, SAP, Alibaba), без учета сторонних СУБД, предлагаемых к развертыванию на IaaS-инфраструктуре.

Вернуться обратно -->