Компании всё чаще используют данные о пользователях, чтобы принимать обоснованные решения, дорабатывать свои предложения и повышать качество обслуживание. Чтобы эффективно использовать данные, важно выбрать оптимальную систему хранения.
На рынке так много систем для хранения данных, что может быть трудно выбрать лучшую для вашего бизнеса. Чтобы избавить вас от мук выбора, мы сравнили три самых распространённых метода хранения данных: data warehouse, data lake и data lakehouse. Узнайте о них больше и подберите метод, который будет хранить ваши данные.
Data Warehouse, Data Lake, Data Lakehouse: краткое резюме
Хранилище данных (data warehouse) хранит преобразованные и структурированные данные из разных источников: CRM- и транзакционных систем, сервисов для создания рекламы и т. д. Бизнес-аналитики, маркетологи, дата-инженеры могут получить к ним доступ с помощью инструментов BI, SQL-клиентов и других аналитических приложений.
Озеро данных (data lake) хранит полу- и неструктурированные данные, что позволяет загружать их в хранилище и использовать на усмотрение команды. Метод предполагает глубокую аналитику и машинное обучение. Кроме того, озеро данных стоит меньше базы данных, его проще настроить и масштабировать.
С другой стороны, озёра данных не организованы, так что нужно уметь с ними работать. В противном случае они быстро превратятся в «болота данных».
Дом озера данных (data lakehouse) — гибридное решение для хранения данных. Оно сочетает лучшие свойства хранилищ и озёр данных. Data lakehouse может хранить все виды данных и позволяет управлять метаданными.
Гибридное решение стоит меньше, чем data warehouse, и проще масштабируется.
Хранилища данных хорошо использовать в инструментах бизнес-аналитики, для составления отчётов и построения графиков. Озёра данных подходят в случаях, когда нужно проанализировать большой объём данных и настроить машинное обучение. Гибридное решение покрывает все варианты использования.
Прежде чем мы начнём сравнивать методы, напомним, какие типы данных можно хранить в data warehouse, data lake и data lakehouse:
Структурированные данные — это обработанная информация. Они могут включать имена, даты, геолокацию, номера телефоно в и т. д.
Неструктурированные данные — информация без обработки и полноценного фреймворка. Могут включать видео, изображения, аудиофайлы.
Полуструктурированные данные — частично обработанная информация. Например, файлы CSV, JSON, XML.
Что такое хранилище данных
Хранилище данных — это решение, в котором хранятся структурированные данные из разных источников. Прежде чем попасть в хранилище, данные проходят первоначальную обработку. Маркетологи, аналитики, продуктовые менеджеры могут сразу использовать такие данные для работы: проверять, обобщать, анализировать, объединять, составлять отчёты.
Популярные поставщики data warehouse: Google BigQuery, Snowflake и Amazon Redshift.
Компоненты хранилищ данных
Хранилища данных содержат четыре основных компонента:

Инструменты интеграции данных (data integration tools) извлекают данные из разных источников, преобразуют их и загружают в единую базу. Такие конвейеры данных называются инструментами ETL.
Центральная база данных — пространство, где хранятся витрины данных. Это основа решений для хранилища данных.
Метаданные — информация о данных в хранилище. По сути, это схема таблиц в хранилище, которая описывает, какие данные хранятся в каждом их поле.
Инструменты доступа к данным включают ПО, которое позволяет командам обращаться к данным, собранным в data warehouse, — в центральной базе данных. К таким инструментам относятся инструменты запросов и разработки приложений, BI-решения и инструменты аналитической обработки.