Data & DataOps

Data Warehouse vs Data Lake vs Data Lakehouse

데이터 세상 2023. 6. 14. 18:39

Data Warehouse (데이터 웨어하우스)

데이터 웨어하우스는 여러 소스에서 가져온 구조화된 데이터와 반구조화된 데이터를 분석하고 보고하는 데 사용되는 엔터프라이즈 시스템입니다.
데이터 웨어하우스는 임시 분석과 커스텀 보고서 생성에 적합합니다.
데이터 웨어하우스는 현재 데이터와 과거 데이터를 모두 한 곳에 저장할 수 있으며, 시간 흐름에 따른 장기간의 데이터 동향을 확인할 수 있도록 설계되었으므로 비즈니스 인텔리전스의 주요 구성 요소입니다.

 

출처:https://corporatefinanceinstitute.com/

 

데이터 웨어하우스는 여러 소스의 raw data를 중아 repository로 수집하고 이를 관계형 데이터베이스 인프라로 구성합니다.

이 데이터 관리 시스템은 주로 엔터프라이즈 보고와 같은 데이터 분석 및 비즈니스 인텔리전스 애플리케이션을 지원합니다.

시스템은 ETL(Extract, Transform, Load) 프로세스를 사용하여 데이터를 추출, 변환 및 대상으로 로드합니다.

 

장점

Better data quality. Most trust

데이터 웨어하우스의 데이터가 정리, 중복 제거 및 표준화되었습니다.

일관되고 "단일 소스"를 보유하면 모든 분석에서 파생된 통찰력과 결정에 대한 신뢰를 구축할 수 있습니다.

 

Complete picture, Better, Faster analysis

데이터 웨어하우스는 운영 데이터베이스, 트랜잭션 시스템 및 플랫 파일과 같은 다양한 소스의 데이터를 통합하고 조화시킵니다.

비즈니스를 보다 완벽하게 파악하고 데이터 마이닝, augmented analysis, 머신 러닝과 같은 BI 활동을 활용하여 데이터 사일로에서 쉽게 놓칠 수 있는 패턴을 찾을 수 있습니다.

정화하고 완전한 데이터를 더 빨리 사용할 수 있으므로 정보를 더 빠르게 통찰력으로 전환할 수 있습니다.

 

단점

특히 데이터 소스의 수와 데이터 양이 시간이 지남에 따라 증가하면 비효율성과 비용으로 인해 제한될 수 있습니다.

 

Lack of data flexibility

데이터 웨어하우스는 정형 데이터에서 잘 작동하지만 로그 분석, 스트리밍 및 소셜 미디어 데이터와 같은 반정형 및 비정형 데이터 형식에서는 어려움을 겪을 수 있습니다. 이로 인해 머신 러닝 및 인공 지능 사용 사례에 대한 데이터 웨어하우스를 권장하기가 어렵습니다.

 

High implementation and maintenance costs 

데이터 웨어하우스는 구현 및 유지 관리 비용이 많이 들 수 있습니다.

데이터 웨어하우스는 일반적으로 정적이지 않습니다. 그것은 구식이 되고 비용이 많이 들 수 있는 정기적인 유지 관리가 필요합니다.

 


Data Lake (데이터 레이크)

데이터 레이크는 구조화되거나 반구조화되거나 구조화되지 않은 대량의 데이터를 저장, 처리, 보호하기 위한 중앙 집중식 저장소입니다.
데이터 레이크는 데이터를 기본 형식으로 저장할 수 있으며, 크기 제한을 무시하고 다양한 데이터를 처리할 수 있습니다.

 

출처:datakitchen.io

 

데이터 레이크는 일반적으로 Apache Hadoop과 같은 빅 데이터 플랫폼에 구축됩니다.

기존 데이터 웨어하우스의 사전 정의된 스키마가 없기 때문에 저렴한 비용과 스토리지 유연성으로 유명합니다.

또한 오디오, 비디오 및 텍스트와 같은 다양한 유형의 데이터를 보관합니다.

데이터 생산자는 대부분 구조화되지 않은 데이터를 생성하기 때문에 더 많은 데이터 과학 및 인공 지능(AI) 프로젝트를 가능하게 하여 조직 전체에서 더 많은 참신한 통찰력과 더 나은 의사 결정을 이끌어 내므로 이는 중요한 차이점입니다.

 

장점

Agility

사전 계획없이 쿼리, 데이터 모델 또는 애플리케이션을 쉽게 구성할 수 있습니다.

SQL 쿼리 외에도 real-time analytics, big data analytics 및 machine learning을 지원하는데 적합합니다.

 

Real-time

실시간으로 여러 소스에서 원본 형식의 데이터를 가져올 수 있습니다.

이를 통해 real-time analytics 및 machine learning을 수행하고 다른 애플리케이션에서 작업을 trigger할 수 있습니다.

 

Scale

ERP 트랜잭션 및 call log와 같은 대량의 정형 및 비정형 데이터를 처리할 수 있습니다.

※ ERP(Enterprise Resource Planning, 전사적 자원 관리)

재무, 제조, 소매유통, 공급망, 인사 관리, 운영 전반의 비즈니스 프로세스를 자동화하고 관리하는 시스템

 

Speed

데이터를 원시 상태로 유지하면 해결해야 하는 비즈니스 질문을 정의할 때까지 ETL 및 Schema 정의와 같은 시간 집약적인 작업을 수행할 필요가 없으므로 훨씬 빠르게 사용할 수 있습니다.

 

Better insights

보다 광범위한 데이터를 새로운 방식으로 분석하여 예상치 못한 이전에 사용할 수 없었던 통찰력을 얻을 수 있습니다.

 

Cost savings

Data lake는 관리하는 데 시간이 덜 걸리므로 운영 비용이 더 낮습니다.

또한 스토리지 관리에 사용하는 대부분의 도구가 오픈 소스이고 저렴한 하드웨어에서 실행되기 떄문에 스토리지 비용은 기존 데이터 웨어하우스보다 저렴합니다.

 

단점

데이터 레이크의 크기와 복잡성으로 인해 저장하는 데이터의 양을 탐색하려면 데이터 과학자 및 데이터 엔지니어와 같은 더 많은 기술 리소스가 필요할 수 있습니다.

또한 데이터 거버넌스가 이러한 시스템에서 더 다운스트림으로 구현되기 때문에 데이터 레이크는 더 많은 데이터 사일로에 더 취약한 경향이 있으며, 이는 나중에 데이터 늪으로 발전할 수 있습니다. 이 경우 데이터 레이크를 사용하지 못할 수 있습니다.

 

Poor performance for business intelligence and data analytics use cases

적절하게 관리되지 않으면 데이터 레이크가 무질서해져 비즈니스 인텔리전스 및 분석 도구와 연결하기 어려울 수 있습니다.

일관된 데이터 구조 및 ACID(원자성, 일관성, 격리 및 내구성) 트랜잭션 지원이 부족하여 보고 및 분석 사용 사례에 필요한 경우 쿼리 성능이 최적화되지 않을 수 있습니다.

 

Lack of data reliability and security

데이터 레이크의 데이터 일관성 부족으로 인해 데이터 안정성과 보안을 적용하기가 어렵습니다.

데이터 레이크는 모든 데이터 형식을 수용할 수 있기 때문에 민감한 데이터 유형을 수용하기 위해 적절한 데이터 보안 및 거버넌스 정책을 구현하는 것이 어려울 수 있습니다.

 


Data Lake & Data Warehouse

데이터 레이크와 데이터 웨어하우스는 일반적으로 함께 사용됩니다.

데이터 레이크는 새 데이터에 대한 포괄 시스템 역할을 하며 데이터 웨어하우스는 이 시스템의 특정 데이터에 다운스트림 구조를 적용합니다.

그러나 신뢰할 수 있는 데이터를 제공하기 위해 이러한 시스템을 조정하는 것은 시간과 자원 모두에서 비용이 많이 들 수 있습니다.

긴 처리 시간은 데이터 부실화에 기여하고 ETL의 추가 계층은 데이터 품질에 더 많은 위험을 초래합니다.

 


Data Lakehouse(데이터 레이크하우스)

데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 최상의 기능을 결합한 새로운 빅 데이터 스토리지 아키텍처입니다.
데이터 레이크하우스는 모든 데이터(정형, 반정형 및 비정형)에 대한 단일 리포지토리를 지원하는 동시에 동급 최고의 머신 러닝, 비즈니스 인텔리전스 및 스트리밍 기능을 지원합니다.

 

데이터 레이크하우스는 데이터 웨어하우스 및 데이터 레이크 내의 결함을 최적화하여 더 나은 데이터 관리 시스템을 형성합니다.

조직에 엔터프라이즈 데이터를 위한 빠르고 저렴한 스토리지를 제공하는 동시에 데이터 분석과 머신 러닝 워크로드를 모두 지원할 수 있는 충분한 유연성을 제공합니다.

 

장점

데이터 레이크하우스 아키텍처는 데이터 웨어하우스의 데이터 구조 및 관리 기능을 데이터 레이크의 저비용 스토리지 및 유연성과 결합

 

Reduced data redundancy

데이터 레이크하우스는 모든 비즈니스 데이터 요구 사항을 충족하는 단일 다목적 데이터 스토리지 플랫폼을 제공하여 데이터 중복을 줄입니다.

단일 데이터 스토리지 시스템은 간소화된 플랫폼을 통해 모든 비즈니스 데이터 요구 사항을 수행할 수 있습니다. 또한 데이터 레이크하우스는 데이터 파이프라인을 통해 여러 시스템으로 이동하는 데이터의 양을 줄임으로써 데이터 관찰 가능성을 단순화합니다.

 

Cost-effectiveness

데이터 레이크하우스는 저비용 객체 스토리지 옵션을 활용하여 데이터 레이크의 비용 효율적인 스토리지 기능을 구현합니다.

데이터 레이크하우스는 단일 솔루션을 제공하여 여러 데이터 스토리지 시스템을 유지 관리하는 비용과 시간을 제거합니다.

 

Support for a wider variety of workloads

데이터 레이크하우스는 데이터 관리 수명 주기 전반에 걸쳐 다양한 사용 사례를 처리할 수 있습니다. 또한 비즈니스 인텔리전스와 데이터 시각화 워크스트림 또는 더 복잡한 데이터 과학 워크스트림을 모두 지원할 수 있습니다.

데이터 레이크하우스는 가장 널리 사용되는 일부 비즈니스 인텔리전스 도구(Tableau, PowerBI)에 대한 직접 액세스를 제공하여 고급 분석을 가능하게 합니다.

데이터 레이크하우스는 Python/R을 비롯한 API 및 기계 학습 라이브러리와 함께 개방형 데이터 형식(예: Parquet)을 사용하므로 데이터 과학자와 기계 학습 엔지니어가 데이터를 쉽게 활용할 수 있습니다.

 

Better governance

데이터 레이크하우스 아키텍처는 데이터 레이크와 함께 제공되는 표준 거버넌스 문제를 완화합니다.

예를 들어 데이터가 수집되고 업로드되면 데이터가 정의된 스키마 요구 사항을 충족하는지 확인하여 다운스트림 데이터 품질 문제를 줄일 수 있습니다.

 

More scale

기존 데이터 웨어하우스에서는 컴퓨팅과 스토리지가 함께 결합되어 운영 비용이 증가했습니다.

데이터 레이크하우스는 스토리지와 컴퓨팅을 분리하여 데이터 팀이 동일한 데이터 스토리지에 액세스하는 동시에 다른 애플리케이션에 대해 다른 컴퓨팅 노드를 사용할 수 있도록 합니다. 그 결과 확장성과 유연성이 향상됩니다.

 

Streaming support

데이터 레이크하우스는 오늘날의 비즈니스 및 기술을 위해 구축되었으며 많은 데이터 소스가 장치에서 직접 실시간 스트리밍을 사용합니다.

데이터 레이크하우스 시스템은 이 실시간 수집을 지원하며 앞으로 더욱 인기를 끌 것입니다.

 

Ease of data versioning, governance, and security

데이터 레이크하우스 아키텍처는 스키마 및 데이터 무결성을 강화하여 강력한 데이터 보안 및 거버넌스 메커니즘을 보다 쉽게 ​​구현할 수 있도록 합니다.

 

단점

데이터 레이크하우스의 주요 단점은 아직 비교적 새롭고 미성숙한 기술이라는 것입니다.

데이터 레이크하우스가 성숙한 빅 데이터 스토리지 솔루션과 경쟁하려면 몇 년이 걸릴 수 있습니다.

그러나 현재의 현대적 혁신 속도를 고려할 때 새로운 데이터 스토리지 솔루션이 결국 이를 대체할 수 있을지 예측하기 어렵습니다.

 


Data Warehouse vs Data Lake vs Data Lakehouse

데이터 웨어하우스는 비즈니스 인텔리전스, 보고 및 분석 애플리케이션에서 오랜 역사를 가진 가장 오래된 빅데이터 스토리지 기술입니다. 그러나 데이터 웨어하우스는 비용이 많이 들고 스트리밍 및 다양한 데이터와 같은 비정형 데이터로 어려움을 겪고 있습니다.

데이터 레이크는 머신 러닝 및 데이터 과학 워크로드를 위한 저렴한 스토리지에서 다양한 형식의 원시 데이터를 처리하기 위해 등장했습니다. 데이터 레이크는 구조화되지 않은 데이터와 잘 작동하지만 데이터 웨어하우스의 ACID 트랜잭션 기능이 부족하여 데이터 일관성과 안정성을 보장하기 어렵습니다.

데이터 레이크하우스는 데이터 레이크의 비용 효율성 및 유연성과 데이터 웨어하우스의 안정성 및 일관성을 결합한 최신 데이터 스토리지 아키텍처입니다.

  Data Warehouse Data Lake Data Lakehouse
Storage Data Type 구조화된 데이터와 잘 작동 semi-structure와 unstructured 데이터와 잘 작동 정형, 반정형 및 비정형 데이터를 처리 가능
Purpose 데이터 분석 및 비즈니스 인텔리전스(BI) 사용 사례에 최적 머신 러닝(ML) 및 인공지능(AI) 워크로드에 적합 데이터 분석 및 머신 러닝 워크로드 모두에 적합
Cost 스토리지는 비용과 시간이 많이 소요됨 스토리지는 비용 효율적이고 빠르며 유연 스토리지는 비용 효율적이고 빠르며 유연
ACID Compliance 최고 수준의 무결성을 보장하기 위해 ACID 준수 방식으로 데이터를 기록 Non-ACID 준수: 업데이트 및 삭제는 복잡한 작업 여러 당사자가 동시에 데이터를 읽거나 쓸 떄 일관성을 보장하는 ACID 준수

 

데이터 레이크하우스는 처음부터 구축하기가 복잡할 수 있습니다. 또한 개방형 데이터 레이크하우스 아키텍처를 지원하도록 구축된 플랫폼을 사용할 가능성이 높습니다. 따라서 구매하기 전에 각 플랫폼의 다양한 기능과 구현을 조사하십시오.

데이터 웨어하우스는 비즈니스 인텔리전스 및 데이터 분석 사용 사례에 중점을 둔 성숙하고 구조화된 데이터 솔루션을 찾는 회사에 적합한 선택입니다. 그러나 데이터 레이크는 구조화되지 않은 데이터에서 기계 학습 및 데이터 과학 워크로드를 구동하기 위해 유연하고 저렴한 빅 데이터 솔루션을 찾는 조직에 적합합니다.

데이터 웨어하우스 및 데이터 레이크 접근 방식이 회사의 데이터 요구 사항을 충족하지 못하거나 데이터에 대한 고급 분석 및 머신 러닝 워크로드를 모두 구현하는 방법을 찾고 있다고 가정합니다. 이 경우 데이터 레이크하우스가 합리적인 선택입니다.

 


References

https://www.ibm.com/topics/data-lakehouse

 

What is a data lakehouse? | IBM

Data lakehouses seek to resolve the core challenges across both data warehouses and data lakes to yield a more ideal data management solution for organizations.

www.ibm.com

https://velog.io/@busybean3/Data-Lake-VS-Data-Warehouse

https://www.striim.com/blog/data-warehouse-vs-data-lake-vs-data-lakehouse-an-overview/

반응형

'Data & DataOps' 카테고리의 다른 글

[Data LakeHouse] Apache Iceberg  (0) 2023.08.01