티스토리 뷰

정의

데이터 웨어하우스(Data Warehouse)란 사용자의 의사 결정에 도움을 주기 위하여 분석 가능한 형태로 정보들이 저장되어 있는 중앙 저장소이다. 정보(data)와 창고(warehouse)의 의미가 합성된 용어다.

오늘날 기업들은 분석 및 통계를 위해 다양한 소스의 데이터를 효과적으로 수집, 저장, 통합해야 한다. 이러한 데이터 분석 활동은 수익 창출, 비용 억제 및 이윤 최적화의 원동력이 되어왔다. 그에 따라 당연히 생성 및 분석되는 데이터의 양과 데이터 소스의 수 및 유형이 폭발적으로 증가하게 되었다.

데이터 웨어하우스-data warehouse
데이터 웨어하우스 (출처: datafloq)

데이터 기반 기업에는 조직 전체의 수많은 데이터를 관리하고 분석하기 위한 강력한 솔루션이 필요하다. 이러한 시스템은 확장 가능하고 안정적이며 규제 대상 산업에 맞게 충분히 안전해야 할 뿐 아니라, 다양한 데이터 유형 및 사용 사례를 지원할 수 있을 만큼 충분히 유연해야 한다. 이러한 요구 사항은 기존 데이터베이스의 역량을 훨씬 넘는 것이다. 여기서 데이터 웨어하우스의 필요성이 발생한다.

 

 

목적

일부 비즈니스 및 산업에서는 대규모이면서 지속적이고 실시간으로 진행되는 데이터 분석이 필요하다. 예를 들어 일부 서비스 제공 업체에서는 실시간 데이터를 사용하여 온종일 가격을 동적으로 조정한다. 보험 회사에서는 정책, 판매량, 보험금 청구액, 지급 급여 등을 추적하기도 하고, 머신러닝을 사용하여 사기를 예측하기도 한다. 게임회사에서는 플레이어의 경험을 향상시키기 위해 실시간으로 사용자 행동을 추적하고 이에 대응해야 한다. 데이터 웨어하우스는 이러한 모든 활동을 가능하게 한다.

 

 

장점

  • 정보에 기반한 의사 결정
  • 여러 소스의 데이터 통합
  • 과거 데이터 분석
  • 데이터 품질, 일관성 및 정확성
  • 트랜잭션 데이터베이스와 분석 처리를 분리하여 두 시스템 모두의 성능을 향상

동작

데이터 아키텍처는 대부분 아래와 같은 형태로 구축된다. 일반적으로 데이터베이스, 데이터 레이크 및 데이터 웨어하우스의 조합을 활용하여 데이터를 저장 및 분석한다.

modern data architectures
"MODERN" DATA ARCHITECTURES (자료: Snowflake)
  • ETL이란 Extract, Transform, Load의 합성어로 데이터 웨어하우스 구축 시 데이터를 운영 시스템에서 추출하여 가공한 후 데이터 웨어하우스에 저장하는 과정을 말한다.
  • 데이터베이스(Data Base, DB)는 트랙잰션의 세부 사항을 기록하는 것과 같이 데이터를 캡처하고 저장하는 데 사용된다.
  • 데이터 웨어하우스(Data Warehouse, DW)는 데이터 분석을 위해 특별히 설계되었으며, 여기에는 대량의 데이터를 읽어 데이터 전반에 걸친 관계와 추세를 파악하는 작업이 포함된다.
  • 데이터 레이크(Data Lake, DL)는 정형, 반정형 및 비정형 데이터를 비롯한 모든 가공되지 않은 데이터에 대한 중앙 저장소이다. 빅데이터를 효율적으로 분석 및 사용하고자 다양한 영역의 Raw 데이터를 한곳에 모아 관리하기 위함이다.
  • 데이터 마트(Data Mart, DM)는 금융, 마케팅 또는 영업과 같은 특정 팀 또는 사업 단위의 요구를 충족시키는 데이터 웨어하우스이다. 규모가 더 작고, 집중적이며 사용자 커뮤니티에 가장 잘 맞는 데이터 요약을 포함할 수 있다. 데이터 마트는 데이터 웨어하우스의 일부일 수도 있다.

 

 

관련 기업

아마존, 구글, 마이크로소프트와 같은 클라우드 서비스 업체는 각 Amazon Redshift, Google BigQuery, Azure SQL로 데이터 웨어하우스 서비스 또한 제공하고 있다.

스노우플레이크 경쟁사
출처: cloudedjudgement

스노우플레이크(Snowflake)는 대표적인 데이터 웨어하우스 기업이다. 스노우플레이크의 이점은 중립적으로 클라우드 서비스 업체 위에서 운영되어 기업의 모든 데이터를 통합하여 저장하고 분석이 가능하다.

snowflake-datawarehouse
출처: snowflake

 

참고 자료 및 출처:


Disclaimer 이 글은 개인 투자 의견을 제시하는 것이며 추천이 아니므로 투자 결과에 대한 법적 책임 소재의 증빙자료로 사용될 수 없습니다. 이 글을 읽는 분들은 자신의 판단과 책임 하에서 종목의 선택 및 투자 시기에 대한 최종적인 결정이 이루어져야 하며, 그 어떠한 이유에서도 독자들의 리스크에 대한 책임을 지지 않습니다.

 

- 테크서퍼

 

데이터독(Datadog) 전망 및 분석, IT모니터링 최강자, 클라우드시대 필수 소프트웨어

컨플루언트(Confluent) 전망 및 분석, 빅데이터 시대 필수 데이터 처리| 기업분석 (feat. Kafka)

데이터웨어하우스-data warehouse