산업 제조
산업용 사물 인터넷 | 산업자재 | 장비 유지 보수 및 수리 | 산업 프로그래밍 |
home  MfgRobots >> 산업 제조 >  >> Manufacturing Technology >> 산업기술

현대 데이터 자산:Data Lake와 Data Warehouse

2021년 7월 27일  

출처:MCA 커넥트 | 내일의 제조

데이터는 빠르고 다양한 형태로 제공됩니다. 이러한 다양한 형식에는 정형, 반정형 및 비정형 데이터가 포함될 수 있으며 많은 사람들은 데이터 웨어하우스와 데이터 레이크가 데이터를 다르게 처리한다는 사실을 깨닫지 못합니다.

최신 데이터 자산은 기업에서 생성하는 다양한 데이터를 수집하고 저장하는 다양한 방법을 제공해야 합니다. 데이터는 빠르고 다양한 형태로 우리에게 옵니다. 이러한 다양한 형식에는 정형, 반정형 및 비정형 데이터가 포함될 수 있으며 많은 사람들은 데이터 웨어하우스와 데이터 레이크가 데이터를 다르게 처리한다는 사실을 인식하지 못합니다. 다음과 같은 다양한 데이터 유형에 대해 자세히 살펴보겠습니다.

<올>
  • 구조적 – 형식 열 및 테이블 정의가 포함된 ERP 또는 CRM 시스템용 트랜잭션 데이터베이스와 같은 기존 데이터베이스
  • 반구조화 – 요소 및 계층 구조에 대한 태그로 자체 설명되는 XML 또는 JSON과 같은 파일
  • 비정형 – 이미지, 비디오, 오디오 및 기타 바이너리 데이터
  • 전통적인 데이터 웨어하우스 설계는 수십 년 동안 존재해 왔지만 개념 또는 적어도 데이터 레이크라는 용어는 다소 새로운 구성입니다. 이들 각각은 조직의 데이터 자산에 위치합니다.

    데이터 웨어하우스

    위에서 볼 수 있듯이 데이터 소스는 매우 다양할 수 있고 다른 데이터 표현을 가질 수 있으므로 다양한 정보가 발생할 수 있습니다. 또한 데이터 소스의 스키마와 구조가 매우 다양하기 때문에 모든 비즈니스 하위 시스템에서 데이터의 완전한 스냅샷이 필요할 때 통합 정보를 얻기가 어렵습니다. 일반적으로 이것이 데이터 웨어하우스 솔루션이 등장한 주된 이유입니다.

    데이터 웨어하우스는 공식 ETL(Extract-Transform-Load) 프로세스를 구현하여 구조화된 원시 데이터 세트를 사용하고 보고용으로 설계된 모델에 로드하는 디자인 지침을 기반으로 하는 공식 디자인입니다. 데이터 웨어하우스는 이전에 Microsoft SQL Server였던 Azure Synapse와 같은 관계형 데이터베이스를 기반으로 합니다. Azure Synapse는 기존의 행과 열이 있는 테이블에 구조화된 데이터를 저장하도록 설계되었지만 XML 및 JSON과 같은 반구조화된 데이터를 저장할 수 있는 기능도 있습니다.

    데이터 레이크

    데이터 레이크는 ETL의 개념을 뒤집고 ELT(Extract-Load-Transform) 프로세스를 구현합니다. 데이터 레이크에 데이터를 수집하는 것은 본질적으로 데이터 유형이나 구조에 관계없이 어느 시점에서 중요하다고 생각하는 모든 것을 대규모 저장 영역에 버리는 것입니다. 데이터 레이크는 정형, 반정형 및 비정형 데이터를 저장할 수 있습니다. Microsoft Azure에서 제공되는 데이터 레이크는 스토리지 계정을 생성할 때 Data Lake Storage Gen2가 활성화된 스토리지 계정을 기반으로 합니다.

    데이터 레이크 이면의 생각은 모든 데이터를 소비하고 나중에 이를 정렬하는 반면, 데이터 웨어하우스는 수집을 개발하는 상당한 투자와 함께 사전에 가치를 식별해야 한다는 것입니다. 일반적으로 데이터 웨어하우스를 개발하는 데 필요한 막대한 선행 투자로 인해 초기에 가져오지 않은 데이터가 나중에 필요하다고 결정되면 소스 데이터를 더 이상 사용할 수 없고 잠재적으로 영구적으로 사라질 위험이 있습니다.

    목적:미정 vs 사용 중

    데이터 레이크에서 개별 데이터 조각의 목적은 고정되어 있지 않습니다. 원시 데이터는 데이터 레이크로 흘러들어가는데, 때로는 특정한 미래의 사용을 염두에 두고 때로는 그냥 가지고 있기도 합니다. 즉, 데이터 레이크는 해당 데이터 레이크보다 조직과 데이터 필터링이 적습니다.

    처리된 데이터는 특정 용도로 사용된 원시 데이터입니다. 데이터 웨어하우스는 처리된 데이터만 보관하므로 데이터 웨어하우스의 모든 데이터는 조직 내에서 특정 목적을 위해 사용되었습니다. 즉, 사용하지 않을 수 있는 데이터에 저장 공간이 낭비되지 않습니다.

    접근성

    접근성 및 사용 용이성은 데이터 저장소 전체의 사용을 의미하며 그 안에 있는 데이터가 아닙니다. 데이터 레이크 아키텍처는 구조가 없으므로 액세스하기 쉽고 변경하기 쉽습니다. 또한 데이터 레이크에는 제한 사항이 거의 없기 때문에 데이터에 대한 모든 변경 사항을 신속하게 수행할 수 있습니다.

    데이터 웨어하우스는 설계상 더 구조화되어 있습니다. 데이터 웨어하우스 아키텍처의 주요 이점 중 하나는 데이터 처리 및 구조가 데이터 자체를 더 쉽게 해독할 수 있도록 하고 구조의 제한으로 인해 데이터 웨어하우스를 조작하기 어렵고 비용이 많이 든다는 것입니다.

    둘 다의 이점

    데이터 레이크는 많은 소스에서 가져온 대량의 데이터를 저장하는 비용 효율적인 방법입니다. 모든 구조의 데이터를 허용하면 데이터가 특정 패턴에 맞을 필요가 없기 때문에 데이터가 더 유연하고 확장 가능하기 때문에 비용이 절감됩니다. 그러나 구조화된 데이터는 더 명확하고 쿼리할 균일한 스키마를 갖기 때문에 분석하기가 더 쉽습니다. 데이터를 스키마로 제한함으로써 데이터 웨어하우스는 특정 데이터 결정을 위해 과거 데이터를 분석하는 데 매우 효율적입니다. 적절한 데이터 웨어하우스와 데이터 레이크는 모두 조직의 미래 성공에 매우 중요하며 최신 데이터 자산에 속합니다.

    데이터 자산이란 무엇입니까?

    최신 데이터 자산을 구축하는 것은 디지털 혁신을 위한 기본 단계입니다. 최신 데이터 자산은 모든 데이터에 대해 시기적절한 통찰력과 의사 결정을 가능하게 하고 AI의 기반을 설정합니다. 데이터 자산은 조직이 소유한 모든 데이터입니다. 이 데이터를 클라우드로 마이그레이션하거나 온프레미스 환경을 현대화하면 혁신을 촉진하는 중요한 통찰력을 얻을 수 있습니다.

    Microsoft Dynamics 365 사전 구축 데이터 웨어하우스, DataCONNECT

    데이터 웨어하우스를 구축하는 것은 소스 시스템을 적절하게 검토하고, 데이터 모델을 설계하고, 이를 처리하는 데 필요한 ETL을 생성하는 데 매우 많은 비용과 시간이 소요될 수 있습니다. MCA Connect는 Microsoft Dynamics AX, Dynamics 365 Finance 및 Customer Engagement용 DataCONNECT 데이터 웨어하우스 솔루션을 개발했습니다. 이 솔루션은 구현 비용을 줄이면서 포괄적인 데이터 웨어하우스 솔루션의 제공 일정을 크게 단축합니다. 또한 포괄적인 데이터 자산 구축을 시작하는 좋은 방법입니다.

    DataCONNECT는 조직에 빠르고 정확한 정보를 제공하여 운영을 정확하게 예측, 조정 및 형성할 수 있는 능력을 제공합니다. 검증된 데이터를 예측 모델로 신속하게 가져올 수 있으므로 비즈니스 영역에 대한 계획 주기를 시작할 수 있습니다. DataCONNECT 데이터 웨어하우스 또는 데이터 레이크가 회사에서 빅 데이터를 저장하는 데 어떻게 도움이 되는지 자세히 알아보려면 당사에 문의하십시오. 저희 전문가가 여러분을 올바른 방향으로 안내해 드릴 것입니다.

    이 기사의 내용과 의견은 작성자의 것이며 반드시 Manufacturing Tomorrow의 견해를 나타내는 것은 아닙니다.


    산업기술

    1. 4차 산업혁명
    2. IoT에서 데이터 규정 준수
    3. 데이터로 무엇을 해야 합니까?!
    4. 현대 플라스틱 개발
    5. 디지털 세계의 유지 관리
    6. 사물인터넷 민주화
    7. IoT 데이터의 가치 극대화
    8. 아날로그 측정의 가치
    9. 전략적 데이터 소싱은 혼란을 피하는 현대적인 방법입니다
    10. 창고 스캐닝 시스템을 최대한 활용하는 방법