Data Lake와 산업용 애플리케이션을 위한 빅 데이터

데이터 레이크와 빅 데이터는 종종 잘못 이해되고 잘못 사용되는 두 가지 현대적인 용어입니다. 내재된 대용량 데이터로 인해 이러한 용어는 때때로 같은 의미로 사용됩니다. 그러나 데이터 레이크와 빅 데이터는 현재 정의가 아직 완전히 확립되지는 않았지만 다릅니다.

그림 1. 최신 데이터는 다양한 소스와 다양한 유형에서 가져올 수 있습니다. Analytics Vidhya 제공 이미지 사용

먼저 간략한 역사적 맥락을 살펴보자. 2000년대 후반, Facebook 및 Twitter와 같은 소셜 미디어 플랫폼의 폭발적인 성장과 함께 많은 데이터 과학자들은 이러한 플랫폼이 소중한 개인 데이터를 대량으로 생성할 수 있는 잠재력을 깨닫기 시작했습니다. 결과적으로 데이터 처리 및 분석을 용이하게 하기 위해 새로운 소프트웨어 응용 프로그램이 개발되었습니다. 한 가지 두드러진 예는 본질적으로 빅 데이터 수준의 정보를 처리할 수 있는 오픈 소스 애플리케이션의 툴킷인 Apache Hadoop입니다.

다음 10년 동안 사물 인터넷(IoT)이 등장했습니다. 이는 개인의 선호도와 패턴에 대한 통찰력을 제공하는 동시에 제품 자체에 대한 정보를 보낼 수 있는 수백만 개의 추가 데이터 소스에 대한 문을 열었습니다.

동시에 기계 학습은 중요한 발전을 이루었고 산업 환경에서 보다 실용적인 응용 프로그램을 찾고 있었습니다. 그 결과 산업, 특히 자동화된 프로세스에서 대량의 데이터를 처리해야 할 필요성이 높아졌습니다.

모든 예측은 전 세계에서 사용할 수 있는 전체 데이터 양이 앞으로 몇 년 동안 계속해서 빠른 속도로 확장될 것임을 나타냅니다. 참고로 2016년 전 세계는 연간 인터넷 트래픽 생성량 1제타바이트를 돌파했습니다. 1제타바이트는 1조 기가바이트에 해당합니다.

2021년에는 연간 인터넷 트래픽이 3제타바이트를 초과할 것으로 예상됩니다. 이러한 예측은 클라우드 컴퓨팅의 확장된 기능과 함께 빅 데이터(및 데이터 레이크)의 가치와 사용이 아마도 이제 시작에 불과함을 나타냅니다.

빅 데이터란 무엇입니까?

단순히 볼륨의 관점에서 볼 때 빅 데이터의 정의는 움직이는 대상입니다. 사용 가능한 데이터의 양과 저장 공간이 계속 증가함에 따라 대용량 정보로 간주되는 벤치마크도 증가합니다.

오늘날 100테라바이트 이상의 데이터 저장소는 일반적으로 빅 데이터의 범위로 간주됩니다. 소셜 미디어 플랫폼의 데이터 저장소와 같은 대용량 데이터 저장소는 수 페타바이트 범위에 있을 수 있습니다.

빅 데이터를 정의하는 데 사용되는 또 다른 참조는 SQL과 같은 기존 컴퓨터 도구로 처리할 수 없는 정보의 양입니다. 예를 들어, 오늘날 데이터베이스가 연간 1테라바이트 크기에 도달하는 것은 드문 일이 아닙니다. 그러나 SQL 애플리케이션이 더욱 강력해짐에 따라 이 규모의 데이터베이스는 여전히 관리할 수 있습니다. 따라서 일반적으로 빅 데이터로 간주되지 않습니다.

빅 데이터의 4V 모델

지금까지 빅데이터의 정의를 볼륨의 관점에서 살펴보았습니다. 고려해야 할 다른 세 가지 중요한 요소가 있습니다:속도, 다양성 및 진실성. 이들은 볼륨과 함께 4V 모델을 형성합니다.

그림 2. 빅 데이터의 4V 모델:볼륨, 속도, 다양성 및 진실성. APSense 제공 이미지 사용

다양성은 텍스트, 이미지, 사운드, 비디오 등 빅 데이터 저장소에 저장된 모든 다양한 유형의 데이터를 의미합니다. 또한 데이터가 여러 소스에서 올 수 있다는 사실을 의미합니다.

정보가 지속적으로 스트리밍되기 때문에 속도는 빅 데이터에서 중요한 고려 사항입니다. 속도는 데이터가 수집, 생성 및 배포되는 속도와 관련됩니다.

Veracity는 데이터 과학자가 분석과 결론에 도달하는 데 사용할 수 있는지 평가하기 위해 데이터의 정확성과 품질을 측정합니다.

이제 빅 데이터를 이해했으므로 제어 시스템에서 이를 사용하는 방법에 대해 자세히 알아보기 전에 데이터 레이크를 검토해 보겠습니다.

데이터 레이크란 무엇입니까?

데이터 레이크는 미래에 가치가 있을 수도 있고 그렇지 않을 수도 있고 목적이 아직 100% 알려지지 않은 정보인 대량의 원시 데이터의 중앙 집중식 리포지토리입니다. 데이터 레이크는 다른 유형의 파일 및 엔터티와 함께 관계형 및 비관계형 데이터베이스를 저장할 수 있습니다.

데이터 레이크의 정보는 처리되거나 정리되지 않지만 모든 입력과 출력이 좋은 아키텍처를 만드는 것으로 간주되도록 구성됩니다.

데이터 레이크 대 빅 데이터

데이터 레이크는 빅 데이터 애플리케이션의 인스턴스입니다. 이들은 4V 모델에 설명된 기준을 따르며 몇 가지 특성이 추가되었습니다. 볼륨 면에서 데이터 레이크는 평균적으로 빅 데이터로 간주되는 것의 하한에 가깝습니다.

데이터 레이크의 정보는 다양하지만, 조건은 처리되지 않은 원시 데이터일 뿐입니다. 입력 및 출력 속도는 최신 시스템과 마찬가지로 관련성이 있으며 데이터 품질 평가는 잘 설계된 데이터 레이크에서 수행됩니다.

데이터를 위한 산업용 애플리케이션

고급 자동화로 인해 공장에서 처리되는 정보의 양이 급격히 증가하고 있습니다. 덕분에 제조 및 기타 산업 프로세스가 이제 빅 데이터 영역으로 진입하고 있으며 여러 비즈니스 활동에서 현재 데이터 레이크와 같은 도구를 사용하고 있습니다.

한 가지 두드러진 예는 예측 유지 관리입니다. 기계적 또는 전기적 오류를 예측하는 능력은 매우 중요하며 수리 비용을 상당히 절감할 수 있습니다. 데이터 레이크는 추세를 이해하고 문제를 예측하는 데 사용할 수 있는 로그 파일, 여러 센서 및 입력 장치에서 오는 정보를 컴파일할 수 있는 유용한 도구입니다.

기계 학습은 로봇이 변화하는 외부 조건에 적응하는 데 도움이 될 수 있는 정보를 제공받는 개념입니다. 정보 캡처는 예측 유지 관리와 유사하며 평가 및 프로세스 변경 사항이 시스템 컨트롤러에 자동으로 제공되는 추가 단계가 있습니다. 기계 학습 데이터는 구조화된 데이터 레이크에 저장할 수 있습니다.

그림 3. 기계 학습에는 각각 많은 양의 데이터가 필요한 몇 가지 전략이 있습니다. WordStream 제공 이미지 사용

결론적으로 데이터 레이크는 빅 데이터 애플리케이션의 인스턴스입니다. 데이터를 보는 이 두 가지 방법을 함께 사용할 수 있습니다. 제어 엔지니어는 빅 데이터와 데이터 레이크를 모두 활용하여 장애를 예측하고, 유지 관리 루틴을 만들고, 시설의 디지털 혁신을 성장시키는 등의 작업을 수행할 수 있습니다.

업무에서 빅 데이터와 데이터 레이크를 사용하는 용도는 무엇입니까?

전산 유체 역학(CFD) 이해 평균 수리 시간(MTTR) 및 평균 고장 간격(MTBF) 계산을 위한 소프트웨어 접근 방식

사물 인터넷 기술