산업 제조
산업용 사물 인터넷 | 산업자재 | 장비 유지 보수 및 수리 | 산업 프로그래밍 |
home  MfgRobots >> 산업 제조 >  >> Industrial Internet of Things >> 사물 인터넷 기술

Cloud Data Lakes를 위한 파일 데이터 준비

클라우드 데이터 레이크 전략은 클라우드로 이동하는 데이터 집약적인 엔터프라이즈 IT 조직을 위한 자연스러운 진화입니다. 클라우드를 저렴한 데이터 스토리지에서 새로운 가치를 위해 데이터를 활용하고 수익을 창출할 수 있는 곳으로 끌어올리기 때문입니다.

2020년과 2021년이 클라우드가 급속하게 가속화된 해였다면 2022년은 기업이 비정형 파일 데이터를 클라우드 데이터 레이크로 가져오는 것에 대해 진지하게 생각하기 시작하는 해가 될 것입니다. 이러한 경향 뒤에는 몇 가지 이유가 있습니다. 첫째, 조직은 오늘날 전 세계 스토리지에 있는 64제타바이트(그리고 계속 증가하고 있는) 데이터 중 최소 80%를 차지하는 페타바이트 규모의 비정형 데이터를 사용하고 있습니다. 이 중 대부분은 의료 이미지에서 스트리밍 비디오, 전기 자동차 및 IoT 제품의 센서 데이터, 모든 분야에서 사람들이 협업하고 비즈니스를 수행하는 데 사용하는 문서에 이르기까지 파일 데이터입니다.

둘째, 파일 데이터는 관리할 수 없고 저장 비용이 많이 들며 CIO는 분석을 위해 데이터를 올바른 위치에 가져오는 방법을 결정할 수만 있다면 잠재적인 통찰력의 금광에 놓여 있다는 것을 알고 있습니다. 마지막으로, 주요 클라우드 플랫폼은 데이터 레이크 프로젝트를 지원하기 위해 데이터 분석/ML/AI 도구 및 저비용 개체 스토리지 계층에 막대한 투자를 하고 있습니다.

참조: 데이터 레이크, 시계열 데이터 및 산업 분석

클라우드로의 데이터 레이크 성숙

우리가 수행한 최근 연구에 따르면 데이터 레이크를 활성화하는 것은 보안, 비용 관리 및 가시성과 함께 IT 관리자가 우선시하는 최우선 목표 중 하나입니다. 클라우드는 기업이 CSV 및 로그 파일과 같은 반정형 데이터를 분석하고자 할 때 시작된 기존의 데이터 레이크 전략을 뒤집었습니다. 2006년에 Hadoop이 탄생하여 빅 데이터 대화가 돌기 시작한 바로 그 시기에 널리 채택되었습니다. 그러나 Hadoop은 결국 예상보다 느리고 비싸고 설정, 확장 및 관리가 복잡하고 주로 일괄 처리용으로 설계되었습니다. 이러한 문제를 해결하기 위해 Apache Spark는 일부 워크로드에서 최대 100배 더 빠르게 실행되고 실시간 분석에 매우 적합합니다. 중요한 것은 Databricks와 같은 회사의 초점은 클라우드에서 Spark를 실행하는 것이지만 Hadoop은 주로 온프레미스에서 구현되었다는 것입니다.

지난 몇 년 동안 클라우드 기반 데이터 레이크 플랫폼은 성숙했고 이제 황금기를 맞이할 준비가 되었습니다. 클라우드 제공업체의 저렴한 스케일 아웃 오브젝트 스토리지는 온프레미스에서 실행 가능하지 않은 페타바이트 규모의 대규모 프로젝트를 위한 플랫폼을 제공합니다. 차세대 데이터 레이크는 Apache Spark에 구축되어 S3 또는 객체 데이터 스토리지를 지원하므로 반정형 및 비정형 데이터를 수집하고 처리할 수 있습니다. 파일 스토리지도 클라우드로 전환되고 있으며 클라우드 데이터 레이크의 일부로 활용해야 하므로 모든 데이터가 개체 스토리지에 있지 않을 수 있습니다.

클라우드 데이터 레이크 전략은 클라우드로 이동하는 데이터 집약적인 엔터프라이즈 IT 조직을 위한 자연스러운 진화입니다. 클라우드를 저렴한 데이터 스토리지에서 새로운 가치를 위해 데이터를 활용하고 수익을 창출할 수 있는 곳으로 끌어올리기 때문입니다.

클라우드 데이터 레이크를 길들이는 방법

머신 러닝 모델이 의미 있는 결과를 생성하기 위해 많은 양의 데이터가 필요하기 때문에 데이터 레이크의 파일 데이터를 포함하여 클라우드 데이터 레이크의 경우 아직 초기 단계입니다. 그러나 이 비정형 데이터는 파일 유형 간에 표준화되지 않았습니다. 비디오 파일, 오디오 파일, 센서 데이터, 로그는 공통 구조를 공유하지 않습니다. 그리고 이 모든 파일 데이터를 클라우드 데이터 레이크 플랫폼에 아무렇게나 버리는 것은 현명한 전략이 아니라 나중에 정리해야 할 엉망입니다. 이러한 약속에도 불구하고 높은 관리 비용, 기술 격차, 보안 및 거버넌스 문제, 클라우드와 스토리지 플랫폼 간에 데이터를 이동할 때의 이식성 문제, 데이터 레이크가 검색 및 분석하기에는 너무 크고 복잡해집니다.

다음은 분쟁을 피하거나 최소화하기 위해 파일 데이터를 클라우드 데이터 레이크로 가져올 때 고려해야 할 몇 가지 사항입니다. .

  1. 데이터 레이크를 최적화합니다. 데이터를 분석하려면 먼저 데이터를 정리, 정규화 및 분류해야 하며, 이는 비용 초과와 가치 창출 시간 지연에 기여하는 매우 수동적인 프로세스일 수 있습니다. 이것은 항상 데이터 웨어하우스 이니셔티브의 도전 과제였으며 데이터 레이크 및 데이터 레이크하우스에도 동일하게 적용됩니다. 데이터 레이크는 기본 형식으로 데이터를 수집할 수 있다는 점에서 매력적입니다. 데이터를 레이크에 넣기 전에 최적화가 필요하면 이러한 사용 편의성이 파괴됩니다. 사용자 행동을 변경하지 않고 어떻게 파일 데이터를 자동으로 최적화할 수 있습니까? 파일 데이터 최적화의 핵심은 메타데이터입니다. 파일 형식, 생성 날짜 및 마지막 액세스 날짜, 소유자, 프로젝트 및 위치에 대한 정보입니다. 메타데이터 속성에 대한 파일을 자동으로 인덱싱하고 태그를 지정하는 기능은 데이터 늪 문제를 방지하고 데이터 레이크를 관리하지 않는 상태로 남겨두는 것과는 반대로 나중에 검색 및 분류하기를 더 쉽게 만듭니다.
  2. 메타데이터 인덱싱을 사용하여 특정 요구 사항에 맞는 정확한 데이터 세트를 찾습니다. 파일을 인덱싱하고 스토리지(온프레미스, 에지 및 클라우드 위치 포함)에서 메타데이터를 검색할 수 있는 도구는 수십억 개의 파일을 수천 개로 압축할 수 있으므로 분석하려는 정확한 파일만 클라우드로 보낼 수 있습니다.
  3. 검색 가능성 및 사용성을 개선하기 위해 이동하면서 데이터에 태그 지정 . 필요한 파일을 찾으면 기계 학습 시스템을 사용하여 더 많은 태그로 검색을 더욱 세분화할 수 있습니다. 이 프로세스는 지속적이고 자동화되어야 하므로 시간이 지남에 따라 추가 구조가 개발되고 데이터 레이크에 대한 더 쉬운 검색 가능성과 함께 전반적으로 더 높은 품질이 제공됩니다.
  4. 가장자리를 수용합니다. 센서 데이터의 새로운 사용 사례로 인해 에지 컴퓨팅이 성장함에 따라 에지에서 스트리밍 데이터를 유지할 수 없게 될 것입니다. 에지에서 더 많은 데이터를 처리하고 필요한 것만 클라우드 데이터 레이크로 가져갈 수 있는 방법은 무엇입니까? 에지 데이터 볼륨이 증가함에 따라 에지 사전 처리가 더욱 중요해질 것입니다.
  5. 산업별 분류를 만듭니다. 각 산업에 대한 표준 태깅 명명법은 없습니다. 부문별로 몇 가지 공통 태그 분류를 사용하면 특히 연구 및 생명 과학과 같은 협업 환경에서 데이터를 더 쉽게 검색하고 추출할 수 있습니다.
  6. 데이터 이동성을 해결합니다. 진정한 모바일이 되려면 데이터가 하이브리드 클라우드 환경 전반에 걸쳐 서로 다른 시스템에 상주할 수 있어야 하며 동시에 해당 환경의 서비스에 기본적으로 액세스할 수 있어야 합니다. 독점 스토리지 시스템에서 데이터를 잠금 해제하면 IT에 다시 제어 권한이 부여되고 한 플랫폼에서 다음 플랫폼으로 데이터를 이동하는 비용과 번거로움이 사라집니다. 데이터가 사용 및 액세스되는 방식과 그 가치는 시간이 지남에 따라 변합니다. 미래에 대비한 데이터를 통해 변화와 새로운 요구 사항에 적응할 수 있습니다. 독립적인 데이터 이동성 및 관리 솔루션이 여기에 도움이 될 수 있습니다.
  7. 올바른 문화를 구축하십시오. New Vantage Partners의 2021년 연구에 따르면 선도적인 IT 조직은 사람, 프로세스, 조직, 변경 관리와 같은 문화를 데이터 기반 조직이 되는 데 가장 큰 장애물로 계속 확인하고 있습니다. 데이터 기반 문화는 분석가와 사업부뿐만 아니라 IT 인프라 팀까지 포괄해야 합니다. IT 리더는 데이터 스토리지, 서버 및 네트워킹 전문가가 자신의 책임과 일상 업무를 데이터 중심의 의사 결정 프레임워크로 재조정하도록 돕는 역할을 해야 합니다. 도구와 프로세스는 조직의 데이터 자산에 대한 전체적인 관점과 조직의 이익을 위해 이러한 자산을 관리하기 위한 전략에 대한 협업을 허용하는 교차 기능이어야 합니다.

클라우드 데이터 레이크는 데이터 웨어하우스에 필요한 광범위한 사전 처리 없이 데이터를 기본 형식으로 수집할 수 있기 때문에 인기를 얻었습니다. 반면에 이 데이터에는 공통 구조가 없기 때문에 데이터 레이크는 특히 비정형 파일 데이터의 경우 데이터 늪이 되었습니다. 파일 데이터 분석은 이에 의존하는 AI/ML 엔진의 증가로 인해 더욱 중요해지고 있습니다. 클라우드 데이터 레이크는 파일 데이터의 인덱싱, 검색, 수집 및 최적화를 자동화하여 기본 형식으로 데이터를 수집하는 매력을 손상시키지 않으면서 비정형 데이터에 최적화할 수 있습니다.


사물 인터넷 기술

  1. 성능, 효율성을 위한 클라우드 인프라 구축
  2. 귀하의 IT 경력은 클라우드에 대한 준비가 되어 있습니까?
  3. AWS Backup에 대한 상위 5가지 보안 사례
  4. 멀티 클라우드 세계를 위한 데이터 전략을 정의하는 방법
  5. IoT를 사용하여 AI를 준비하는 방법
  6. GE, 산업 데이터 분석을 위한 클라우드 서비스 도입
  7. 시스템이 IoT를 사용할 준비가 되었습니까?
  8. 포그 컴퓨팅이란 무엇이며 IoT에 어떤 의미가 있습니까?
  9. IoT의 클라우드
  10. IoT 데이터 저장을 위한 클라우드 컴퓨팅 사용의 이점