사물 인터넷 기술
클라우드 데이터 레이크 전략은 클라우드로 이동하는 데이터 집약적인 엔터프라이즈 IT 조직을 위한 자연스러운 진화입니다. 클라우드를 저렴한 데이터 스토리지에서 새로운 가치를 위해 데이터를 활용하고 수익을 창출할 수 있는 곳으로 끌어올리기 때문입니다.
2020년과 2021년이 클라우드가 급속하게 가속화된 해였다면 2022년은 기업이 비정형 파일 데이터를 클라우드 데이터 레이크로 가져오는 것에 대해 진지하게 생각하기 시작하는 해가 될 것입니다. 이러한 경향 뒤에는 몇 가지 이유가 있습니다. 첫째, 조직은 오늘날 전 세계 스토리지에 있는 64제타바이트(그리고 계속 증가하고 있는) 데이터 중 최소 80%를 차지하는 페타바이트 규모의 비정형 데이터를 사용하고 있습니다. 이 중 대부분은 의료 이미지에서 스트리밍 비디오, 전기 자동차 및 IoT 제품의 센서 데이터, 모든 분야에서 사람들이 협업하고 비즈니스를 수행하는 데 사용하는 문서에 이르기까지 파일 데이터입니다.
둘째, 파일 데이터는 관리할 수 없고 저장 비용이 많이 들며 CIO는 분석을 위해 데이터를 올바른 위치에 가져오는 방법을 결정할 수만 있다면 잠재적인 통찰력의 금광에 놓여 있다는 것을 알고 있습니다. 마지막으로, 주요 클라우드 플랫폼은 데이터 레이크 프로젝트를 지원하기 위해 데이터 분석/ML/AI 도구 및 저비용 개체 스토리지 계층에 막대한 투자를 하고 있습니다.
참조: 데이터 레이크, 시계열 데이터 및 산업 분석
클라우드로의 데이터 레이크 성숙
우리가 수행한 최근 연구에 따르면 데이터 레이크를 활성화하는 것은 보안, 비용 관리 및 가시성과 함께 IT 관리자가 우선시하는 최우선 목표 중 하나입니다. 클라우드는 기업이 CSV 및 로그 파일과 같은 반정형 데이터를 분석하고자 할 때 시작된 기존의 데이터 레이크 전략을 뒤집었습니다. 2006년에 Hadoop이 탄생하여 빅 데이터 대화가 돌기 시작한 바로 그 시기에 널리 채택되었습니다. 그러나 Hadoop은 결국 예상보다 느리고 비싸고 설정, 확장 및 관리가 복잡하고 주로 일괄 처리용으로 설계되었습니다. 이러한 문제를 해결하기 위해 Apache Spark는 일부 워크로드에서 최대 100배 더 빠르게 실행되고 실시간 분석에 매우 적합합니다. 중요한 것은 Databricks와 같은 회사의 초점은 클라우드에서 Spark를 실행하는 것이지만 Hadoop은 주로 온프레미스에서 구현되었다는 것입니다.
지난 몇 년 동안 클라우드 기반 데이터 레이크 플랫폼은 성숙했고 이제 황금기를 맞이할 준비가 되었습니다. 클라우드 제공업체의 저렴한 스케일 아웃 오브젝트 스토리지는 온프레미스에서 실행 가능하지 않은 페타바이트 규모의 대규모 프로젝트를 위한 플랫폼을 제공합니다. 차세대 데이터 레이크는 Apache Spark에 구축되어 S3 또는 객체 데이터 스토리지를 지원하므로 반정형 및 비정형 데이터를 수집하고 처리할 수 있습니다. 파일 스토리지도 클라우드로 전환되고 있으며 클라우드 데이터 레이크의 일부로 활용해야 하므로 모든 데이터가 개체 스토리지에 있지 않을 수 있습니다.
클라우드 데이터 레이크 전략은 클라우드로 이동하는 데이터 집약적인 엔터프라이즈 IT 조직을 위한 자연스러운 진화입니다. 클라우드를 저렴한 데이터 스토리지에서 새로운 가치를 위해 데이터를 활용하고 수익을 창출할 수 있는 곳으로 끌어올리기 때문입니다.
클라우드 데이터 레이크를 길들이는 방법
머신 러닝 모델이 의미 있는 결과를 생성하기 위해 많은 양의 데이터가 필요하기 때문에 데이터 레이크의 파일 데이터를 포함하여 클라우드 데이터 레이크의 경우 아직 초기 단계입니다. 그러나 이 비정형 데이터는 파일 유형 간에 표준화되지 않았습니다. 비디오 파일, 오디오 파일, 센서 데이터, 로그는 공통 구조를 공유하지 않습니다. 그리고 이 모든 파일 데이터를 클라우드 데이터 레이크 플랫폼에 아무렇게나 버리는 것은 현명한 전략이 아니라 나중에 정리해야 할 엉망입니다. 이러한 약속에도 불구하고 높은 관리 비용, 기술 격차, 보안 및 거버넌스 문제, 클라우드와 스토리지 플랫폼 간에 데이터를 이동할 때의 이식성 문제, 데이터 레이크가 검색 및 분석하기에는 너무 크고 복잡해집니다.
다음은 분쟁을 피하거나 최소화하기 위해 파일 데이터를 클라우드 데이터 레이크로 가져올 때 고려해야 할 몇 가지 사항입니다. .
클라우드 데이터 레이크는 데이터 웨어하우스에 필요한 광범위한 사전 처리 없이 데이터를 기본 형식으로 수집할 수 있기 때문에 인기를 얻었습니다. 반면에 이 데이터에는 공통 구조가 없기 때문에 데이터 레이크는 특히 비정형 파일 데이터의 경우 데이터 늪이 되었습니다. 파일 데이터 분석은 이에 의존하는 AI/ML 엔진의 증가로 인해 더욱 중요해지고 있습니다. 클라우드 데이터 레이크는 파일 데이터의 인덱싱, 검색, 수집 및 최적화를 자동화하여 기본 형식으로 데이터를 수집하는 매력을 손상시키지 않으면서 비정형 데이터에 최적화할 수 있습니다.
사물 인터넷 기술
제조는 말할 것도 없고 휴대전화와 인터넷이 통신, 교육 및 엔터테인먼트를 어떻게 재정의했는지 생각해 보십시오. 가상 현실(VR), 증강 현실(AR) 및 혼합 현실(MR) 프로세스 및 장비로 구성된 XR 기술은 동일한 근본적인 변화를 만들고 있습니다. 세 가지 모두 보완 기술입니다. 모두 사용 사례가 다릅니다. 이 기사는 제조업체가 이러한 추세를 더 잘 이해할 수 있도록 지원하기 위해 제공되는 웨비나 Tooling U-SME의 개요입니다. 제조 교육 솔루션의 가상, 증강 및 혼합 현실이라는 제목의 웨비나는 SiFy Technolo
퍼블릭 클라우드에서 데이터를 유지하고 사용하는 데 드는 막대한 비용은 점점 더 기업의 골칫거리가 되고 있습니다. 조직은 보다 비용 효율적인 대안을 찾고 있으며, 이것이 우리가 데이터 송환(현재 퍼블릭 클라우드에 있는 데이터를 가져와 온사이트 또는 베어메탈에서 재호스팅하는 행위) 사례가 점점 더 많아지는 이유입니다. 이 문서는 데이터 송환에 대한 소개입니다. 그리고 온프레미스 베어메탈 스토리지에 찬성하여 퍼블릭 클라우드를 떠날 때의 영향(긍정적 및 부정적 모두). 계속해서 데이터 송환의 주요 동인에 대해 알아보고 클라우드 기반 데이