Smart Talk 에피소드 8:데이터 레이크하우스에 대한 실시간 통찰력 확보

데이터 레이크하우스는 유연한 다용도 저장소로 등장했습니다. 이 Smart Talk 에피소드에서는 Stratola의 CEO인 Dinesh Chandrasekhar와 그의 게스트인 Starburst의 CEO 겸 회장인 Justin Borgman이 데이터 레이크하우스의 기능을 확장하여 점점 더 일반적인 사용 사례인 거의 실시간 통찰력을 제공할 수 있는 실시간 데이터 및 고성능 쿼리를 포함하는 방법에 대해 논의합니다. Kafka 스트림과 강력한 쿼리 엔진이라는 두 가지 핵심 기술이 필요합니다.

특히 흥미로운 것은 Snowflake와 Databricks가 Apache Iceberg 지원을 발표하면서 검증된 오픈 소스 소프트웨어와 오픈 형식의 중요성에 대한 그들의 관점입니다. Justin은 벤치마킹 솔루션에 대한 조언을 공유합니다. 기업 데이터를 사용하고, 실제 쿼리를 실행하고, 규모를 시뮬레이션하고, 마지막으로 비용을 계산하세요.

다루는 주제는 다음과 같습니다:

실시간 데이터를 데이터 레이크하우스로 스트리밍하기 위한 Kafka(4:22)
오픈 형식의 장점(5:56)
GenAI에 대한 SQL의 지원 역할(8:53)
Snowflake, Databricks 및 Iceberg(11:56)
유연한 데이터 저장소 전략(17:21)

게스트

저스틴 보그만(Justin Borgman), Starburst CEO 겸 회장

Justin Borgman은 빅 데이터 및 분석에 관한 모든 분야의 전문가입니다. Starburst를 창립하기 전에는 Teradata(NYSE:TDC)에서 부사장 겸 GM으로 재직하면서 회사의 Hadoop 제품 포트폴리오를 담당했습니다. Justin은 2014년 공동 창업자이자 CEO였던 Hadapt를 인수하여 Teradata에 합류했습니다. Hadapt는 Hadoop을 파일 시스템에서 모든 BI 도구에서 액세스할 수 있는 분석 데이터베이스로 바꾸는 "SQL on Hadoop"을 만들었습니다. 그는 2017년에 Starburst를 설립하여 분석가가 성능 저하 없이 위치에 관계없이 다양한 데이터 세트를 분석할 수 있는 자유를 제공하고자 했습니다.

호스트

Dinesh Chandrasekhar는 기술 전도사이자 사고의 리더이자 노련한 IT 산업 분석가입니다. 30년에 가까운 경험을 보유한 Dinesh는 복잡한 아키텍처를 가진 고객을 위해 정교한 솔루션을 제공하고 마케팅하는 SaaS 제품은 물론 B2B 엔터프라이즈 소프트웨어 분야에서 일해 왔습니다. 그는 또한 LogicMonitor, Cloudera, Hortonworks, CA Technologies, Software AG, IBM 등과 같은 다양한 회사에서 여러 고성장 제품을 시장에 출시하기 위해 매우 성공적인 GTM 전략을 정의하고 실행했습니다. 그는 다작의 연설자이자 블로거이며 주말 코더입니다. Dinesh는 산타클라라 대학교에서 MBA 학위를, 마드라스 대학교에서 컴퓨터 응용 석사 학위를 취득했습니다. 현재 Dinesh는 고객 중심 비즈니스 전략 컨설팅 및 풀스택 마케팅 서비스 회사인 Stratola라는 회사를 직접 운영하고 있습니다.

리소스

Smart Talk 에피소드 7:관찰 가능성의 카디널리티, 제어 및 비용

Smart Talk 에피소드 6:AIOps와 IT 모니터링의 미래

Smart Talk 에피소드 5:관찰 스택의 분리

Smart Talk 에피소드 4:실시간 데이터 및 벡터 데이터베이스

Smart Talk 에피소드 3:최신 데이터 파이프라인 및 LLM

Smart Talk 에피소드 2:이동 중인 데이터를 갖춘 GenAI 애플리케이션의 부상

Smart Talk 에피소드 1:이동 중인 데이터 생태계 환경

여기에서 이동 중인 데이터 생태계 지도를 확인하세요.

여기에서 RTInsights의 이동 데이터에 대해 자세히 알아보세요.

스크립트

디네시 찬드라세카르:

안녕하세요, 데이터 및 모션 리더십 시리즈의 Smart Talk 에피소드에 오신 것을 환영합니다. 저는 여러분의 호스트이자 Stratola의 수석 분석가이자 창립자인 Dinesh Chandrasekhar입니다. 오늘 손님은 Starburst의 CEO이자 회장인 Justin Borgman입니다. Justin은 보안 및 데이터 분석 회사에서 뛰어난 경력을 갖고 있으며 2017년 Starburst를 설립하기 전에 Had Adapt라는 회사를 설립했습니다. 나중에 Teradata에 인수되어 꽤 오랫동안 VP 및 GM으로 재직했습니다. 저스틴을 환영합니다. 그럼 Starburst부터 시작해볼까요? 많은 분들이 스타버스트를 브랜드로 알고 계시지만, 스타버스트에 대해 조금 더 알고 싶어하는 분들도 꽤 많은 것 같아요. Starburst에 대해, 특히 그 기원과 회사를 시작하게 된 계기에 대해 알려주십시오.

저스틴 보그먼:

응, 다행이다. 서두에서 말씀하셨듯이 저는 Teradata에 인수된 첫 번째 스타트업부터 약 15년 동안 데이터 분석 분야에 종사해 왔습니다. 물론 청중이 알고 있듯이 Teradata는 솔직히 수십 년 동안 데이터 웨어하우징 분석 분야의 선두주자였습니다. 그리고 이 모델에서는 모든 데이터를 엔터프라이즈 데이터 웨어하우스인 독점 데이터베이스로 이동해야 했습니다. 그리고 거기에서 빠른 분석을 실행하고 비즈니스를 이해할 수 있습니다. 우리가 본 것은 기본적으로 특히 두 가지 측면에서 그 모델을 근본적으로 바꿀 수 있는 기회라고 생각합니다. 첫째, 데이터 레이크에서 개방형 테이블 형식을 활용하여 데이터 웨어하우징 성능을 제공하는 기능입니다. 그러나 데이터 레이크에서는 오늘날 사람들이 이것을 레이크하우스 아키텍처라고 부르며, 다른 데이터 소스에 접근하고 다른 데이터베이스에 있는 테이블을 해당 데이터 레이크에 있는 테이블과 조인할 수 있습니다.

예를 들어 Oracle 데이터베이스 또는 SQL Server 데이터베이스가 있고 해당 시스템 중 하나의 테이블을 데이터 레이크의 Iceberg 파일 형식의 테이블과 조인하려고 할 수 있습니다. 이것이 바로 우리의 기술이 하는 일입니다. Trino라는 기반 기술입니다. 오픈 소스 프로젝트입니다. 이는 원래 Facebook에서 탄생했으며 LinkedIn, Airbnb, Netflix, Apple 등 수많은 대형 인터넷 기업이 자체 데이터 웨어하우징 분석을 수행하는 정도입니다. 다시 말하지만, 데이터 레이크가 매우 낮은 소유 비용을 얻을 수 있는 중앙 저장소인 해당 모델에서는 이러한 데이터 레이크에 데이터를 저장하고 다른 테이블에도 조인할 수 있습니다. 따라서 실제로 Starburst는 해당 오픈 소스 프로젝트의 상용화일 뿐입니다. 우리는 추가 보안 기능, 추가 커넥터, 추가 성능 이점, 기타 다양한 기능을 갖춘 기업용 Trino 버전을 제공합니다.

디네시 찬드라세카르:

감사합니다. 그리고 저는 확실히 Trino와 Iceberg와 그 모든 것에 대해 조금 더 깊이 들어가고 싶습니다. 오늘의 주제는 모두 훌륭한 주제라고 생각합니다. 하지만 조금 뒤로 물러서서 데이터 아키텍처의 진화를 살펴보면 기존 데이터베이스와 데이터 웨어하우스가 등장했고, 데이터가 폭발적으로 증가하고 더 많은 실시간 데이터를 처리해야 하는 필요성과 함께 레이크하우스 아키텍처 등이 생겨났는지 물어봐도 될까요? 그렇다면 귀하의 세계에서 데이터 아키텍처, 데이터 레이크하우스의 진화를 살펴보면서 귀하의 경우에는 Icehouse라는 개념도 있다고 생각하는데, 이것이 실시간 데이터를 효과적으로 처리하는 조직의 능력에 어떤 영향을 미쳤습니까?

저스틴 보그먼:

네, 좋은 질문이에요. 청취자들에게 명확히 설명하자면, 아이스하우스 개념은 실제로는 빙산에 기반을 둔 호숫가에 불과합니다. 따라서 데이터는 빙산 테이블 형식으로 저장되며 그 위에 데이터 웨어하우징 스타일 분석을 수행할 수 있습니다. 그 결과, 귀하가 설명한 대로 거의 실시간에 가까운 데이터를 처리할 수 있을 뿐만 아니라 매우 낮은 총 소유 비용을 제공합니다. 그리고 우리가 생각하는 방식은 예를 들어 Kafka와 같은 시장에서 스트리밍 데이터 기술의 양이 엄청나게 증가하고 있다는 것입니다. 고객은 이를 사용하여 거의 실시간으로 데이터 레이크로 데이터를 스트리밍하고 있습니다.

그리고 우리의 관점에서는 그것이 바로 우리가 선택하고 싶은 부분입니다. 우리는 Kafka 스트림에 연결할 수 있는 스트리밍 수집이라는 기능을 구축했으며 이를 자동으로 Iceberg 테이블로 변환하여 거의 즉시 쿼리할 수 있도록 합니다. 따라서 이제 기업은 이 아키텍처의 결과로 데이터에 대해 훨씬 더 빠르고 새로운 통찰력을 얻을 수 있습니다.

디네시 찬드라세카르:

감사합니다. 따라서 Lakehouse는 배치 및 실시간 분석을 위한 매우 통합된 아키텍처 접근 방식이 될 것을 확실히 약속합니다. 이러한 아키텍처 변화가 오늘날 산업 전반에 걸쳐 BI와 전통적인 의사결정을 어떻게 변화시키고 있다고 말할 수 있습니까? 어떻게 바뀌었나요?

저스틴 보그먼:

네, 상황이 꽤 극적으로 변하는 걸 봅니다. 저는 이 아키텍처의 원동력이자 이점 중 하나가 경제성만큼 간단하다고 생각합니다. 결국 기존 데이터 웨어하우스의 가격은 매우 높아질 수 있습니다. 실제로 이는 제가 Teradata에 근무하는 동안 가장 큰 불만 사항 중 하나였을 것입니다. 누구도 Teradata가 나쁜 데이터베이스라고 말한 적이 없습니다. 실제로 훌륭한 데이터베이스 시스템입니다. 그것은 극도로 비용이 많이 들고 일단 들어가면 참여하고 일종의 헌신을하게됩니다.

따라서 이 데이터 레이크를 사용하면 개방형 형식을 사용하므로 고객이 내 데이터에 액세스하는 데 적합한 엔진을 선택할 수 있으므로 더 큰 유연성을 얻을 수 있습니다. 이는 많은 유연성을 제공하고 종속성을 줄여줄 뿐만 아니라 매우 저렴한 상용 스토리지에 데이터를 저장할 수 있게 해줍니다. 클라우드 환경에서는 S3, Google GCS 또는 Azure Data Lake 스토리지가 점차 늘어나고 있습니다. 온프레미스 환경에서도 Dell이나 IBM과 같은 회사에서 S3 호환 개체 스토리지를 볼 수 있으며 기본적으로 S3를 구입할 수 있습니다. 따라서 이는 매우 비용 효율적으로 데이터를 저장하기 위한 일종의 공통 기반 계층이 되며 이러한 변화를 주도하는 요소의 일부입니다.

디네시 찬드라세카르:

자, 이제 들어가 보겠습니다. 이제 이것이 귀하가 제공하는 서비스의 원동력과 비슷하다고 생각하므로 수년 동안 실시간 데이터 공간에서 매우 강력한 쿼리 엔진으로 인기를 얻었습니다. 현대 데이터 생태계에서 그 역할이 어떻게 진화하고 있다고 보시나요? 특히 말씀하신 것처럼 Apache Iceberg와 같은 다른 오픈 소스 기술도 있는데, 이는 서로 다른 데이터 시스템 간의 많은 상호 운용성을 제공합니다. 그렇다면 이것이 다른 오픈 소스 기술과 어떻게 결합되어 현대 데이터 생태계를 변화시켰습니까?

저스틴 보그먼:

내 생각엔 이것이 일종의 데이터 웨어하우징의 Postgres가 되어가고 있는 것 같습니다. 물론 Postgres는 널리 배포되고 매우 인기 있는 오픈 소스 데이터베이스입니다. 이는 전통적인 R-D-B-M-S 단일 노드입니다. Trino는 일종의 MPP 대규모 병렬 처리 데이터 웨어하우징 분석 도구와 같습니다. 따라서 빅 데이터, 데이터 웨어하우징 스타일 활동의 경우 이는 이제 사실상의 오픈 소스 선택이 되고 있습니다.

이제 사람들은 "비교하면 스파크는 어떤가요?"라고 묻곤 합니다. Spark는 훌륭한 범용 처리 엔진이지만 실제로 SQL 분석에 최적화되어 있지는 않습니다. 앞서 비즈니스 인텔리전스와 의사 결정에 관해 말씀하신 것처럼 SQL은 여전히 BI 도구 연결, 보고 실행, 데이터 기반 애플리케이션 구축 등 이러한 유형의 사용 사례에 사용되는 언어입니다. SQL은 계속해서 인터페이스에 매우 중요한 언어이며, Trino는 오늘날 시장에서 이를 위한 최고의 엔진입니다.

말씀하신 대로 이를 Iceberg와 결합하면 이제 본질적으로 완전한 데이터 웨어하우스를 갖게 됩니다. 쿼리 엔진 부분과 스토리지 부분, 그리고 이제 완전한 개방형 데이터 웨어하우스를 갖게 되었습니다. 또한 어디에서나 실행될 수 있고, 온프레미스에서도 실행될 수 있으며, 클라우드에서도 실행될 수 있습니다. 따라서 해당 스택에 대한 유연성이 뛰어납니다.

디네시 찬드라세카르:

조금 다른 질문을 해도 될까요? Since you mentioned SQL as kind of the go-to for a lot of these data stores these days, and I believe that in the last 30, 40 years, nothing has been able to shake that for sure, but with the advent of gen AI technologies and natural language processing everywhere, people are now able to talk about data democratization where you now distribute it to even business analysts that don’t have probably equal knowledge, but can use natural language to way to say, get me the last three months of sales within this particular region and so 앞으로.

그리고 내부적으로는 분명히 이를 SQL로 변환한 다음 엔진 등을 쿼리합니다. 그렇죠? 그럼 그 변화도 보이나요? SQL은 계속 번창하고 살아남을 것인가, 아니면 앞으로 쿼리 데이터를 보는 방식에 변화가 있을 것인가?

저스틴 보그먼:

정말 좋은 질문이군요. 제 생각엔 당신이 거기에 관심이 있는 것 같아요. 시간이 지남에 따라 생성 AI는 인터페이스로서 매우 인기를 얻게 될 것이라고 생각합니다. 왜냐하면 당신의 관점에서는 누구나 솔직하게 사용할 수 있기 때문에 일종의 바보 같은 것이기 때문입니다. 이제 기업의 모든 데이터에 대한 Google 경험이 더욱 많아졌습니다. 이는 매우 흥미로운 일입니다. 사실, 우리는 그것의 초기 버전을 우리 제품에 통합했고 모두가 그럴 것이라고 생각합니다. 그것은 테이블 스테이크가 될 것입니다.

하지만 내 생각에는 이러한 기술이 실제로는 엔진이 실제로 실행될 수 있도록 자연어를 SQL 구문으로 변환하는 것일 뿐입니다. 따라서 언어는 여전히 중요할 것이라고 생각하지만 생성적 AI 자연어 스타일 인터페이스 뒤에 있는 구현 세부 사항에 더 가깝다고 생각합니다. 내 생각엔 당신이 딱 맞는 것 같아요. 계산기나 그래프 계산기가 발명되었을 때 갑자기 우리는 모든 공식을 알 필요가 없었고 장제법을 정확히 어떻게 하는지 계산기가 알아서 처리해 주었기 때문에 그런 생각이 들었습니다. 제 생각에는 생성 AI가 우리에게 해 줄 일이 바로 이것이라고 생각합니다.

디네시 찬드라세카르:

확실히 데이터에 더 쉽게 액세스할 수 있습니다. 나는 그것이 우리가 향하는 곳이라고 생각합니다. 확실히 흥미로운 공간입니다. 그래서 우리는 Trino에 대해 이야기했습니다. 기어를 바꿔서 아이스버그에 대해 다시 물어봐도 될까요? 그것은 매우 인기를 얻고 있습니다. 저는 업계의 더 큰 거대 기업들이 우리가 상호 운용 가능하고 지원한다는 등을 말하는 매우 자연스러운 방법으로 빙산을 채택하기 시작했다고 봅니다. 그렇다면 조직에서 점점 더 실시간 분석을 채택함에 따라 보다 효율적이고 확장 가능한 데이터 관리를 가능하게 하는 빙산의 역할은 무엇입니까? 이에 대한 귀하의 의견은 어떻습니까?

저스틴 보그먼:

응, 큰일인 것 같아. 저는 이것이 2024년 AI 외에 가장 큰 이야기라고 생각합니다. 그리고 제가 그렇게 말하는 이유는 이 형식이 몇 년 동안 존재해 왔지만 실제로 올해는 어떤 형식이 승리할 것인지에 대한 논쟁이 시장에서 어느 정도 해결되었기 때문입니다. 세 가지 인기 있는 경쟁 형식이 있었던 짧은 기간이 있었는데, 누가 이길 것인가 하는 질문이 있었습니다.

우리의 내기는 항상 Iceberg였습니다. 저는 우리가 이런 식으로 갈 것이라고 예측했다고 말하고 싶습니다. 그러나 이번 여름 Snowflake와 Databricks가 이를 지원하겠다는 자체 의도를 발표했을 때 시장은 일종의 동의를 했다고 생각합니다. 그리고 그것은 Iceberg가 사실상의 표준이고 그것이 고객에게 하는 일과 같은 논쟁을 죽였습니다. 고객은 지금까지 이 분야의 진정한 승자입니다. 이는 이제 그들이 소유하고 제어하는 형식으로 데이터를 저장할 수 있기 때문입니다. 이 형식은 앞으로 수십 년 동안 인질로 잡히게 될 일부 데이터베이스 공급업체의 손에 있지 않습니다.

그들은 그것을 소유하고 있으며 이는 서로의 엔진을 작동시킬 수 있음을 의미합니다. 그들은 Starburst가 저에게 최고의 비용 대비 성능을 제공할 이 워크로드를 수행할 것이라고 말할 수 있습니다. 어쩌면 Snowflake가 이 작업 부하에 더 적합할 수도 있습니다. 어쩌면 Databricks가 해당 워크로드에 더 적합할 수도 있고 고객이 이러한 엔진 중에서 선택할 수 있다는 것은 놀라운 일입니다. 엔진이 경쟁하면 고객으로서 승리할 수 있으며 이것이 바로 Iceberg가 제공하는 서비스라고 생각합니다.

디네시 찬드라세카르:

그러나 그것은 훌륭한 요약이었습니다. 기업들이 모든 사람이 더 상호 운용 가능하고 특정 공급업체에 얽매일 필요 없이 고객에게 혜택을 주고 좀 더 개방적이고 유연하게 할 수 있는 모델로 표준화하고 있기 때문에 이를 통해 빙산의 중요성이 분명해졌다고 생각합니다. 확실히 좋은 지적이네요.

저스틴 보그먼:

바로 그거예요.

디네시 찬드라세카르:

Justin, 오늘 대화의 중심은 Trino와 Iceberg이기 때문에 여기에서는 고객 사례에 대해 이야기해 보는 것이 어떨까요? 실제로 사용된 고객 사례 연구와 Trino와 Iceberg를 채택하여 그들이 확인한 이점에 대해 말씀해 주세요.

저스틴 보그먼:

기뻐요. DoorDash와 같은 선도적인 인터넷 회사부터 Comcast와 같은 보다 전통적인 기업에 이르기까지 두 경우 모두 전통적인 데이터 웨어하우스 플랫폼에서 벗어나 워크로드를 전통적인 데이터 웨어하우스 플랫폼에서 시작하는 사례가 많이 있습니다.

Comcast의 경우 매우 전통적인 온프레미스 데이터 웨어하우스입니다. DoorDash의 경우 매우 전통적인 클라우드 데이터 웨어하우스라고 부를 수 있습니다. 두 경우 모두 궁극적으로 그들이 하려는 것은 SQL 분석에서 더 나은 TCO를 얻고 이 하나의 공통 형식에서 인터페이스할 수 있는 최신 최첨단 기술로 작업할 수 있는 유연성을 제공하는 것입니다.

다시 한 번 이전 요점을 말씀드리자면, 그들이 하려고 하는 것은 AI 주제와 관련이 있으며, 그들은 이제 자체 모델을 교육하거나 궁극적으로 AI 야망을 지원하기 위해 RAG 워크플로를 수행하는 데 필요한 데이터에 쉽게 액세스할 수 있는 데이터 아키텍처를 마련하기 위한 기반을 마련하고 있다고 생각합니다. 그리고 많은 기업이 AI가 나에게 무엇을 할 수 있는지 알아내는 초기 단계에 있다고 생각합니다. 이것이 어떻게 나에게 경쟁 우위를 제공할 수 있습니까?

그리고 그들이 그것을 알아내는 동안 그들 모두가 매우 분명하게 알고 있는 한 가지는 자신의 독점 데이터가 경쟁 우위를 제공하는 데 핵심이 될 것이라는 것입니다. 따라서 저비용 고성능 방식으로 필요한 것에 액세스할 수 있는 데이터 인프라를 설정하는 것이 해당 프로세스의 핵심 단계입니다.

디네시 찬드라세카르:

따라서 이점을 얻으려면 해당 항목을 두 번 클릭하고 특히 실시간 데이터에 대해 말하거나 물어봐도 됩니다. 소스가 변경됨에 따라 스키마에 대한 스키마 진화 변경, 대상이 적응해야 하는 등의 문제가 발생하는 경우가 많으며 데이터 버전 관리도 마찬가지입니다. Apache Iceberg는 이와 같은 최신 데이터 플랫폼에서 이러한 문제를 해결하는 데 어떻게 도움이 됩니까?

저스틴 보그먼:

따라서 버전을 관리하고 시간 여행을 하며 우리 플랫폼 내에서 데이터가 어떻게 발전했는지 확인할 수 있다는 개념이 있습니다. 또한 데이터 계보, 데이터 품질 측정항목을 추가하여 캡처하여 사용자에게 제공할 수 있으므로 해당 데이터가 어디서 왔는지, 어떻게 진화했는지, 어떻게 반복했는지 실제로 이해할 수 있으며 궁극적으로 최종 사용자에게 가시성을 다시 제공할 수 있습니다.

디네시 찬드라세카르:

알았어. 그런 다음 Trino와 함께 다양한 데이터 소스를 결합하고 공동 쿼리 등을 수행하는 방법에 대해 이야기했습니다. 아키텍처가 중앙 집중식 데이터 소스 또는 데이터 저장소로 더 많이 이동하고 있습니까? 아니면 현재 위치에 유지하면서 이들을 결합하고 소비자에게 가시성을 제공하는 기능을 제공하고 있습니까? 여기서 우리가 보고 있는 주 내 아키텍처는 무엇인가요?

저스틴 보그먼:

네, 좋은 질문이에요. 두 가지 요소가 모두 있으며, 사람들이 하나의 모델과 하나의 사고 방식에 익숙하기 때문에 이것이 우리 자신의 가치 제안을 표현하는 것조차 어렵게 만드는 이유라고 생각합니다. 이는 모든 것을 전통적인 데이터 웨어하우스에 중앙 집중화하거나 액세스할 수 없기 때문입니다. 그리고 우리가 세상이 진화하는 것을 보는 방식은 의심할 여지 없이 데이터 레이크가 될 중앙 저장소가 있을 것이라고 생각합니다. 이 저장소는 대부분의 데이터 또는 가능한 한 많은 데이터를 저장할 것입니다. 왜냐하면 경제적 이익을 얻을 수 있고 호수에 빙산 형식으로 최대한 많이 저장하여 성능상의 이점을 얻을 수 있기 때문입니다. 따라서 우리는 이것이 많은 데이터에 대한 훌륭한 전략이라고 생각하지만, 다른 데이터 소스에 접근하려는 사용 사례도 항상 있을 것이라고 생각합니다.

어쩌면 탐색적 분석일 수도 있습니다. 저는 우리 비즈니스에 정말 큰 도움이 될 수 있다고 생각되는 테스트를 하고 싶다는 가설만 가지고 있습니다. 하지만 단지 아이디어나 직감 때문에 모든 ETL 파이프라인을 개발하고 모든 프로세스를 거치고 싶지는 않습니다. 글쎄, 그것은 당신이 가지고 있는 것을 가지고 다른 곳에 있는 테이블에 참여할 수 있다는 것이 게임 체인저라는 훌륭한 사용 사례입니다. 실제로 팀이 필요한 방식으로 데이터를 이동하도록 하기 위해 몇 주가 아닌 몇 분 만에 해당 가설을 입증할 수 있습니다. 그래서 저는 둘 다 가치 있다고 생각합니다. 하지만 우리는 그것을 호수의 대다수라고 생각하고 그 호수 너머에 도달하는 것이 우리가 생각하는 방식입니다.

디네시 찬드라세카르:

그렇다면 제가 최신 데이터 플랫폼을 찾고 있는 제3자 기업이라면 Trino와 다른 대안을 살펴볼 때 체크리스트에 포함하고 싶은 중요한 성능 고려 사항은 무엇입니까? 그렇다면 내 우선 순위는 실시간 데이터 쿼리를 처리하고 대기 시간이 짧은지 확인하는 것입니다. 이것이 내 요구 사항입니다. 체크리스트에 포함하고 싶은 고려 사항은 무엇입니까?

저스틴 보그먼:

응. 제가 드릴 수 있는 가장 중요한 두 가지 조언은 첫째, 실제로 사용하는 실제 쿼리를 사용하라는 것입니다. 사람들이 업계 벤치마크를 사용하는 것은 매우 흔한 일이라고 생각합니다. 이는 매우 피상적인 단계일 수도 있지만 작업 부하를 반영하지는 않습니다. 결코 그렇지 않습니다. 모든 회사에는 자신이 하려고 하는 일이 있습니다. 따라서 가능한 한 최선을 다해 최종 상태를 시뮬레이션하는 것이 항상 가장 좋습니다.

이는 자체 개념 증명을 통합하고 벤치마킹을 수행할 때 자체 쿼리와 데이터를 활용하는 것을 의미합니다. 절대로 다른 벤더의 벤치마크를 독점적으로 신뢰해서는 안 됩니다. 심지어 우리 자신도요. 우리는 그것들을 가지고 있고 여러분이 볼 수 있지만 실제로 여러분 자신의 쿼리와 자신의 데이터를 사용하여 직접 테스트해야 합니다.

두 번째로 말씀드리고 싶은 것은 규모와 규모를 시뮬레이션하는 것이 중요하다는 것입니다. 왜냐하면 POC 프로세스에서 고객이 구매한 공급업체를 교체할 수 있는 기회를 고객과 함께 찾을 수 있기 때문입니다. 고객은 공급업체가 자신의 요구 사항을 충족한다고 생각했지만 실제 생산 규모에 이르자 처리할 수 없었습니다.

그리고 이것이 바로 제가 생각하기에 Trino와 같은 오픈 소스 기술을 활용하면 큰 이점이 있다고 생각합니다. 이는 Apple이 미친 규모, 분명히 Facebook의 미친 규모로 실행하는 것처럼 상상할 수 있는 가장 큰 규모로 입증되었습니다. 그래서 이 물건은 작동할 수 있습니다. 그 규모로 작동합니다. 그러면 마음의 평화를 얻을 수 있을 것입니다. 그러나 그럼에도 불구하고 이러한 다양한 기술이 프로덕션 환경의 요구 사항을 충족하는지 실제로 확인하려면 자체 벤치마킹 프로세스에서 직접 시뮬레이션해 보아야 합니다. 시원한.

그리고 제가 추가할 세 번째 부분은 비용입니다. 비용도 너무 중요하죠? 비용과 성능은 실제로 동전의 양면에 불과합니다. 벤치마킹에서도 이를 고려해야 합니다. 그렇죠? 가장 빠른 것을 선택하지는 않을 것입니다. 최고의 가성비를 선택하고 싶습니다. 따라서 이는 구성 요소의 중요한 부분이기도 합니다.

디네시 찬드라세카르:

동의합니다. 나는 그것이 확실히 솔루션을 평가하고 있는 많은 사람들을 위한 주요 체크리스트 항목이라고 생각합니다. 그렇다면 트렌드 관점에서 이 문제를 마무리하겠습니다. 다만 묻고 싶은 것은 오늘날 데이터 공간에서 많은 일이 일어나고 있다는 것입니다. 그렇죠? 따라서 데이터 웨어하우스 공급업체, 레이크하우스 공급업체, 데이터 레이크 공급업체 및 여러 대안, 실시간 분석 데이터베이스 등이 있습니다.

구매자에게는 선택의 폭이 넓고 혼란스럽습니다. 그렇다면 새로운 트렌드 관점에서 실시간 데이터 처리, 방금 언급한 데이터 레이크하우스 아키텍처, 일반적인 오픈 소스 생태계와 관련하여 일종의 융합이 일어나고 있다고 보시나요? 가까운 시일 내에 구매자에게 더욱 명확해질 수 있는 어떤 종류의 융합이 발생하고 있습니까?

저스틴 보그먼:

그렇습니다. 우리는 매우 인기 있는 패턴이 자주 등장하는 것을 보기 시작했다고 생각합니다. 이러한 패턴은 인터넷, 하이퍼스케일러에서 시작되어 시간이 지남에 따라 기업으로 변환됩니다. 그리고 이제 우리는 그것이 기업에 진출하는 지점에 와 있다고 생각합니다. 그리고 제가 본 패턴은 스트리밍 부분에 Kafka와 같은 기술을 활용하는 것입니다. 물론 거기에는 다양한 선택이 있습니다. Confluent를 사용할 수 있고 Amazon 버전을 사용할 수 있습니다. 이러한 모든 오픈 소스 플랫폼을 선택할 수 있다는 것은 훌륭한 일입니다. 확실히 Iceberg는 데이터를 저장하는 형식에 대해 가능한 가장 안전한 선택인 것 같습니다. 그런 다음 엔진 측면에서는 다시 올바른 작업에 적합한 엔진을 찾습니다. SQL Analytics라면 Trino와 Starburst가 가장 좋다고 생각합니다. 하지만 이를 스스로 입증해야 합니다.

기계 학습 모델을 훈련하는 경우에는 아마도 Spark를 사용할 것입니다. 이것이 바로 우리가 보는 패턴입니다. 저는 이 네 가지 기술 모두 앞으로 수년 동안 오픈 소스 기반 데이터 아키텍처에서 엄청나게 인기를 끌 것이라고 생각합니다. 그리고 오픈 소스는 시간이 지남에 따라 구성 요소를 혼합하고 일치시킬 수 있는 유연성을 제공하므로 아키텍처가 시간의 테스트를 견딜 수 있게 해줍니다. 그리고 내 생각에 당신이 정말로 하고 싶은 일은 지금으로부터 10년 후에 정말 힘든 시간을 보내게 될 기술적 부채를 만드는 것이 아니라고 생각합니다. 오픈소스는 이러한 유연성을 제공합니다.

디네시 찬드라세카르:

그 점이 마음에 듭니다. 감사합니다. 내 생각엔 이 훌륭한 메모로 이 일을 마무리해야 할 것 같아요. 저스틴 씨, 오늘 우리와 함께해주셔서 정말 감사드립니다. 저는 Trino와 Iceberg에 대해 더 많이 이해하고 Starbust가 귀하의 플랫폼에서 두 세계의 장점을 결합한 환상적인 플랫폼을 어떻게 제공하는지를 이해하는 훌륭한 대화였다고 생각합니다. 정말 감사하고 우리와 함께해주셔서 감사합니다.

저스틴 보그먼:

고마워요, 디네쉬. 정말 즐거웠습니다.

AI와 지식 그래프를 활용하여 건설 산업을 변화시키다 산업 혁명:제조 분야 IT/OT 통합의 미래

사물 인터넷 기술