산업 제조
산업용 사물 인터넷 | 산업자재 | 장비 유지 보수 및 수리 | 산업 프로그래밍 |
home  MfgRobots >> 산업 제조 >  >> Industrial Internet of Things >> 사물 인터넷 기술

The Argot of the Ace:빅 데이터 애호가를 위한 일반적인 용어

빅 데이터에는 큰 단어가 포함되어 있습니다. 일반적인 데이터 용어를 잘 이해하면 이해하는 데 도움이 될 뿐만 아니라 데이터 이니셔티브에 대한 대화에 참여하고 영향을 미칠 수 있습니다. www.datamakespossible.com에서 데이터 진화와 혁명에 대한 중요한 토론을 확인하십시오.

알겠습니다. 이제 시작하여 이전에 들었던 몇 가지 용어를 이해하고 완전히 새로운 용어를 소개하겠습니다.

데이터 과학자

과학, 비즈니스 및 예술의 동등한 부분을 결합하는 데이터 과학자는 알고리즘, 도구 및 프로세스에 대한 지식을 사용하여 데이터에서 일부 가치를 추출합니다. 데이터 과학자는 종종 데이터 세트를 마이닝, 그룹화 또는 분석하기 위해 기계 학습 또는 인공 지능을 실행합니다.

이분산 및 이분산 데이터

이종무엇 ? 이것은 당신에게 새로운 용어 일 수 있으므로 이것이 의미하는 바에 대한 매우 기본적인 예를 살펴 보겠습니다.

일부 데이터는 일정함입니다. 그리고 절대 변하지 않습니다. 어제의 웹로그는 일정합니다. 우리가 시간 여행을 발명할 때까지 당신은 과거로 돌아가 누군가가 어제 한 일을 바꿀 수 없을 것입니다.

데이터에 대한 다음 수준의 복잡성은 선형입니다. <나>. 대기열 또는 음성 메일은 선형 증가의 예입니다. 한 작업자가 시간당 10개의 메시지를 처리할 수 있다면 시간당 50개의 메시지를 처리하려면 다섯 명의 작업자가 필요합니다. 2차로 증가하는 데이터 패션은 4배(또는 그 이상)의 속도로 성장할 것입니다. 소셜 미디어를 예로 들 수 있습니다. 게시물을 작성하면 4명, 10명, 100명 또는 수백만 명이 읽을 수 있습니다. 그 사람들은 귀하의 게시물을 공유하거나 댓글을 달거나 매초마다 변경되는 일부 메타데이터를 생성할 수 있습니다. 여기서 우리는 이분산성에 들어가기 시작합니다. 이것은 높은 변동성과 함께 빠른 속도(빠르게 움직이고 변경됨)로 정의됩니다(즉, 누가 댓글을 달고, 게시물을 공유하고, 좋아하는지 또는 응답 속도가 얼마인지 예측하는 쉬운 방법이 없음).

또 다른 훌륭한 비유는 요리입니다. 식사를 요리할 때 우리는 (바라건대) 맛있는 것을 만들기 위해 다양한 방법으로 재료를 결합하고 있습니다. 요리를 해 본 사람이라면 알겠지만, 소금을 조금 더하거나, 너무 오래 2분 동안 요리하거나, 토마토를 너무 크거나 작게 자르는 등의 사소한 변화가 결과와 최종 레시피의 수렴에 지대한 영향을 미칠 수 있습니다. 그 시그니처 요리를 위해.

이 용어를 사용한 적이 없더라도 이분산성은 산업용 IoT 워크로드에서 점점 더 많이 접하게 될 것입니다. 스트리밍과 같은 고속 데이터를 처리할 때나 Google 웹 크롤러가 트래버스하는 HTML 페이지와 같이 빠르게 변화하는 비정형 데이터를 자주 처리할 때 특히 그렇습니다.

머신 러닝

기계 학습(ML)은 컴퓨터가 데이터 모델의 엄격한 교육을 통해 원시 데이터에서 패턴을 인식하고 추출할 수 있도록 하는 컴퓨터 과학 분야입니다.

ML은 "빅 데이터의 3가지 C"(분류, 클러스터링 및 협업 필터링)를 가능하게 합니다.

분류는 카테고리가 이미 식별된 해당 패턴 또는 인스턴스를 포함하는 데이터의 훈련 세트에 새로운 패턴이 속하는 카테고리/하위 카테고리 또는 인구/하위 인구 세트를 식별하는 문제입니다. 그리고 알려진. 예를 들어, 분류에는 일련의 MRI 스캔에서 종양을 인식하도록 알고리즘을 훈련시킨 다음 종양이 있는 다른 스캔을 식별하도록 알고리즘에 요청하는 것이 포함될 수 있습니다.

클러스터링은 원시 데이터 포인트를 세트 또는 "클러스터"로 그룹화하는 것을 포함합니다. 예를 들어 웹 로그에서 실시간으로 실행되는 ML 알고리즘이 하나의 범주에서 유효한 트래픽(허용)을 그룹화하고 다른 범주에서 가능한 공격(차단)을 그룹화할 수 있습니다.

공동 필터링은 "추천"을 의미하는 멋진 단어입니다. 예를 들어 서로 약간의 친화성을 보이는 제품을 결정하고 표시하는 것이 있습니다.

ML에서 수행하는 대부분의 작업을 "얕은 학습"이라고 합니다. 딥 러닝은 일반적으로 진정한 인공 지능의 구성 요소입니다.

인공 지능

인공 지능(AI)은 컴퓨터에 심층 인지 분석을 수행할 수 있는 기능을 제공하여 ML을 포괄하고 확장합니다.

ML은 일반적으로 알고리즘 생성, 조정 또는 훈련 방식에 일종의 초기 인간 개입(예:컴퓨터에 종양 스캔 제공)을 포함하는 반면 AI는 컴퓨터가 선택, 조정 및 학습할 수 있도록 합니다. 특정 기능을 수행하도록 스스로를 훈련합니다. 궁극적으로 AI는 딥 러닝을 사용하여 인간의 의사 결정 및 학습 프로세스를 에뮬레이트합니다.

당신은 그것을 깨닫지 못할 수도 있지만, AI는 아마도 당신의 일상 생활의 일부일 것입니다. 이에 대한 자세한 내용은 아래 NLP 정의를 참조하세요.

가상 현실

가상 현실(VR)을 통해 사용자는 실제 환경과 완전히 다른 모양과 소리가 나는 가상 세계에 들어갈 수 있습니다.

VR은 가상 롤러코스터와 같은 엔터테인먼트 경험을 가능하게 하지만 중요한 상업적 응용 프로그램도 있습니다. VR에는 일반적으로 디지털 디스플레이 헤드셋이 필요합니다.

증강 현실

증강 현실(AR)은 실제 세계 위에 디지털 인공물을 오버레이하여 상호 작용을 가능하게 하려고 노력합니다. 최근 AR은 게임플레이 앱의 인기와 함께 큰 성공을 거두었습니다.

자연어 처리

자연어 처리(NLP)를 통해 컴퓨터는 인간의 문자 또는 음성 언어를 구문 분석하고 이해할 수 있습니다. 전화나 집에 전화를 걸면 NLP를 경험했을 것입니다.

NLP는 심층 학습과 얕은 학습의 차이점을 설명하기에 좋은 곳입니다. 1세대 NLP(얕은 학습)는 문장을 토큰(단어)으로 나눈 다음 토큰에 몇 가지 규칙을 적용하는 데 중점을 둡니다. 그러나 오늘날의 딥 러닝 NLP는 진술의 전체 컨텍스트를 살펴보고 진정한 의미를 추론합니다.

웹 리뷰를 작성한다고 상상해 보십시오. 얕은 학습은 단순히 "리뷰 평점 별 수" 및 기본 "감정 분석"과 같은 제한된 수의 데이터 토큰을 살펴봅니다. 이것은 긍정적인 단어와 부정적인 단어의 수를 세는 것을 포함할 수 있습니다. 이러한 데이터 포인트는 리뷰가 긍정적인지 부정적인지에 대한 결론에 도달하기 위해 종종 깨지기 쉬운 규칙 집합을 통해 제공됩니다.

딥 러닝 엔진은 이 분석에 더 많은 지능을 적용합니다. 이는 인간이 동일한 리뷰를 읽을 때 추측할 수 있는 것과 거의 같습니다. 예를 들어, 리뷰에 별 5개 등급, 긍정적인 긍정적인 대 부정적인 카운트 비율 등과 같은 많은 "긍정적인" 항목이 있는 경우 얕은 NLP 엔진은 그것이 긍정적인 리뷰라고 결론을 내릴 수 있습니다. 그러나 딥 러닝 NLP 엔진은 "이 제품을 다시는 구매하지 않을 것입니다."를 읽고 리뷰가 실제로 부정적이라고 (인간처럼) 해석할 수 있습니다. 그 문장만으로도 사용자가 제공했을 수 있는 긍정적인 감정을 부정합니다.

이미지 인식

이미지 인식을 통해 컴퓨터는 단순한 시각적 이미지에서 의미를 추측할 수 있습니다. 공급자의 ML 또는 AI 제품(NLP와 함께)에 자주 번들로 제공됩니다.

이미지 인식을 통해 컴퓨터는 광학 문자 인식 또는 OCR(광고판의 텍스트), 태그 개체(예:"산", "나무", "자동차", "초고층 빌딩")를 사용하여 서면 언어와 같은 개체를 식별할 수 있습니다. 그리고 얼굴 분석을 수행할 수도 있습니다(예:얼굴 주위에 경계 상자 그리기).

이미지 인식은 피로감을 느낄 수 있는 운전자를 감지하고 경고하기 위해 얼굴 분석을 적용함으로써 현재 자동차 산업에서 완전히 새로운 수준으로 발전하고 있습니다.

정형, 비정형, 반정형 데이터

역사적으로 우리가 작업한 데이터의 대부분은 구조화되어 있었습니다. 즉, 데이터베이스와 같은 행/열 형식에 잘 맞습니다. 결과적으로 많은 컴퓨터 시스템이 이러한 형태의 데이터를 수집하고 생성하도록 설계되었습니다.

인간은 다른 짐승입니다. 우리는 자유롭게 흐르는 텍스트, 음성 및 카메라 스냅샷과 같은 이미지와 같은 비정형 데이터를 생성하고 사용하는 데 탁월합니다. 이 모든 데이터에는 본질적으로 "구조"가 없습니다. 우리는 특정 언어, 단어, 억양 등에 "의존"할 수 없습니다.

반구조화된 데이터는 중간에 위치합니다. 좋은 예가 이메일입니다. "제목", "받는 사람", "보낸 사람", "날짜"와 같은 구조를 갖지만 주요 페이로드는 이메일의 "본문"에 있는 구조화되지 않은 텍스트 덩어리입니다.

지난 10년 동안만 우리의 컴퓨터 시스템이 비정형 데이터에 대한 분석을 수행할 수 있을 만큼 강력해졌습니다.

데이터 레이크

Hadoop과 같은 모든 분석 엔진은 종종 긴밀하게 결합된 배열로 스토리지와 컴퓨팅을 모두 제공합니다. 더 많은 처리를 추가할 때마다 본질적으로 더 많은 스토리지가 추가됩니다.

그러나 많은 조직은 영구적으로 유지하고 싶지만 즉시 분석하지 못하는 산(페타바이트) 데이터에 앉아 있습니다. 지연되는 한 가지 이유는 분석 전에 데이터를 사전 처리하고 정리해야 하기 때문입니다.

데이터 레이크는 제한된 컴퓨팅 성능으로 어디서나 액세스 가능한 저비용의 내구성이 뛰어난 스토리지를 제공합니다. 한 번에 처리되는 것보다 훨씬 더 많은 데이터를 보유할 수 있습니다.

레시피 패러다임에서 데이터 레이크는 원시 재료(야채, 쌀, 부용)의 저장고와 같습니다. 요리를 하고 싶을 때만 레시피에 따라 올바른 재료를 선택하여 식사를 위해 준비합니다.

데이터베이스

일반적으로 "데이터베이스"라고 하는 것은 관계형 데이터베이스 관리 시스템(RDBMS) 또는 OLTP(온라인 트랜잭션 처리) 시스템이라고도 합니다. Oracle, MySQL, SQL Server가 모두 이에 대한 일반적인 예입니다.

(일반적으로) 최종 사용자로부터 발생하는 많은 소규모 "트랜잭션"이 RDBMS의 특징입니다.

소매 전자상거래 웹사이트를 생각해 보십시오. 주어진 순간에 수십만 명의 사용자가 제품을 탐색하고, 리뷰를 읽고, 주문을 생성할 때 작은 읽기(쿼리) 및 쓰기(삽입)를 수행하고 있습니다. 이러한 시스템이 이러한 쿼리를 매우 빠르게 수행할 것으로 예상됩니다.

데이터 웨어하우스

데이터 웨어하우스(엔터프라이즈 데이터 웨어하우스 또는 EDW라고도 함)는 회사에서 몇 가지 중요한 비즈니스 질문에 답하기 위해 분석을 실행하는 곳입니다. 가장 빠르게 성장하는 제품 라인은 무엇입니까? ROI가 가장 좋은 제품 카테고리는 무엇입니까? 실적이 가장 낮은 지역, 카테고리, 영업 사원 등은 무엇입니까?

EDW는 일반적으로 소수(아마도 수십 또는 수십)의 내부 사용자만 사용하며 대규모(수백 TB 또는 수십 PB) 데이터 세트에서 장기 실행 쿼리를 실행합니다.

시각화

시각화 도구는 복잡한 분석을 수행할 수 있는 시각적 프런트 엔드를 제공합니다.

간단한 드래그 앤 드롭을 사용하여 숙련되지 않은 인턴도 분기별 매출, 베스트 셀러 제품, 성장 등과 같은 복잡한 보고서를 작성할 수 있습니다.

이러한 시스템은 일반적으로 연결하려는 엔진에 모든 RDBMS 및 EDW가 제공하는 SQL 인터페이스가 있어야 합니다. 많은 데이터 분석가와 같은 경우 시스템과의 상호 작용 중 95%가 이러한 시각화 도구 중 하나를 통해 이루어집니다.

빅 데이터에서 찾을 수 있는 일반적인 용어에 대한 이 빠른 설명이 도움이 되었기를 바랍니다. 이제 전례 없는 데이터 증가의 시각화, 데이터 레이크 생성의 이점, ML 및 AI를 통한 이분산 데이터의 가치 실현이 세상을 완전히 변화시키는 방법에 대해 논의하여 정수기에서 사람들에게 깊은 인상을 남길 수 있습니다. 데이터가 세상에 미치는 영향이 궁금하십니까? 이제 용어를 사용했으므로 datamakespossible.com에서 토론에 참여하십시오.

이 기사는 Western Digital과 협력하여 작성되었습니다.

저자는 Western Digital의 펠로우이자 수석 데이터 과학자이며 반도체 제조와 함께 고급 분석 및 패턴 일치를 사용하여 빅 데이터 플랫폼, 제품 및 기술을 형성, 추진 및 구현하고 있습니다. 회사의 데이터.


사물 인터넷 기술

  1. EHS를 위한 IIoT 및 데이터 분석 솔루션의 이점
  2. 산업용 IoT 개발 전망
  3. 트릴레마:효과적인 변전소 운영을 위한 세 가지 팁
  4. 산업용 사물 인터넷의 4가지 큰 과제
  5. 시각 데이터를 IoT와 통합할 수 있는 가능성
  6. 증강 현실 – HR의 차세대 혁신은 무엇입니까?
  7. 변화가 필요한 시점입니다:가장자리에 있는 새로운 시대
  8. 산업 데이터 과학의 성공을 위한 무대 설정
  9. AI를 위해 계속해서 프로세싱을 엣지까지 밀어붙이는 추세
  10. 빅 데이터는 병든 의료 예산에 대한 만병통치약을 제공할 것입니까?