데이터 과학 수명 주기에 대해 자세히 알아보기

빅 데이터가 등장한 이후로 현대 컴퓨터 과학은 새로운 기능과 처리 능력 벤치마크에 도달했습니다. 요즘은 빅데이터로 간주되는 100테라바이트 이상의 데이터 세트를 생성하는 애플리케이션을 찾는 것이 일반적입니다.

이처럼 방대한 양의 정보가 손에 잡혀 있으면 무질서해지고 쓸데없는 내용으로 시간을 낭비하기 쉽습니다. 빅 데이터 프로젝트의 효율성과 효율성을 높이는 방법론을 따르는 것이 매우 중요한 두 가지 이유입니다.

그림 1. 최신 데이터 과학은 빅 데이터라고도 하는 매우 큰 데이터 세트를 사용합니다.

데이터 과학 수명 주기는 빅 데이터 프로젝트를 정의, 수집, 구성, 평가 및 배포하는 데 도움이 되는 프레임워크를 제공합니다. 피드백과 피벗을 용이하게 하는 논리적 순서로 배열된 일련의 단계로 구성된 반복적인 프로세스입니다.

수명 주기 순서는 어떻게 됩니까? 대답은 모든 사람이 따르는 단일한 보편적인 모델이 없다는 것입니다. 빅 데이터 프로젝트를 수행하는 많은 회사는 일반적으로 더 많은 단계를 포함하여 비즈니스 프로세스에 데이터 과학 수명 주기를 적용합니다. 그럼에도 불구하고 모든 많은 모델과 프로세스 흐름에는 공통 분모가 있습니다. 이 기사에서는 최초이자 가장 인기 있는 데이터 과학 수명 주기 모델 중 하나인 CRISP-DM 프로세스 모델을 사용합니다.

CRISP-DM 모델

CRISP-DM은 데이터 마이닝을 위한 산업 간 표준 프로세스를 나타냅니다. 정보 기술(IT) 연구를 촉진하기 위한 유럽 프로그램인 ESPRIT에서 1999년에 처음 발표했습니다. CRISP-DM 모델은 빅 데이터 프로젝트를 안내하는 6단계 또는 단계로 구성됩니다. 이해 관계자가 문제에 대한 중요한 질문을 제기하고 답변하여 비즈니스에 대해 생각하도록 권장합니다.

CRISP-DM 모델의 6단계를 자세히 살펴보겠습니다.

그림 2. CRISP-DM 모델의 반복적인 6단계가 표시됩니다. 제공 이미지 사용 케네스 젠슨

1단계:비즈니스 이해

첫 번째 단계는 문제를 정의하고 목표를 설정하는 여러 작업으로 구성됩니다. 이것은 프로젝트 목표가 비즈니스, 즉 고객에 초점을 맞춰 설정되는 때입니다. 일반적으로 빅 데이터 프로젝트를 수행하기 위해 모인 팀은 고객에게 솔루션을 제공해야 하며, 이는 회사 내 다른 영역 또는 부서일 수 있습니다.

비즈니스 요구 사항이나 문제가 설정되면 다음 단계는 성공 기준을 정의하는 것입니다. 이는 KPI(핵심 성과 지표) 또는 SLA(서비스 수준 계약)가 될 수 있으며, 이는 진행 상황과 완료를 평가하기 위한 객관적인 수단을 제공합니다.

다음으로 비즈니스 상황을 분석하여 위험, 롤백 계획, 비상 조치 및 더 중요한 리소스 가용성을 식별해야 합니다. 이정표 리소스를 포함하여 프로젝트 계획이 마련됩니다.

2단계:데이터 이해

이전 단계에서 기본이 설정되면 데이터에 집중할 때입니다. 이 단계는 어떤 데이터가 필요하다고 생각되는지에 대한 초기 정의로 시작하여 데이터를 찾을 위치, 데이터 유형, 형식, 다양한 데이터 필드 간의 관계 등 데이터에 대한 몇 가지 세부 사항을 문서화합니다.

첫 번째 문서가 준비되면 다음 단계는 첫 번째 데이터 수집 실행을 실행하는 것입니다. 이것은 구조가 어떻게 형성되고 있는지에 대한 유용한 스냅샷을 제공합니다. 그런 다음 이 정보 스냅샷의 품질을 평가합니다.

3단계:데이터 준비

세 번째 단계는 이전 단계를 강화하고 모델링을 위한 데이터 세트를 준비합니다. 첫 번째 컬렉션의 데이터 필드가 더 선별되고 불필요한 것으로 간주되는 모든 정보가 집합에서 제거됩니다. 이를 데이터 정리라고 합니다.

또한 특정 정보는 사용 가능한 다른 정보에서 파생되어야 할 수도 있습니다. 다른 경우에는 결합해야 합니다. 즉, 데이터를 처리하여 최종 형식을 생성해야 합니다.

4단계:모델링

이 단계에서 가장 중요한 작업은 수집된 데이터를 처리할 알고리즘을 선택하는 것입니다. 이러한 맥락에서 알고리즘은 빅 데이터 프로젝트를 위해 설계된 컴퓨터 소프트웨어에 프로그래밍된 일련의 시퀀스 단계 및 규칙입니다.

많은 알고리즘을 사용할 수 있습니다. 선형 회귀, 의사 결정 트리 및 지원 벡터 머신이 몇 가지 예입니다. 문제를 해결하기 위해 올바른 알고리즘을 선택하려면 숙련된 데이터 과학자가 보유한 기술이 필요합니다.

그림 3. 선형 회귀는 빅 데이터 모델링에 사용되는 알고리즘 유형 중 하나입니다.

다음 단계는 알고리즘을 소프트웨어 응용 프로그램에 코딩하는 것입니다. 이것은 또한 테스트 및 검증을 위해 특정 데이터 세트를 할당하는 것으로 구성된 테스트 단계를 계획할 때입니다.

5단계:평가

때로는 처음부터 알고리즘을 선택하기가 어렵습니다. 이 경우 과학자들은 여러 알고리즘을 실행하고 결과를 분석하여 최종 결정에 도달합니다. 테스트 단계가 완료되면 결과가 완전성과 정확성을 위해 검토됩니다.

더 중요한 것은 결과가 솔루션으로 이어지는지 여부를 평가할 수 있는 기회입니다. 반복 모델에서 이것은 주요 반복 시퀀스가 시작될 수 있거나 최종 단계로 이동하기로 결정하는 데 도달할 수 있는 중요한 교차점입니다.

6단계:배포

이것은 프로젝트가 테스트 환경에서 실제 프로덕션 환경으로 이동할 때입니다. 배포 일정과 전략을 계획하는 것은 위험과 잠재적인 시스템 다운타임을 줄이는 데 매우 중요합니다.

모델 다이어그램은 이것이 프로젝트의 끝임을 암시하지만 모니터링 및 유지 관리와 같은 이후에 후속 조치를 취해야 하는 많은 단계가 있습니다. 모니터링은 가동 직후에 하이퍼 케어라고도 하는 면밀한 관찰 기간입니다. 유지 관리는 구현된 솔루션을 유지 관리하고 업그레이드하기 위한 반영구적 프로세스입니다.

빅 데이터가 그렇게 불리는 이유는 다음과 같습니다. 구문 분석할 데이터의 양이 엄청납니다. 데이터 과학 수명 주기 모델 중 하나를 구현하면 어떤 정보를 보관하고 예측 유지 관리와 같은 프로세스에 사용할 가치가 있는지 결정하는 데 도움이 됩니다.

Industry 4.0은 공급망 네트워크에 어떤 영향을 미칩니까? 전산 유체 역학(CFD) 이해

사물 인터넷 기술