산업 제조
산업용 사물 인터넷 | 산업자재 | 장비 유지 보수 및 수리 | 산업 프로그래밍 |
home  MfgRobots >> 산업 제조 >  >> Industrial Internet of Things >> 클라우드 컴퓨팅

Hadoop이란 무엇입니까? Hadoop 빅 데이터 처리

빅 데이터의 진화는 새로운 솔루션을 필요로 하는 새로운 과제를 낳았습니다. 역사상 그 어느 때보다도 서버는 방대한 양의 데이터를 실시간으로 처리, 정렬 및 저장해야 합니다.

이러한 문제로 인해 Apache Hadoop과 같이 대규모 데이터 세트를 쉽게 처리할 수 있는 새로운 플랫폼이 등장했습니다.

이 기사에서는 Hadoop이 무엇인지, 주요 구성 요소가 무엇인지, Apache Hadoop이 빅 데이터를 처리하는 데 어떻게 도움이 되는지 알아봅니다.

하둡이란 무엇입니까?

Apache Hadoop 소프트웨어 라이브러리는 분산 컴퓨팅 환경에서 빅데이터를 효율적으로 관리하고 처리할 수 있는 오픈소스 프레임워크입니다.

Apache Hadoop은 네 가지 주요 모듈로 구성됩니다. :

Hadoop 분산 파일 시스템(HDFS)

데이터는 일반 컴퓨터의 로컬 파일 시스템과 유사한 Hadoop의 분산 파일 시스템에 있습니다. HDFS는 기존 파일 시스템에 비해 더 나은 데이터 처리량을 제공합니다.

또한 HDFS는 뛰어난 확장성을 제공합니다. 일반 하드웨어를 사용하여 단일 시스템에서 수천 대의 시스템으로 쉽게 확장할 수 있습니다.

Yet Another Resource Negotiator(YARN)

YARN은 예약된 작업, 전체 관리 및 클러스터 노드 및 기타 리소스 모니터링을 용이하게 합니다.

맵리듀스

Hadoop MapReduce 모듈은 프로그램이 병렬 데이터 계산을 수행하는 데 도움이 됩니다. MapReduce의 Map 작업은 입력 데이터를 키-값 쌍으로 변환합니다. 작업 줄이기는 입력을 소비하고 집계하여 결과를 생성합니다.

하둡 공통

Hadoop Common은 모든 모듈에서 표준 Java 라이브러리를 사용합니다.

하둡이 개발된 이유는 무엇입니까?

World Wide Web은 지난 10년 동안 기하급수적으로 성장했으며 현재 수십억 페이지로 구성되어 있습니다. 방대한 양으로 인해 온라인에서 정보를 검색하는 것이 어려워졌습니다. 이 데이터는 빅데이터가 되었으며 크게 두 가지 문제로 구성됩니다.

  1. 이 모든 데이터를 효율적이고 검색하기 쉬운 방식으로 저장하기 어려움
  2. 저장된 데이터 처리의 어려움

개발자들은 위의 문제를 해결하여 웹 검색 결과를 더 빠르고 효율적으로 반환하기 위해 많은 오픈 소스 프로젝트에서 작업했습니다. 그들의 솔루션은 데이터와 계산을 서버 클러스터에 분산하여 동시 처리를 달성하는 것이었습니다.

결국 Hadoop은 이러한 문제에 대한 솔루션이 되었고 서버 배포 비용 절감을 비롯한 많은 다른 이점을 가져왔습니다.

Hadoop 빅 데이터 처리는 어떻게 작동합니까?

Hadoop을 사용하여 클러스터의 저장 및 처리 용량을 활용하고 빅 데이터에 대한 분산 처리를 구현합니다. 기본적으로 Hadoop은 빅 데이터를 처리하는 다른 애플리케이션을 구축할 수 있는 기반을 제공합니다.

다양한 형식의 데이터를 수집하는 애플리케이션은 NameNode에 연결되는 Hadoop의 API를 통해 데이터를 Hadoop 클러스터에 저장합니다. NameNode는 파일 디렉토리의 구조와 생성된 각 파일의 "청크" 위치를 캡처합니다. Hadoop은 병렬 처리를 위해 DataNode에서 이러한 청크를 복제합니다.

MapReduce는 데이터 쿼리를 수행합니다. 모든 DataNode를 매핑하고 HDFS의 데이터와 관련된 작업을 줄입니다. "MapReduce"라는 이름 자체가 그것이 하는 일을 설명합니다. 지도 작업은 제공된 입력 파일에 대해 모든 노드에서 실행되고 리듀서는 데이터를 연결하고 최종 출력을 구성하기 위해 실행됩니다.

Hadoop 빅 데이터 도구

Hadoop의 생태계는 다양한 오픈 소스 빅 데이터 도구를 지원합니다. 이러한 도구는 Hadoop의 핵심 구성 요소를 보완하고 빅 데이터 처리 능력을 향상시킵니다.

가장 유용한 빅 데이터 처리 도구는 다음과 같습니다.

하둡의 장점

Hadoop은 빅 데이터 처리를 위한 강력한 솔루션이며 빅 데이터를 처리하는 비즈니스에 필수적인 도구입니다.

Hadoop의 주요 기능과 장점은 다음과 같습니다.

세 가지 주요 사용 사례

빅 데이터 처리

일반적으로 페타바이트 이상의 방대한 양의 데이터에는 Hadoop을 권장합니다. 엄청난 처리 능력을 필요로 하는 방대한 양의 데이터에 더 적합합니다. 수백 기가바이트 범위의 적은 양의 데이터를 처리하는 조직에는 Hadoop이 최선의 선택이 아닐 수 있습니다.

다양한 데이터 세트 저장

Hadoop을 사용하는 많은 이점 중 하나는 유연하고 다양한 데이터 유형을 지원한다는 것입니다. 데이터가 텍스트, 이미지 또는 비디오 데이터로 구성되었는지 여부에 관계없이 Hadoop은 이를 효율적으로 저장할 수 있습니다. 조직은 요구 사항에 따라 데이터를 처리하는 방법을 선택할 수 있습니다. Hadoop은 저장된 데이터에 대한 유연성을 제공한다는 점에서 데이터 레이크의 특성을 가지고 있습니다.

병렬 데이터 처리

Hadoop에서 사용되는 MapReduce 알고리즘은 저장된 데이터의 병렬 처리를 조정하므로 여러 작업을 동시에 실행할 수 있습니다. 그러나 Hadoop의 표준 방법론을 혼동하기 때문에 공동 작업은 허용되지 않습니다. 데이터가 서로 독립적인 한 병렬 처리를 통합합니다.

실제 세계에서 Hadoop이 사용되는 용도

전 세계의 기업들이 Hadoop 빅 데이터 처리 시스템을 사용합니다. Hadoop의 많은 실제 사용 중 몇 가지가 아래에 나열되어 있습니다.

Hadoop의 다른 실용적인 용도로는 장치 성능 개선, 개인 정량화 및 성능 최적화 개선, 스포츠 및 과학 연구 개선 등이 있습니다.

Hadoop 사용의 어려움은 무엇입니까?

모든 애플리케이션에는 장점과 과제가 있습니다. Hadoop은 또한 다음과 같은 몇 가지 문제를 야기합니다.

결론

Hadoop은 문제를 극복하는 데 필요한 단계와 함께 효과적으로 구현될 때 빅 데이터 처리를 해결하는 데 매우 효과적입니다. 방대한 양의 데이터를 처리하는 회사를 위한 다목적 도구입니다.

주요 장점 중 하나는 모든 하드웨어에서 실행할 수 있고 Hadoop 클러스터를 수천 대의 서버에 배포할 수 있다는 것입니다. 이러한 유연성은 코드형 인프라 환경에서 특히 중요합니다.


클라우드 컴퓨팅

  1. 빅 데이터와 클라우드 컴퓨팅:완벽한 조합
  2. 클라우드 보안이란 무엇이며 왜 필요한가요?
  3. 빅 데이터와 클라우드 컴퓨팅의 관계는 무엇입니까?
  4. 비즈니스에서 빅 데이터 및 클라우드 컴퓨팅 사용
  5. 2018년 IoT 플랫폼에서 기대할 수 있는 것
  6. 예측 유지 관리 – 알아야 할 사항
  7. DDR5 RAM이란 정확히 무엇입니까? 기능 및 가용성
  8. IIoT란 무엇입니까?
  9. 빅 데이터 대 인공 지능
  10. 리틀 데이터에서 빅 데이터 구축