다층 퍼셉트론 신경망 훈련 방법

히든 노드 레이어를 추가하여 퍼셉트론의 성능을 크게 향상시킬 수 있지만 이러한 숨겨진 노드는 또한 훈련을 좀 더 복잡하게 만듭니다.

지금까지 신경망에 대한 AAC 시리즈에서 신경망, 특히 다양한 퍼셉트론을 사용한 데이터 분류에 대해 배웠습니다.

아래 시리즈를 확인하거나 MLP(다층 퍼셉트론) 신경망의 기본 사항을 설명하는 이 새로운 항목을 살펴보세요.

<올>

신경망을 사용하여 분류를 수행하는 방법:퍼셉트론이란?

간단한 퍼셉트론 신경망을 사용하여 데이터를 분류하는 방법

기본 퍼셉트론 신경망 훈련 방법

단순 신경망 훈련 이해

신경망 훈련 이론 소개

신경망의 학습률 이해

다층 퍼셉트론을 사용한 고급 기계 학습

시그모이드 활성화 함수:다층 퍼셉트론 신경망에서의 활성화

다층 퍼셉트론 신경망 훈련 방법

다층 퍼셉트론에 대한 훈련 공식 및 역전파 이해

Python 구현을 위한 신경망 아키텍처

Python에서 다층 퍼셉트론 신경망을 만드는 방법

신경망을 사용한 신호 처리:신경망 설계 검증

신경망용 데이터 세트 훈련:Python 신경망 훈련 및 검증 방법

다층 퍼셉트론 신경망이란 무엇입니까?

이전 기사에서는 단일 레이어 퍼셉트론이 현대 신경망 아키텍처에서 기대하는 성능을 단순히 생성할 수 없다는 것을 보여주었습니다. 선형으로 분리 가능한 기능으로 제한된 시스템은 실제 신호 처리 시나리오에서 발생하는 복잡한 입력-출력 관계를 근사화할 수 없습니다. 솔루션은 다음과 같은 다층 퍼셉트론(MLP)입니다.

그 은닉층을 추가함으로써 우리는 네트워크를 매우 정교한 분류를 달성할 수 있는 "보편적 근사치(universal approximator)"로 바꿉니다. 그러나 우리는 신경망의 가치가 훈련의 질에 완전히 의존한다는 것을 항상 기억해야 합니다. 풍부하고 다양한 훈련 데이터와 효과적인 훈련 절차가 없으면 네트워크는 입력 샘플을 분류하는 방법을 "학습"할 수 없습니다.

히든 레이어가 훈련을 복잡하게 만드는 이유는 무엇입니까?

이전 기사에서 단일 레이어 퍼셉트론을 훈련하는 데 사용한 학습 규칙을 살펴보겠습니다.

\[w_{new} =w+(\alpha\times(출력_{예상}-출력_{계산})\times 입력)\]

이 방정식의 암시적 가정에 주목하십시오. 관찰된 출력을 기반으로 가중치를 업데이트하므로 이것이 작동하려면 단일 레이어 퍼셉트론의 가중치가 출력 값에 직접 영향을 주어야 합니다. 온수와 냉수 두 개의 손잡이를 돌려 수도꼭지 물의 온도를 선택하는 것과 같습니다. 전체적인 온도와 노브 동작의 관계는 매우 간단하며 수학을 좋아하지 않는 사람들도 잠시 동안 노브를 만지작거리면 원하는 수온을 찾을 수 있습니다.

그러나 이제 온수 및 냉수 파이프를 통한 물의 흐름이 복잡하고 매우 비선형적인 방식으로 손잡이 위치와 관련이 있다고 상상해 보십시오. 당신은 꾸준히 그리고 천천히 뜨거운 물의 손잡이를 돌렸지만 결과적인 유량은 불규칙하게 변했습니다. 당신은 찬물에 대한 손잡이를 시도하고 그것은 같은 일을합니다. 특히 두 개의 혼란스러운 제어 관계의 조합을 통해 "출력"을 달성해야 하기 때문에 이러한 조건에서 이상적인 수온을 설정하는 것은 훨씬 더 어려울 것입니다.

이것이 내가 은닉층의 딜레마를 이해하는 방법입니다. 입력 노드를 은닉 노드에 연결하는 가중치는 개념적으로 기계적으로 불규칙한 노브와 유사합니다. 위에 표시된 간단한 학습 규칙이 효과가 없을 정도로 복잡합니다.

새로운 교육 패러다임

원래의 Perceptron 학습 규칙은 다층 네트워크에 적용할 수 없으므로 학습 전략을 재고해야 합니다. 우리가 할 일은 경사하강법을 통합하고 오류 함수를 최소화하는 것입니다.

명심해야 할 한 가지는 이 훈련 절차가 다층 신경망에만 국한되지 않는다는 것입니다. Gradient descent는 일반 최적화 이론에서 비롯되었으며 MLP에 사용하는 훈련 절차는 단일 계층 네트워크에도 적용할 수 있습니다. 그러나 내가 이해하는 바와 같이 MLP 스타일의 경사 하강법은 (최소한 이론적으로) 단일 레이어 퍼셉트론에 필요하지 않습니다. 위에 표시된 더 간단한 규칙이 결국 작업을 완료할 것이기 때문입니다.

MLP에 대한 실제 가중치 업데이트 방정식을 유도하는 것은 이 시점에서 지능적으로 설명하려고 시도하지 않을 몇 가지 위협적인 수학을 포함합니다. 이 기사의 나머지 부분에 대한 나의 목표는 MLP 교육의 두 가지 주요 측면인 기울기 하강법과 오차 함수에 대한 개념적 소개를 제공하는 것이며, 다음 기사에서 새로운 활성화 함수를 통합하여 이 논의를 계속할 것입니다.

경사하강법

경사하강법은 이름에서 알 수 있듯 기울기를 기준으로 오차함수의 최소값을 향해 하강하는 수단입니다. 아래 다이어그램은 기울기가 가중치를 수정하는 방법에 대한 정보를 제공하는 방식을 전달합니다. 오류 함수의 한 점 기울기는 우리가 가야 할 방향과 최소값에서 얼마나 멀리 떨어져 있는지 알려줍니다.

따라서 오류 함수의 도함수는 다층 퍼셉트론을 훈련하는 데 사용하는 계산의 중요한 요소입니다. 실제로 부분적이 필요합니다. 여기 파생상품. 경사하강법을 구현할 때 각 가중치 수정은 수정되는 가중치에 대한 오류 함수의 기울기에 비례합니다.

오류 함수(일명 손실 함수)

신경망의 오류를 정량화하는 일반적인 방법은 예상(또는 "목표") 값과 각 출력 노드에 대해 계산된 값 간의 차이를 제곱한 다음 이러한 제곱 차이를 모두 합산하는 것입니다. 이것을 "차의 제곱합" 또는 "제곱 오차 합" 또는 기타 다양한 것으로 부를 수 있으며 훈련의 목표는 평균을 최소화하는 것이기 때문에 최소 평균 제곱을 나타내는 약어 LMS도 볼 수 있습니다. 제곱 오차. 이 오류 함수(E로 표시됨)는 수학적으로 다음과 같이 표현될 수 있습니다.

\[E=\frac{1}{2}\sum_k(t_k-o_k)^2\]

여기서 k는 출력 노드의 범위, t는 목표 출력값, o는 계산된 출력값입니다.

결론

우리는 다층 퍼셉트론을 성공적으로 훈련하기 위한 토대를 마련했으며 다음 기사에서 이 흥미로운 주제를 계속 탐구할 것입니다.

다층 퍼셉트론에 대한 훈련 공식 및 역전파 이해 레이저 거리 센서로 로봇 이송 시스템을 제어하는 방법

산업용 로봇

CNC 기계

산업용 로봇

산업용 장비