AlphaZero:Google의 AI가 24시간 만에 체스와 바둑을 정복합니다

체스와 같은 보드 게임은 인공 지능의 역사에서 널리 연구되는 분야입니다. Turing, Babbage, von Neumann 및 Shannon과 같은 선구자들은 체스 게임을 분석하고 플레이하기 위한 이론, 알고리즘 및 하드웨어를 개발했습니다. 그리고 지난 몇 년 동안 우리는 바둑이나 장기(일본 체스)와 같은 훨씬 더 복잡한 게임에서 인간을 능가하는 유사한 프로그램을 보았습니다.

Google의 Deepmind는 보드 게임에서 인간을 이기는 놀라운 기록을 보유하고 있습니다. 2015년에 그들의 프로젝트 AlphaGo는 인간(프로 바둑 선수)을이긴 최초의 컴퓨터 바둑 프로그램이 되었습니다. 그리고 이제 그들은 체스 게임을 스스로 배울 수 있고 거의 4시간 만에 인간이나 다른 컴퓨터 프로그램(Stockfish 및 Deep Blue 포함)을 이길 수 있는 AlphaGo 프로그램을 개발했습니다.

보드 게임의 기존 AI 프로그램은 해당 영역에 고도로 최적화되어 있으며 사람의 개입 없이는 다른 문제로 일반화될 수 없습니다. 반면 AlphaZero 프로그램은 여러 까다로운 영역에서 초인적인 성능을 달성할 수 있습니다. 게임 규칙 외에는 아무런 사전 지식도 없이 랜덤 플레이로 시작한 알파제로는 체스, 장기, 바둑 게임에서 24시간 만에 초인적인 플레이 수준을 달성했고, 각각 세계 최고 프로그램을 제압했습니다. 그들은 어떻게 이 작업을 수행했으며 정확한 결과는 무엇입니까? 알아보겠습니다.

방법론

2017년 10월 Deepmind는 AlphaGo Zero 알고리즘이 심층 컨볼루션 신경망을 사용하여 초인적인 성능을 달성했으며 강화 학습만으로 훈련했다고 발표했습니다. 엔지니어들은 동일한 접근 방식을 사용하여 AlphaZero라는 일반 알고리즘을 구축했습니다. 이 알고리즘은 기존 게임 플레이 알고리즘에 사용되는 도메인별 증강 및 수작업 지식을 심층 신경망으로 대체합니다. tabula rasa 강화 학습 알고리즘 .

AlphaZero는 범용 MCTS를 사용합니다. 알파베타 검색이 아닌 (몬테카를로 트리 검색) 알고리즘입니다. 자체 대결을 통해 추정 가치와 이동 확률을 학습한 다음 학습된 정보를 사용하여 검색을 안내합니다.

AlphaGo Zero 알고리즘과의 차이점

AlphaGo Zero 알고리즘은 바이너리 승패 결과를 고려하여 승률을 추정하고 최적화합니다. 반면 AlphaZero는 무승부 또는 기타 잠재적 결과를 고려하여 예상 결과를 추정하고 최적화합니다.

바둑 게임 규칙은 반사와 회전에 영향을 받지 않습니다. 이 사실은 AlphaGo와 고급 버전인 AlphaGo Zero에서 두 가지 방식으로 매우 잘 활용됩니다.

모든 위치에 대해 8개의 대칭을 생성하여 훈련 데이터를 강화합니다.
MCTS 알고리즘에서 신경망에 의해 계산되기 전에 무작위로 선택한 반사 또는 회전을 통해 위치를 변환하여 계산이 다양한 편향에 대한 평균을 내도록 합니다.

체스와 장기의 경우 규칙이 비대칭이므로 일반적으로 대칭을 가정할 수 없습니다. AlphaZero에서는 MCTS 중에 훈련 데이터가 강화되지 않으며 보드 위치가 변환되지 않습니다.

AlphaGo Zero는 이전 반복에서 최고의 플레이어를 사용하여 셀프 플레이 게임을 생성합니다. 각 반복이 완료된 후 새로운 플레이어의 성과는 최고의 플레이어를 기준으로 평가됩니다. 55%의 차이로 이기면 최고의 플레이어가 교체되고 새로운 플레이어가 셀프 플레이 게임을 추가로 생성합니다. 그러나 AlphaZero는 반복이 완료될 때까지 일시 중지하지 않고 단일 신경망(지속적으로 업데이트됨)을 유지합니다.

AlphaZero 최적화 및 교육

AlphaZero는 게임별 최적화 없이 모든 게임에 하이퍼 매개변수를 사용합니다. 탐색을 보장하기 위해 해당 유형의 게임에 대한 합법적인 이동 수에 비례하여 조정되는 노이즈 요인이 통합됩니다.

AlphaGo Zero와 마찬가지로 보드 상태는 각 게임의 기본 규칙에 따라 공간 평면으로 인코딩되고 동작은 공간 평면 또는 평면 벡터로 인코딩됩니다.

개발자들은 체스, 장기, 바둑에 AlphaZero를 적용했습니다. 3개 게임 모두 동일한 네트워크 아키텍처, 하이퍼 매개변수 및 설정이 사용되었습니다. 알고리즘의 개별 인스턴스는 각 게임에 대해 훈련됩니다. 무작위로 초기화된 매개변수에서 시작하여 700,000단계에 대한 훈련이 수행되었으며, 5,000개의 1세대 Tensor 처리 장치를 사용하여 셀프 플레이 게임을 구축하고 64개의 2세대 Tensor 처리 장치를 사용하여 신경망을 훈련했습니다.

참조: arxiv.org

결과

그림에서 볼 수 있듯이 AlphaZero는 체스에서 300,000걸음(4시간 후) 후에 Stockfish를 능가했습니다. 110,000단계(2시간 이내)에서 Elmo를 능가했습니다. 그리고 165,000보(8시간 후)에서 AlphaGo Lee를 능가했습니다.

AlphaZero의 완전히 훈련된 인스턴스(3일 동안 훈련됨)는 AlphaGo Zero, Elmo 및 Stockfish에 대해 테스트되었으며 이동당 1분의 시간 속도로 100개의 매치를 플레이했습니다. 결과는 매우 인상적이었습니다(아래 표 참조).

AlphaGo Zero와 AlphaZero는 4개의 Tensor 프로세싱 유닛을 갖춘 단일 머신을 사용했으며, Elmo와 Stockfish는 64개의 스레드와 1GB의 해시 크기를 사용하여 최고의 성능을 발휘했습니다. AlphaZero는 Elmo에게 8게임을 패했고 Stockfish에게는 한 게임도 패하지 않고 그들을 모두 이겼습니다.

Google 개발자는 AlphaZero의 MCTS 검색 성능도 조사했습니다. Elmo의 경우 초당 35,000,000개, Stockfish의 경우 70,000,000개에 비해 장기에서는 초당 40,000개의 위치, 체스에서는 80,000개의 위치를 검색합니다. AlphaZero는 심층 신경망을 사용하여 가장 유망한 옵션에 선택적으로 집중합니다. 또는 좀 더 인간과 유사한 접근 방식을 사용할 수 있습니다.

읽기:평점에 따른 최고의 체스 엔진 15개

AlphaZero는 아직 초기 단계이지만 목표를 향한 중요한 단계입니다. 단백질 접힘, 새로운 물질 발견 또는 에너지 소비 감소와 같은 다른 구조적 문제에 유사한 접근 방식을 적용할 수 있다면 그 결과는 우리의 미래에 긍정적인 영향을 미칠 가능성이 있습니다.

기록적인 53큐비트 양자 시뮬레이터 공개 일본, 현재 슈퍼컴퓨터보다 100배 빠른 양자 컴퓨터 프로토타입 출시

산업기술