AI는 특정 도메인 지식 없이도 몇 초 안에 Rubik's Cube를 해결할 수 있습니다.
- DeepCubeA라는 새로운 심층 강화 학습 접근 방식은 몇 초 안에 루빅스 큐브를 풀 수 있습니다.
- 딥러닝 모델은 로봇, 자연과학 등 다양한 분야에 적용할 수 있습니다.
인공 지능(AI)은 이미 체스와 바둑에서 성공적인 것으로 입증되었지만 루빅스 큐브와 같은 더 어려운 퍼즐은 기계 지능을 통해 해결되지 않았습니다. 기계 학습에 독특하고 흥미로운 과제를 제시하는 고전적인 조합 퍼즐입니다.
기계 학습 기술은 이전에 루빅스 큐브를 푸는 데 사용되었지만 효율적이고 안정적으로 퍼즐을 푸는 데 실패했습니다. 또한 이러한 기술은 특정 도메인 지식에 의존해야 했습니다.
이제 University of California, Irvine의 연구원들은 특정 도메인 지식 없이도 엄청나게 복잡한 퍼즐을 풀 수 있는 DeepCubeA라는 심층 강화 학습 접근 방식을 구축했습니다. 사람의 게임 내 코칭 없이도 몇 초 만에 Rubik의 큐브를 해결할 수 있습니다.
차원이 증가함에 따라 기본 조합 퍼즐의 복잡성이 극적으로 증가합니다. 예를 들어, 15개 퍼즐에 대한 최적의 솔루션을 찾는 데 기존 컴퓨터에서는 1초도 걸리지 않는 반면, 24개 퍼즐에 대한 최적의 솔루션을 찾는 데는 같은 컴퓨터에서 며칠이 걸릴 수 있습니다.
이 연구에서 연구자들은 영역별 인간 지식에 의존하지 않고 다양한 퍼즐을 푸는 방법을 학습할 수 있는 기계 학습 모델을 개발하려고 했습니다. 그들은 DeepCubeA를 개발하기 위해 세 가지 최첨단 접근 방식을 결합했습니다. –
<올>
딥 러닝
고전적 강화(근사값 반복)
경로 찾기 방법(가중치 A* 검색)
몬테카를로 트리 검색과 결합된 정책 및 가치 함수를 사용하여 루빅스 큐브를 푸는 심층 강화 학습 알고리즘으로 구성됩니다.
연구원들은 TensorFlow 딥 러닝 프레임워크를 사용하여 네트워크를 훈련시켰습니다. 이 프레임워크는 스크램블되고 완성된 퍼즐의 약 100억 번 시뮬레이션으로 훈련되었습니다. 전체 프로세스는 약 1,000,000번의 반복에 대해 수행되었으며 36시간이 걸렸습니다.
참조:자연 | DOI:10.1038/s42256-019-0070-z | UCI | 온라인 데모
일단 훈련되면 DeepCubeA는 각 테스트 구성 동안 100% 정확도를 달성할 수 있었고, 60.3%의 시간 동안 최종 상태로 가는 최단 경로를 찾았습니다.
DeepCubeA는 최단 경로 비용을 과대평가하지 않는 휴리스틱 기능을 사용합니다. 가중 A* 검색에는 솔루션 길이가 최적 솔루션의 길이와 얼마나 다를 수 있는지에 대한 특정 한계가 있습니다.
조합 퍼즐을 넘어선 애플리케이션
연구팀은 24퍼즐, 라이트아웃, 소코반 등 다른 퍼즐에서도 DeepCubeA를 훈련시켰습니다. 대부분의 검증 가능한 경우에서 최단 경로를 찾을 수 있었습니다.
[이와 같은] 연구의 궁극적인 목표는 로봇에서 자연 과학에 이르기까지 조합 퍼즐 너머의 분야에 적용될 수 있는 차세대 딥 러닝 모델을 개발하는 것입니다.
우리는 이미 Alexa 및 Siri와 같은 검색 엔진 및 앱을 통해 매일 AI와 상호 작용합니다. 그러나 이러한 시스템은 실제로 지능적이지 않습니다. 쉽게 조작하거나 속일 수 있습니다.
읽기:새로운 포커 게임 AI는 많은 온라인 회사를 파괴할 수 있으므로 개발자는 이를 공개하지 않습니다.
우리는 더 강력하고 똑똑하며 이해하고 추론하고 계획할 수 있는 AI를 구축해야 합니다. 이 연구는 이 거대한 목표를 향한 작은 발걸음입니다.