AI는 이제 지도 없이도 낯선 환경을 탐색할 수 있습니다.

<울>

Facebook AI의 연구원들이 DD-PPO라는 새로운 강화 학습 알고리즘을 개발합니다.

나침반 데이터, RGB-D 카메라 및 GPS만 사용하여 복잡한 환경을 탐색할 수 있습니다.

물리적 세계와 스마트하게 상호 작용하는 지능형 기계를 개발하는 것은 AI 커뮤니티의 장기적인 목표였습니다. 주요 과제는 지도를 사용하지 않고도 복잡하고 익숙하지 않은 환경을 효율적으로 탐색할 수 있도록 이러한 기계를 가르치는 것입니다.

일반적으로 실제 지도는 건물과 구조가 변경되고 개체가 이동함에 따라 몇 달 안에 구식이 됩니다. 그렇기 때문에 지도 없이 탐색할 수 있는 물리적 세계를 위한 AI를 구축하는 것이 매우 필요합니다.

이러한 점을 염두에 두고 Facebook AI의 연구원은 나침반 데이터, RGB-D 카메라 및 GPS만 사용하여 점-목표 탐색 작업을 효과적으로 해결하는 새로운 강화 학습(RL) 알고리즘을 개발했습니다. 이 대규모 알고리즘의 이름은 DD-PPO(분산형 분산 근위 정책 최적화)입니다.

확장성이 뛰어난 새로운 RL 분산 아키텍처

오늘날 기계 학습 기반 시스템은 다양한 복잡한 게임에서 인간 전문가를 능가할 수 있습니다. 그러나 이러한 시스템은 방대한 양의 훈련 샘플에 의존하기 때문에 대규모 분산 병렬화 없이 시스템을 구축하는 것은 거의 불가능합니다.

수천 개의 작업자(CPU)와 단일 매개변수 서버를 포함하는 현재의 분산 강화 학습 아키텍처는 확장성이 좋지 않습니다. 이것이 연구원들이 동기식 분산 강화 학습 기법을 제안한 이유입니다.

DD-PPO는 여러 시스템에서 실행되며 매개변수 서버가 없습니다. 각 작업자(CPU)는 GPU 가속, 리소스 집약적인 시뮬레이션 환경에서 경험을 수집하고 모델을 최적화합니다. 명시적 통신 상태에서 모든 작업자는 업데이트를 모델에 동기화합니다. 즉, 배포는 동기식입니다.

모든 작업자는 포인트 목표 탐색을 수행하는 에이전트를 시뮬레이션한 다음 모델을 최적화하고 업데이트를 동기화합니다. | DD-PPO를 사용하여 교육 중에 데이터를 공유하는 방법입니다.

이 접근 방식을 사용하여 DD-PPO는 선형에 가까운 확장을 보였습니다. 직렬 구현을 통해 128개의 GPU에서 107배의 속도 향상을 달성할 수 있었습니다.

참조:arXiv:1911.00357 | 페이스북 AI

완벽에 가까운 포인트 목표 탐색

point-goal navigation에서 에이전트는 익숙하지 않은 환경에서 임의의 초기 위치/방향으로 설정되고 지도를 사용하지 않고 대상 좌표로 탐색하는 작업을 수행합니다. 나침반, GPS, RGB 또는 RGB-D 카메라만 사용할 수 있습니다.

연구원들은 DD-PPO의 확장 기능을 활용하여 인간의 80년 경험에 해당하는 25억 단계 동안 에이전트를 훈련했습니다. 몇 달이 아니라 64개의 GPU로 3일 이내에 교육을 완료했습니다.

결과는 더 적은 컴퓨팅 리소스(8 GPU)로 처음 1억 단계에서 최대 성능의 90%를 얻은 것으로 나타났습니다. 수십억 단계의 경험을 통해 에이전트는 99.9%의 성공률을 얻습니다. 대조적으로, 이전 시스템은 92%의 성공률을 달성했습니다.

대상 위치에 도달하기 위해 잘못된 경로를 선택한 후 에이전트가 역추적 | 연구원 제공

응용 프로그램

이러한 AI 에이전트는 실제 세계에 있는 사람들을 도울 수 있습니다. 예를 들어 증강 현실 안경을 착용한 사용자에게 관련 정보를 표시하고, 로봇은 위층 책상에서 물건을 검색할 수 있으며, AI 기반 시스템은 시각 장애가 있는 사람들을 도울 수 있습니다.

이 연구에서 구축된 모델은 추가 데이터 포인트(지도 및 GPS 데이터)를 사용할 수 없는 실험실 및 사무실 건물 내부와 같은 일반적인 설정에서 작동할 수 있습니다.

읽기:Facebook, 전례 없는 정확도로 모든 사람의 목소리를 복사할 수 있는 AI 개발

이 모델은 ImageNet 사전 훈련된 컨볼루션 신경망보다 성능이 뛰어나고 보편적인 리소스 역할을 할 수 있지만 복잡한 환경을 탐색하는 방법을 학습하는 시스템을 개발하려면 여전히 해야 할 일이 많습니다. 연구원들은 현재 RGB 전용 지점 목표 탐색을 구현하기 위한 새로운 접근 방식을 모색하고 있습니다.

2개의 오디오 신호를 매끄럽게 혼합하는 새로운 알고리즘 3000억 RPM으로 회전하는 세계에서 가장 빠른 회전 물체

산업기술