시뮬레이션 기반 파이프라인으로 능숙한 로봇을 위한 훈련 데이터 맞춤화

모션 디자인 내부자

PhysicsGen은 수십 개의 가상 현실 데모를 로봇 팔 및 손과 같은 기계적 동반자에 대한 기계당 거의 3,000개의 시뮬레이션으로 늘릴 수 있습니다. (이미지:연구원의 사진을 사용하여 Alex Shipps/MIT CSAIL이 디자인)

ChatGPT 또는 Gemini가 귀하의 뜨거운 질문에 대해 전문가처럼 보이는 답변을 제공할 때 해당 답변을 제공하기 위해 얼마나 많은 정보가 의존하는지 깨닫지 못할 수도 있습니다. 다른 인기 있는 생성 인공 지능(AI) 모델과 마찬가지로 이러한 챗봇은 수십억 또는 심지어 수조 개의 데이터 포인트를 학습하는 기초 모델이라는 백본 시스템에 의존합니다.

비슷한 맥락에서 엔지니어들은 집이나 공장과 같은 장소에서 물건을 집고, 움직이고, 내려놓는 것과 같은 새로운 기술을 다양한 로봇에 훈련시키는 기반 모델을 구축하기를 바라고 있습니다. 문제는 로봇 시스템 전체에서 교육 데이터를 수집하고 전송하기가 어렵다는 것입니다. 가상 현실(VR)과 같은 기술을 사용하여 하드웨어를 단계별로 원격 조작하여 시스템을 가르칠 수 있지만 시간이 많이 걸릴 수 있습니다. 인터넷의 비디오 교육은 클립이 특정 로봇에 대한 단계별, 전문 작업 안내를 제공하지 않기 때문에 덜 유익합니다.

MIT 컴퓨터 과학 및 인공 지능 연구소(CSAIL)와 로봇공학 및 AI 연구소의 "PhysicsGen"이라는 시뮬레이션 기반 접근 방식은 로봇 훈련 데이터를 맞춤화하여 로봇이 작업에 가장 효율적인 움직임을 찾는 데 도움을 줍니다. 이 시스템은 수십 개의 VR 데모를 기계당 거의 3,000개의 시뮬레이션으로 늘릴 수 있습니다. 이러한 고품질 지침은 로봇 팔 및 손과 같은 기계적 동반자의 정확한 구성에 매핑됩니다.

PhysicsGen은 3단계 프로세스를 통해 특정 로봇 및 조건에 일반화되는 데이터를 생성합니다. 첫째, VR 헤드셋은 인간이 손을 사용해 블록과 같은 물체를 조작하는 방식을 추적합니다. 이러한 상호 작용은 동시에 3D 물리 시뮬레이터에 매핑되어 손의 주요 지점을 제스처를 반영하는 작은 구체로 시각화합니다. 예를 들어, 장난감을 뒤집으면 해당 물체의 가상 버전을 회전시키는 손의 다양한 부분을 나타내는 3D 모양이 표시됩니다.

그런 다음 파이프라인은 이러한 지점을 특정 기계(예:로봇 팔) 설정의 3D 모델로 다시 매핑하여 시스템이 비틀리고 회전하는 정확한 "관절"로 이동합니다. 마지막으로 PhysicsGen은 궤적 최적화(기본적으로 작업을 완료하기 위해 가장 효율적인 동작을 시뮬레이션)를 사용하므로 로봇은 상자 위치를 변경하는 등의 작업을 수행하는 최선의 방법을 알 수 있습니다.

각 시뮬레이션은 로봇이 물체를 다룰 수 있는 잠재적인 방법을 안내하는 상세한 훈련 데이터 포인트입니다. 정책(로봇이 따르는 실행 계획)으로 구현되면 기계는 작업에 접근하는 다양한 방법을 갖게 되며 작동하지 않는 경우 다양한 동작을 시도할 수 있습니다.

MIT 박사인 Lujie Yang은 "우리는 각 기계에 대한 전문적인 시연을 다시 기록하기 위해 사람이 필요 없이 로봇별 데이터를 생성하고 있습니다."라고 말했습니다. 프로젝트를 소개하는 새 논문의 주 저자인 전기 공학 및 컴퓨터 과학 학생이자 CSAIL 계열사입니다. "우리는 자율적이고 효율적인 방식으로 데이터를 확장하여 더 다양한 기계에 유용한 작업 지침을 만들고 있습니다."

로봇에 대한 수많은 교육 궤적을 생성하면 결국 엔지니어가 로봇 팔 및 능숙한 손과 같은 기계를 안내하는 대규모 데이터 세트를 구축하는 데 도움이 될 수 있습니다. 예를 들어 파이프라인은 두 개의 로봇 팔이 협력하여 창고 품목을 픽업하고 배송을 위해 올바른 상자에 배치하는 데 도움이 될 수 있습니다. 또한 시스템은 두 대의 로봇을 안내하여 한 집에서 컵 치우기와 같은 작업을 함께 수행할 수도 있습니다.

PhysicsGen의 잠재력은 또한 오래된 로봇이나 다른 환경을 위해 설계된 데이터를 새로운 기계에 대한 유용한 지침으로 변환하는 데까지 확장됩니다. Yang은 "특정 유형의 로봇에 대해 수집되었음에도 불구하고 이러한 이전 데이터 세트를 부활시켜 보다 일반적으로 유용하게 만들 수 있습니다."라고 말했습니다. PhysicsGen은 단 24개의 인간 시연을 수천 개의 시뮬레이션 시연으로 전환하여 디지털 로봇과 실제 로봇이 물체의 방향을 바꾸는 데 도움을 주었습니다.

Yang과 그녀의 동료들은 먼저 블록을 목표 위치로 회전시키는 데 필요한 떠다니는 로봇 손이 있는 가상 실험에서 파이프라인을 테스트했습니다. 디지털 로봇은 PhysicsGen의 대규모 데이터 세트에 대한 교육을 통해 81%의 정확도로 작업을 실행했습니다. 이는 인간의 시연을 통해서만 학습한 기준보다 60% 향상된 수치입니다.

연구원들은 또한 PhysicsGen이 가상 로봇 팔이 협력하여 물체를 조작하는 방식을 개선할 수 있다는 것을 발견했습니다. 그들의 시스템은 두 쌍의 로봇이 순전히 인간이 학습한 기준보다 최대 30% 더 자주 작업을 성공적으로 수행하는 데 도움이 되는 추가 교육 데이터를 생성했습니다.

한 쌍의 실제 로봇 팔을 사용한 실험에서 연구원들은 기계가 팀을 이루어 큰 상자를 지정된 위치로 뒤집을 때 유사한 개선이 관찰되었습니다. 로봇이 의도한 궤적에서 벗어나거나 물체를 잘못 다루었을 때 지침 데이터 라이브러리의 대체 궤적을 참조하여 작업 중간에 복구할 수 있었습니다.

MIT의 토요타 전기 공학 및 컴퓨터 과학, 항공 우주학, 기계 공학 교수인 수석 저자인 Russ Tedrake는 이 모방 유도 데이터 생성 기술이 인간 시연의 강점과 로봇 동작 계획 알고리즘의 힘을 결합했다고 말했습니다.

Toyota Research Institute의 대규모 행동 모델 담당 수석 부사장이자 CSAIL 수석 조사관이기도 한 Tedrake는 "사람이 한 번만 시연해도 동작 계획 문제를 훨씬 쉽게 만들 수 있습니다."라고 말했습니다. "미래에는 아마도 기초 모델이 이러한 정보를 제공할 수 있을 것이며 이러한 유형의 데이터 생성 기술은 해당 모델에 대한 일종의 사후 훈련 방법을 제공할 것입니다."

머지않아 PhysicsGen은 기계가 실행할 수 있는 작업을 다양화하는 새로운 영역으로 확장될 수 있습니다. Yang은 “우리는 PhysicsGen을 사용하여 로봇이 접시를 치우는 것만 훈련했을 때 물을 붓는 방법을 가르치고 싶습니다.”라고 말했습니다. "우리 파이프라인은 익숙한 작업에 대해 동적으로 실행 가능한 모션을 생성할 뿐만 아니라 인간이 아직 보여주지 않은 완전히 새로운 작업을 수행하기 위한 구성 요소 역할을 할 수 있다고 믿는 다양한 물리적 상호 작용 라이브러리를 생성할 수 있는 잠재력도 가지고 있습니다."

널리 적용할 수 있는 훈련 데이터를 많이 생성하면 결국 로봇을 위한 기반 모델을 구축하는 데 도움이 될 수 있지만, MIT 연구원들은 이것이 다소 먼 목표라고 경고합니다. CSAIL이 이끄는 팀은 PhysicsGen이 인터넷 비디오와 같은 방대하고 구조화되지 않은 리소스를 시뮬레이션의 씨앗으로 활용할 수 있는 방법을 조사하고 있습니다. 목표는 일상적인 시각적 콘텐츠를 기계가 명시적으로 보여주지 않은 작업을 수행하도록 가르칠 수 있는 풍부한 로봇 지원 데이터로 변환하는 것입니다.

Yang과 그녀의 동료들은 또한 미래에 다양한 모양과 구성을 가진 로봇에 PhysicsGen을 더욱 유용하게 만드는 것을 목표로 하고 있습니다. 이를 실현하기 위해 그들은 실제 로봇 시연을 통해 데이터 세트를 활용하여 인간 관절 대신 로봇 관절이 움직이는 방식을 포착할 계획입니다.

연구원들은 또한 AI 시스템이 시행착오를 통해 학습하는 강화 학습을 통합하여 PhysicsGen이 인간이 제공한 사례 이상으로 데이터 세트를 확장할 수 있도록 할 계획입니다. 로봇이 환경을 시각적으로 인식하고 해석하는 데 도움이 되는 고급 인식 기술로 파이프라인을 강화하여 기계가 물리적 세계의 복잡성을 분석하고 적응할 수 있도록 할 수 있습니다.

현재 PhysicsGen은 AI가 다양한 로봇에게 동일한 범주 내의 물체, 특히 단단한 물체를 조작하도록 가르치는 데 어떻게 도움이 될 수 있는지 보여줍니다. 파이프라인은 곧 로봇이 부드러운 품목(예:과일)과 변형 가능한 품목(예:점토)을 처리하는 가장 좋은 방법을 찾는 데 도움이 될 수 있지만 이러한 상호 작용은 아직 시뮬레이션하기가 쉽지 않습니다.

출처

향상된 인간과 유사한 감지를 위한 저렴하고 내구성이 뛰어나며 매우 민감한 로봇 피부 초음파를 통해 숨겨진 배터리 결함 발견:새로운 진단 도구

감지기