AI는 딥 러닝 모션 전송을 통해 아마추어 댄서를 전문가로 변화시킵니다.

획기적인 딥 러닝 시스템은 모든 동영상 장면에서 최고의 댄스 스타의 안무를 복제할 수 있습니다.
스튜디오 품질의 결과를 생성하려면 값비싼 3D 리그나 모션 캡처 슈트가 필요하지 않은 일반 비디오 입력만 필요합니다.

인공 지능은 가전제품부터 우주 탐사까지 산업을 재편하고 있으며, 이 최신 혁신은 예술 분야에서 인공 지능의 변혁적 힘을 보여줍니다. 캘리포니아 대학교 연구원들은 소스 댄서의 움직임을 대상 연기자에게 매핑하는 모션 전송 알고리즘을 개발하여 일반 참가자도 노련한 발레리나나 팝 아이콘처럼 보이게 만들었습니다.

핵심 아이디어는 간단합니다. "내가 하는 대로 하세요." 단 몇 분 만에 시스템은 전문적인 댄스 동작을 대상 주제에 오버레이하여 공연자, 교육자 및 콘텐츠 제작자에게 새로운 창의적 가능성을 열어줍니다.

기술의 작동 방식

이 프로세스는 소스 비디오와 대상 비디오 모두에서 키포인트 기반 포즈 뼈대를 추출하는 것으로 시작됩니다. 이러한 포즈 막대 그림은 모양에 구애받지 않는 가벼운 신체 위치 표현을 제공하므로 모델이 동작에만 집중할 수 있습니다.

AI는 딥 러닝 모션 전송을 통해 아마추어 댄서를 전문가로 변화시킵니다.

각 프레임의 포즈는 감독된 포즈 추정 알고리즘에 의해 생성되어 정확한 막대 모양을 생성합니다. 그런 다음 모션 전송 모델은 이러한 뼈대를 수집하여 대상의 모양을 유지하면서 소스의 포즈를 모방하는 대상 이미지를 생성합니다. 포즈 전송 모듈을 생성적 개선 네트워크와 융합하여 최종 출력을 개선하여 더욱 선명하고 사실적인 프레임을 제공합니다.

작업 흐름은 세 단계로 구분됩니다:

포즈 감지 – 소스 및 대상 영상 모두에서 2D 키포인트를 추출합니다.
전체 포즈 정규화 – 피사체 전체의 골격을 정렬합니다.
포즈 매핑 – 소스 포즈와 일치하는 대상 프레임을 합성합니다.

시간적 부드러움을 보장하기 위해 알고리즘은 현재 프레임의 포즈를 이전에 생성된 프레임과 혼합하여 지터를 크게 줄입니다. 낮은 프레임 속도 입력의 경우 중간 필터가 적용됩니다. 높은 프레임 속도의 비디오(최대 120fps)에는 키포인트의 가우스 평활화가 사용됩니다.

주제당 20분 이상의 프레임 속도가 높은 아마추어 댄스 영상에 대해 훈련된 cGAN(조건부 생성 적대 신경망)을 통합하여 충실도가 높은 결과를 얻을 수 있습니다. NVIDIA가 개발한 pix2pixHD 아키텍처는 이미지 번역 파이프라인의 백본 역할을 합니다.

참조:arXiv:1808.07371

학습 및 추론은 CUDA 가속 기능이 있는 PyTorch를 사용하여 NVIDIA GeForce GTX1080Ti 및 TITANXp GPU에서 수행되었습니다.

향후 방향

이 알고리즘은 현재 특수 하드웨어 없이도 다양한 주제에 걸쳐 모션 전송을 지원합니다. 그러나 특히 소스의 모션 속도가 훈련 중에 표시된 범위를 초과하는 경우 가끔 지터가 남아 있습니다. 진행 중인 연구는 자세 추정 방법을 최적화하고 모션 레퍼토리를 확장하여 이러한 아티팩트를 완화하는 데 중점을 두고 있습니다.

관련된 획기적인 내용은 NVIDIA AI가 30fps 비디오를 240fps로 변환할 수 있음 을 참조하세요.

음향 인쇄:음파는 모든 액체에서 정확한 물방울을 생성합니다. 새로운 3D 프린팅 바이오 잉크 각막으로 기증자 부족 현상 최소화 – 10분 만에 제작 달성

산업기술