삼성 AI는 한 장의 사진으로 말하는 장면을 만들 수 있습니다
- 새로운 AI 모델은 단일 이미지에서 말하는 아바타를 제작할 수 있습니다.
- 개발자들은 이 모델을 레오나르도 다빈치와 모나리자를 비롯한 대중적인 그림에 적용했습니다.
- 결과에 시각적 결함이 있지만 이전 기술보다 훨씬 인상적입니다.
딥페이크(인간 이미지 합성을 위한 인공 지능 기반 기술)를 생성하기 위한 소프트웨어는 사실적인 위조를 만들기 위해 많은 이미지 세트가 필요합니다. 최근 신경망의 발전은 광범위한 데이터 세트에서 네트워크를 훈련함으로써 매우 사실적인 인간 이미지를 얻을 수 있음을 보여주었습니다.
그러나 모스크바에 있는 삼성 연구 센터의 개발자들은 이제 단일 이미지에서 말하는 아바타를 만들 수 있는 새로운 인공 지능(AI) 모델을 개발했습니다. 하나의 이미지에서 비디오 클립을 조작하는 것도 가능하지만 여러 장의 사진을 통해 훈련하면 보존 상태를 더 잘 식별하고 사실감을 더 높일 수 있습니다.
이 모델에서 생성된 토킹 헤드는 워핑 기반 시스템의 능력을 능가하는 포즈를 포함하여 다양한 포즈를 처리할 수 있습니다. 시각적 결함이 있을 수 있지만 결과는 이전 기술에 비해 훨씬 인상적입니다. 이 모델은 궁극적으로 실제 비디오와 구별하기 어려운 멀티미디어 생성으로 이어집니다.
관련 과제
사실적인 말하는 아바타 시퀀스를 제작하는 것은 주로 두 가지 이유 때문에 어렵습니다.
<올>
인간의 머리는 운동학적, 기하학적, 광도학적 복잡성이 높습니다. 머리카락, 눈, 구강 및 기타 여러 요소를 정확하게 모델링해야 합니다.
인간의 머리를 모델링하는 외모의 작은 오류에 대한 시각 시스템의 날카로움
이러한 문제를 해결하기 위해 새로운 AI 모델은 학습 과정에서 3개의 신경망을 생성합니다. 얼굴 랜드마크 프레임을 벡터와 연결하는 임베디드 네트워크를 구축합니다. 그런 다음 합성된 클립에 랜드마크를 매핑하는 생성기 네트워크를 구축합니다. 마지막 단계에서 판별자 네트워크는 프레임의 자세와 사실성을 평가합니다.
참조:arXiv:1905.08233 | 유튜브
얼굴의 랜드마크와 움직임을 더 잘 이해하기 위해 연구원들은 수천 개의 YouTube 동영상에서 사람이 말하는 것으로 네트워크를 훈련했습니다. 그런 다음 결과(말하는 사람)를 정량적 측정을 통해 대체 신경망과 비교했습니다.
결과
팀은 이 모델을 모나리자, 레오나르도 다빈치, 알버트 아인슈타인과 같은 많은 인기 인물의 이미지에 적용했습니다. AI는 단일 이미지에서 말하는 비디오를 조작하여 고전적인 인물 사진에 생명을 불어넣을 수 있었습니다. 동영상을 만들려면 사진 한 장만 있으면 됩니다. 그러나 32개의 사진으로 훈련된 모델은 더 나은 개인화 점수와 완벽한 사실감을 얻을 수 있습니다.
이러한 유형의 AI는 멀티플레이어 게임, 화상 회의 및 특수 효과 산업을 포함하여 텔레프레즌스에서 몇 가지 실용적인 응용 프로그램을 가질 수 있습니다.
읽기:IBM, 비디오에서 장면을 감지하는 AI 개발
단점으로, 이러한 기술의 급속한 발전은 잘못된 정보, 사칭, 사기 및 선거 조작의 위험을 높일 수 있습니다.