산업 제조
산업용 사물 인터넷 | 산업자재 | 장비 유지 보수 및 수리 | 산업 프로그래밍 |
home  MfgRobots >> 산업 제조 >  >> Manufacturing Technology >> 산업기술

Microsoft, AttnGAN 공개:텍스트 설명을 사실적인 이미지로 바꾸는 AI

이전의 노력으로 텍스트-이미지 합성이 향상되었지만 Microsoft의 AttnGAN은 레이블이 지정된 이미지의 광범위한 라이브러리를 활용하여 간결한 텍스트 프롬프트에서 사실적인 이미지를 생성함으로써 이 분야를 발전시킵니다.

Microsoft Research에서 개발된 AttnGAN은 프롬프트에서 개별 단어를 구문 분석하여 이미지 구성을 안내합니다. 팀에 따르면 이 접근 방식은 이전 최첨단 모델보다 약 3배 더 높은 이미지 품질을 제공합니다.

봇의 창작 과정

빨간 날개와 짧은 부리를 가진 파랑새를 그려 달라는 요청을 받았다고 상상해 보십시오. 대략적인 개요로 시작한 다음 색상과 세부 사항을 채웁니다. AttnGAN은 동일한 논리를 따르며 각 단어를 분석하여 상세하고 일관된 이미지를 구축합니다.

봇은 장치부터 야생 동물에 이르기까지 모든 주제를 렌더링할 수 있으며 명시적으로 언급되지 않은 상황에 맞게 적절한 배경 요소를 추가하여 "상상된" 세부 사항에 대한 능력을 보여줍니다.

이미지는 처음부터 픽셀 단위로 합성되어 모델이 실제로 존재하지 않는 장면을 만들 수 있습니다. 이 생성 작업은 단순히 기존 사진에 라벨을 붙이는 것보다 본질적으로 더 복잡합니다.

AttnGAN이 이미지를 생성하는 방법

  1. 생성기: 텍스트 설명을 기반으로 이미지를 생성합니다.
  2. 판별자: 설명과 비교하여 생성된 이미지의 진위 여부를 평가합니다.

두 모델 모두 공동으로 훈련되어 생성기가 판별기의 피드백을 학습하고 점진적으로 더 높은 충실도를 달성할 수 있습니다.

훈련에는 수천 개의 쌍을 이루는 사진 캡션 데이터 세트가 포함되어 AttnGAN이 특정 단어를 시각적 패턴에 매핑하도록 가르쳤습니다. 예를 들어, "코끼리"라는 단어는 모델이 일반적인 코끼리의 외모와 일치하는 이미지를 생성하도록 트리거합니다.

시스템은 복잡한 문장을 개별 단어로 나누고 각 단어를 이미지 영역에 정렬합니다. 또한 훈련 중에 누락된 세부 사항을 채우는 '인공 상식'을 학습하여 현실적인 구성을 보장합니다.

Microsoft, AttnGAN 공개:텍스트 설명을 사실적인 이미지로 바꾸는 AI

이 예에서는 프롬프트에 새만 언급되었습니다. AttnGAN은 훈련 데이터에서 학습한 일반적인 실제 상황인 가지에 새를 지능적으로 배치했습니다. 이는 상황에 맞는 지식을 적용하는 모델의 능력을 보여줍니다.

arXiv:1711.10485 – AttnGAN을 자세히 설명하는 Microsoft 연구 논문.

Microsoft, AttnGAN 공개:텍스트 설명을 사실적인 이미지로 바꾸는 AI

호수 위에 떠 있는 이층 버스를 묘사하라는 요청을 받았을 때, 모델은 흐릿하지만 눈에 띄게 혼합된 장면을 연출하여 프롬프트에서 상충되는 요소를 조화시키려는 노력을 강조했습니다.

성능 및 사용 사례

AttnGAN은 이전 벤치마크를 능가하여 COCO 데이터 세트의 시작 점수가 170.25% 향상되고 CUB 데이터 세트가 14.14% 향상되었습니다.

잠재적인 응용 분야에는 인테리어 디자이너를 위한 스케치 보조, 음성으로 활성화되는 사진 개선, 추가 개발을 통해 시나리오에서 완전 자동화된 애니메이션 제작 등이 포함됩니다.

기타 AI 예술 생성기

예술과 AI를 결합하는 데에는 마이크로소프트만 있는 것이 아닙니다. Google의 DeepDream은 2016년에 선보인 사이키델릭 이미지를 만들었고 Google의 AI는 Tacotron2와 같은 음악 및 음성 합성을 제작했습니다. Facebook과 Nvidia도 자동차, 선박, 동물, 합성 유명 아바타를 위한 생성 모델을 출시했습니다.

Google의 인간과 유사한 음성 AI Tacotron2 에 대해 읽어보세요. .


산업기술

  1. 엣지 컴퓨팅과 스마트 생산에서의 중요성
  2. Flexible vs Rigid:회로 기판 어셈블리의 차이점
  3. 새로운 Brain-to-Brain 네트워크를 통해 세 명의 사용자가 직접 생각을 공유할 수 있습니다.
  4. 다단계 인증을 구현하는 방법 및 중요한 이유
  5. IBM, 세계에서 가장 정확한 일기 예보 시스템 개발
  6. 회로와 빛의 속도
  7. 통합 CAD/CAM 소프트웨어의 이점은 무엇입니까?
  8. 허리케인 시즌이 시작될 때 준비가 되셨습니까?
  9. Industry 4.0 사례 연구:로봇 공학, 적층 제조 및 수평/수직 통합
  10. 특별 가격 계약을 통해 공급망을 강화하는 방법