산업 제조
산업용 사물 인터넷 | 산업자재 | 장비 유지 보수 및 수리 | 산업 프로그래밍 |
home  MfgRobots >> 산업 제조 >  >> Manufacturing Technology >> 산업기술

AI는 간단한 텍스트 기반 레시피에서 완성된 식사의 이미지를 생성합니다.

짧은 시각적 설명에서 그림을 생성하는 것은 어려운 작업이며 컴퓨터 비전에 다양한 응용 프로그램이 있습니다. 최근 연구에 따르면 GAN(Generative Adversarial Networks)은 저해상도와 낮은 변동성을 가진 고품질의 사실적인 사진을 효과적으로 합성할 수 있습니다.

이스라엘 텔아비브 대학교 연구팀의 최근 기여는 이 분야의 연구를 가속화하는 데 도움이 될 수 있습니다. 그들은 텍스트 기반 설명에서 자동으로 그림을 생성할 수 있는 딥 러닝 기반 모델을 구축했습니다.

특히 간단한 레시피로 완성된 식사 이미지를 생성하는 시스템을 시연했다. 이를 위해 시스템은 요리법과 음식 이미지를 위한 최첨단 Stacked GAN과 학습 교차 모드 임베딩의 조합을 사용합니다.

조건부 생성 적대 네트워크

기본적으로 GAN은 서로 경쟁하도록 훈련된 두 가지 모델(생성기와 판별기)로 구성됩니다. 생성기는 원본 데이터 분포와 유사한 이미지를 합성하도록 설계되었으며 판별자의 작업은 원본 이미지와 합성 이미지를 구별하는 것입니다.

이 작업에서 연구자들은 생성자와 판별자가 모두 특정 조건을 고려하도록 하는 조건부 GAN을 사용했습니다. 그들은 의미론적 정규화와 비의미론적 정규화라는 두 가지 종류의 임베딩 기술을 제안했습니다. 이러한 기술은 세 단계로 구성됩니다.

<올>
  • 재료 및 요리 지침의 초기 삽입
  • 전체 레시피의 결합된 신경 임베딩
  • 고수준 분류 목표를 사용하여 의미론적 정규화 손실의 통합.
  • 조건부 GAN은 52,000개의 텍스트 기반 레시피와 해당 그림에 대해 학습됩니다. CUDA Deep Neural Network 라이브러리와 함께 NVIDIA TITAN X GPU를 사용하여 훈련되었습니다. 훈련을 마치면 시스템은 긴 설명(시각 정보가 포함되지 않은)에서 레시피가 어떻게 생겼는지에 대한 그림을 구성했습니다.

    참조:arXiv:1901.02404 | 텔아비브 대학교

    인간 평가

    네트워크는 레시피를 입력으로 받아 음식에 대한 텍스트 기반 설명을 가장 잘 반영하는 그림을 처음부터 생성합니다. 여기서 정말 인상적인 것은 시스템이 레시피 제목에 액세스할 수 없다는 것입니다. 그렇지 않으면 작업이 너무 쉬워지고 레시피 텍스트가 상당히 깁니다. 이것은 인간에게도 작업을 어렵게 만듭니다.

    연구원 제공

    합성된 사진을 더 잘 평가하기 위해 팀은 30명에게 1에서 5까지의 척도에서 가장 매력적인 이미지를 판단하도록 요청했습니다. 그들은 각 임베딩 기술에 의해 생성된 결과 이미지의 해당 쌍(무작위로 선택) 10쌍을 제시했습니다.

    결과는 비의미적 정규화 방법이 사실적인 세부 사항으로 더 생생한 그림을 생성함으로써 의미론적 정규화보다 성능이 우수함을 보여주었습니다. 실제로 일부 사람들은 실제 이미지와 합성 이미지를 구별하기가 매우 어렵다고 생각했습니다.

    읽기:AI는 사실적인 결과를 위해 수백만 개의 예술적 조합을 생성할 수 있습니다.

    더욱이, 두 임베딩 기술 모두 '죽 같은' 음식 사진(샐러드, 수프, 쌀과 같은)을 만드는 데 성공했지만 독특한 모양을 가진 음식 사진(예:치킨, 햄버거, 음료)을 만드는 데 어려움을 겪었습니다.


    산업기술

    1. 매우 간단한 회로
    2. 매우 간단한 컴퓨터
    3. 간단한 연산 증폭기
    4. 단순 콤비네이션 자물쇠
    5. 단순 시리즈 공명
    6. 합금의 미세한 균열에 대한 최초의 3D 이미지
    7. 눈덩이에서 전기를 생성하는 새 기계
    8. 간단한 CMMS 소프트웨어 구입
    9. 유지보수 벤치마킹에 대한 간단한 가이드
    10. Python의 PLCnext AXC F 2152 PLC에서 변수를 사용하는 간단한 REST 기반 라이브러리