AI를 위한 데이터의 가치 짜기

데이터는 자율 주행의 핵심으로 딥 러닝에 의존하는 자율 주행 차량(AV) 공급업체에게 모든 면에서 모든 것입니다.

데이터는 AV 회사가 공공 도로에서 수 마일의 테스트 경험을 쌓고 페타바이트의 도로 지식을 기록 및 비축하는 이유입니다. 예를 들어 Waymo는 7월에 실제 세계에서 1천만 마일 이상, 시뮬레이션에서 100억 마일 이상을 주행했다고 주장했습니다.

하지만 업계에서 묻고 싶지 않은 또 다른 질문이 있습니다.

AV 회사가 이미 실제 도로에서 페타바이트 또는 엑사바이트의 데이터를 수집했다고 가정합니다. 해당 데이터 세트 중 얼마나 많은 레이블이 지정되었습니까? 아마도 더 중요한 것은 주석이 달린 데이터가 얼마나 정확합니까?

Edge Case Research의 공동 설립자이자 CTO인 Phil Koopman은 EE Times와의 최근 인터뷰에서 "아무도 모든 것에 레이블을 붙일 여유가 없다"고 주장했습니다.

데이터 레이블 지정:시간과 비용이 많이 소요됨

주석을 달기 위해서는 일반적으로 전문가의 눈이 짧은 비디오 클립을 본 다음 모든 자동차, 보행자, 도로 표지판, 신호등 또는 자율 주행 알고리즘과 관련이 있을 수 있는 기타 항목 주위에 상자를 그리고 레이블을 지정해야 합니다. 이 과정은 시간이 많이 소요될 뿐만 아니라 비용도 많이 듭니다.

"Data Annotation:AI Breakthroughs 뒤에 있는 10억 달러 비즈니스"라는 제목의 Medium 기사는 품질 관리에 중점을 두고 도메인별 레이블이 지정된 데이터를 제공하도록 설계된 "관리 데이터 레이블링 서비스"의 급속한 출현을 보여줍니다. 언급된 이야기:

자체 데이터 라벨링 직원 외에도 기술 회사 및 자율 주행 스타트업은 이러한 관리형 라벨링 서비스에 크게 의존하고 있습니다. 일부 자율 주행 회사는 비용을 지불하고 있습니다. 매월 수백만 달러 이상의 데이터 라벨링 회사.

몇 년 전 IEEE Spectrum의 또 다른 이야기에서 Drive.ai의 공동 설립자이자 사장인 Carol Reiley는 다음과 같이 말했습니다.

수천 명의 사람들이 사물 주위에 상자에 레이블을 지정합니다. 1시간 운전할 때마다 약 800시간이 소요됩니다. 이 팀들은 모두 고군분투할 것입니다. 우리는 이미 훨씬 더 빠르고 지속적으로 최적화하고 있습니다.

Drive와 같은 일부 회사에서는 데이터 레이블 지정의 지루한 프로세스를 가속화하기 위해 딥 러닝을 사용하여 데이터 주석 자동화를 강화하고 있습니다.

레이블이 없는 데이터를 사용합시다

그러나 Koopman은 "축적된 데이터에서 가치를 짜내는" 다른 방법이 있다고 믿습니다. "대부분의 페타바이트의 기록 데이터에 레이블을 지정하지 않고" 이 작업을 수행하는 것은 어떻습니까?

그는 Edge Case Research가 AV 산업이 보다 안전한 인식 소프트웨어의 개발을 가속화할 수 있는 방법을 고안할 때 이것을 "발견"했다고 설명했습니다. Edge Case Research에서는 이를 "홀로그램"이라고 부르며, 이는 본질적으로 AV용으로 설계된 "AI 인식 스트레스 테스트 및 위험 분석 시스템"입니다.

좀 더 구체적으로 말하면 "Hologram은 레이블이 없는 데이터를 사용한다"고 Koopman이 설명했듯이 시스템은 레이블이 지정되지 않은 동일한 데이터를 두 번 실행합니다.

첫째, 기성품의 일반 인식 엔진에서 레이블이 지정되지 않은 기준 데이터를 실행합니다. 그런 다음 레이블이 지정되지 않은 동일한 데이터로 홀로그램이 적용되어 아주 약간의 섭동(노이즈)이 추가됩니다. 홀로그램은 시스템에 스트레스를 가함으로써 AI 알고리즘에서 인식의 잠재적인 약점을 드러낼 수 있습니다.

예를 들어 비디오 클립에 약간의 입자가 추가되면 사람은 "거기에 무언가가 있지만 그것이 무엇인지 모르겠습니다"라고 인식할 수 있습니다.

그러나 스트레스를 받는 AI 기반 인식 시스템은 알 수 없는 물체를 완전히 놓치거나 임계값을 넘어 다른 분류 상자에 넣을 수 있습니다.

AI가 아직 학습 중일 때 AI의 신뢰 수준(보고 있는 내용을 결정함에 따라)을 아는 것이 유용합니다. 그러나 AI가 세상에 적용될 때 신뢰 수준은 우리에게 많은 것을 말해주지 않습니다. AI는 종종 "추측"하거나 단순히 "추측"합니다.

즉, AI가 그것을 속이고 있습니다.

홀로그램은 설계상 AI 기반 인식 소프트웨어를 "찔릴" 수 있습니다. AI 시스템이 실패한 위치를 노출합니다. 예를 들어, 스트레스를 받는 시스템은 물체를 장면에서 신비롭게 사라지게 하여 혼란을 해결합니다.

아마도 더 흥미롭게도 홀로그램은 소음 속에서 AI가 "거의 실패"했지만 올바르게 추측한 위치를 식별할 수도 있습니다. 홀로그램은 AI 기반 시스템이 그렇지 않으면 "운이 좋지 않을 수 있는" 비디오 클립의 영역을 공개한다고 Koopman은 말했습니다.

Koopman은 페타바이트의 데이터에 레이블을 지정하고 두 번 실행하지 않고도 Hologram이 "비정상적"으로 보이는 부분과 더 많은 데이터를 수집하거나 더 많은 교육을 수행하여 "돌아가서 다시 보는 것이 더 나은" 영역에 대한 경고를 제공할 수 있다고 말했습니다. .

물론 이것은 홀로그램의 매우 단순화된 버전입니다. 왜냐하면 실제로 도구 자체에는 "수많은 엔지니어링으로 뒷받침되는 많은 비밀 소스가 함께 제공되기 때문입니다."라고 Koopman이 말했습니다. 그러나 홀로그램이 사람이 검토할 가치가 있는 "좋은 부분만" 사용자에게 말할 수 있다면 현재 잠겨 있는 데이터에서 실제 가치를 얻을 수 있는 매우 효율적인 방법이 될 수 있습니다.

Koopman은 "기계는 게임 시스템에 놀라울 정도로 능숙합니다. 또는 'p-hacking' 같은 일을 한다. P-hacking은 유의미하지 않은 결과가 유의미해질 때까지 연구자가 데이터 또는 통계적 분석을 수집하거나 선택할 때 발생하는 일종의 편향입니다. 예를 들어, 기계는 존재하지 않는 데이터 내에서 상관 관계를 찾을 수 있습니다.

오픈 소스 데이터 세트

이것이 Edge Case Research에 좋은 소식인지 묻는 질문에 Koopman은 “불행히도 이러한 데이터 세트는 연구 커뮤니티에서만 사용할 수 있습니다. 상업적 용도가 아닙니다.”

또한 이러한 데이터 집합을 사용하여 홀로그램을 실행하더라도 데이터 수집에 사용된 것과 동일한 인식 엔진을 사용하여 AI 시스템의 약점 영역을 이해해야 합니다.

홀로그램의 스크린샷

다음은 최신 상용 버전의 홀로그램이 작동하는 방식을 보여주는 스크린샷입니다.

홀로그램 엔진은 인지 시스템이 이 정지 신호를 식별하지 못한 경우를 찾아 분석가에게 시끄러운 배경과 같은 유발 조건을 발견할 수 있는 강력한 도구를 제공합니다. (출처:Edge 사례 연구)

홀로그램은 노이즈를 추가하여 AI 시스템이 정지 신호(주황색 막대)를 거의 놓치거나 정지 신호를 완전히 인식하지 못하게 하는 트리거 조건(아래쪽 빨간색 막대)을 찾습니다.

주황색 막대는 더 많은 데이터를 수집하여 AI 설계자에게 AL 알고리즘 재교육이 필요한 특정 영역에 대해 경고합니다. 빨간색 막대를 통해 AI 설계자는 트리거 조건을 탐색하고 추측할 수 있습니다. AI가 정지 신호를 놓친 원인은 무엇입니까? 표지판이 기둥에 너무 가까웠습니까? 배경이 시끄럽거나 눈에 보이는 대비가 충분하지 않습니까? 유발 조건의 충분한 예가 누적되면 특정 유발 요인을 식별하는 것이 가능할 수 있다고 Edge Case Research의 제품 관리자인 Eben Myers는 설명했습니다.

홀로그램은 AV 설계자가 인지 소프트웨어가 이상하고 잠재적으로 안전하지 않은 동작을 나타내는 경우를 찾는 데 도움이 됩니다. (출처:Edge 사례 연구)

Ansys와의 파트너십

이번 주 초 Ansys는 Edge Case Research와 파트너십 계약을 발표했습니다. Ansys는 홀로그램을 시뮬레이션 소프트웨어에 통합할 계획입니다. Ansys는 통합을 "AV 개발을 위한 업계 최초의 전체적인 시뮬레이션 도구 체인"을 설계하기 위한 중요한 기본 구성 요소로 보고 있습니다. Ansys는 2021년에 첫 번째 AV를 제공하기로 약속한 BMW와 협력하고 있습니다.

ANSYS와 BMW, 자율 주행을 위한 시뮬레이션 도구 체인 생성(출처:Ansys)

— Junko Yoshida, AspenCore Media 글로벌 공동 편집장, EE Times 최고 국제 특파원

>> 이 기사는 원래 다음 날짜에 게시되었습니다. 자매 사이트인 EE Times:"레이블이 지정되지 않은 데이터를 사용하여 AI가 가짜인지 확인하십시오."

귀하의 애플리케이션에 완벽한 스위치를 찾기 위한 10가지 요소 에너지 절약 부품으로 산업 에너지 효율성 향상

사물 인터넷 기술