성공적인 AI는 모두 데이터 관리에 달려 있습니다

데이브 스미스

인공 지능(AI)은 현실에서든 단순한 규칙 기반 의사 결정을 위한 과장된 레이블이든 오늘날 모든 곳에 있으며, 이로 인해 몇 가지 흥미로운 문제가 발생했다고 GDPR 기술 책임자인 David Smith가 말했습니다. SAS 영국 및 아일랜드 .

첫 번째는 영국 과학 협회 차기 회장이 언급한 불신입니다. Jim Al-Khalili 교수:"AI에 대한 대중의 반발이 실제로 발생할 위험이 있으며, 이는 잠재적으로 밀레니엄 초에 GM[유전자 변형]에 대해 겪었던 것과 유사합니다." Al-Khalili는 AI가 최대한의 잠재력을 발휘하려면 더 많은 투명성과 대중의 참여가 필요하다고 강조합니다.

두 번째 잠재적인 문제는 통제의 문제입니다. 모델이 모니터링 및 제어 없이 실행되도록 방치된다면 잘못된 결정을 내릴 가능성이 있습니다. 예를 들어 2010년 미국 주식 시장이 36분 동안 약 9% 하락한 "Flash Crash"가 있습니다. 규제 기관은 시장을 스푸핑하는 단일 거래자를 비난했지만, 알고리즘 거래 시스템은 적어도 부분적으로 충돌의 깊이에 책임이 있습니다.

좋은 AI 활용

그렇긴 해도 AI는 종양 이미지의 보다 효율적인 스크리닝을 통해 더 나은 암 진단을 제공하거나 야생 동물 발자국 이미지를 해석하여 멸종 위기에 처한 종을 보호하든지 간에 엄청난 잠재력을 가지고 있습니다. 과제는 이러한 이점이 실현되도록 하는 것이며, AI가 적절하게 사용되도록 설계된 FATE(Fairness, Accountability, Transparency and Explainable) 프레임워크가 등장합니다. 저는 데이터 관리가 가장 큰 영향을 미치는 투명성 측면에 중점을 둘 것입니다.

AI는 데이터를 제공하는 만큼만 우수할 수 있으며 AI 애플리케이션을 구축하고 사용하려면 여러 데이터 관련 단계가 필요합니다.

<울>

관련이 없거나 잘못된 항목이 포함된 데이터에 대해 모델링이 수행되지 않도록 하는 데이터 품질 정리

모델링 프로세스가 시작되기 전에 데이터 변환, 결합 및 향상

모델을 취하고 이를 조직의 데이터에 적용하여 의사 결정을 유도하는 배포

이들 각각은 가치를 추가하지만 잠재적으로 AI 프로세스의 결과를 변경할 수도 있습니다. 예를 들어, 데이터 품질 프로세스가 이상치를 제거하면 매우 다른 영향을 미칠 수 있습니다. 이상치 제거가 적절하다면 결과는 대부분의 데이터를 매우 잘 반영하는 모델이 될 것입니다. 반면에 드물지만 중요한 상황을 무시하고 실질적인 이익을 얻을 수 있는 기회를 놓칠 수도 있습니다.

이것은 Dame Jocelyn Bell Burnell이 회전하는 중성자별의 일종인 펄서를 발견했을 때 보여졌습니다. 그녀는 전파 망원경에서 수 마일에 달하는 출력 데이터를 조사하고 100,000개 데이터 포인트 중 하나에서 작은 신호를 발견했습니다. 그녀의 상사는 그것이 인공 간섭이라고 말했음에도 불구하고 그녀는 끈질기고 유사한 신호를 다른 곳에서 성공적으로 찾아 그들의 존재를 증명했습니다. 이상치가 제거되었다면 그녀는 발견하지 못했을 것입니다.

데이터 여정

난처한 결정을 방지하기 위해 데이터 품질도 적용해야 합니다. Bank of America인 경우 이름 데이터의 유효성을 확인했다면 'Lisa Is A Slut McXxxxxx'(이름이 수정되었습니다. Ed.)에게 신용카드 제안을 보내지 않았을 수 있습니다. 그들은 Golden Key International Honor Society에서 데이터를 획득했습니다. , 학업 성취도를 인정합니다. 익명의 개인이 회원 명부에 있는 그녀의 이름을 수정했습니다.

그런 다음 프로세스는 모델링을 위해 데이터를 준비하기 위해 변환을 계속합니다. 소스 시스템은 일반적으로 고도로 정규화되어 여러 테이블에 정보가 저장되어 있는 반면 데이터 과학자는 분석할 단일 정사각형 테이블을 좋아합니다. 분석을 돕기 위해 파생 변수를 추가해야 하는 경우가 많습니다. 이들은 일반적으로 데이터 과학자가 임시 데이터 준비 환경에서 초기에 정의하지만 프로덕션 목적으로 더 통제된 환경으로 이동해야 합니다.

이 데이터 변환 단계의 영향은 엄청날 수 있습니다. 첫째, 분석에 사용되는 데이터 소스를 이해하는 것이 중요합니다. 이는 개인 데이터 사용 여부와 같은 규제 문제와 관련되거나 단순히 올바른 데이터 소스에 액세스하고 있는지 확인하기 위한 것일 수 있습니다. 둘째, 변환이 적절하고 올바르게 구현되었는지 이해하는 것이 중요합니다. 구현 오류는 품질이 낮은 데이터만큼 피해를 줄 수 있습니다.

AI에 직접적으로 영향을 미치는 마지막 데이터 프로세스는 배포로, 올바른 데이터가 모델에 제공되고 결과를 사용하여 조직의 성과에 직접적인 영향을 미치는 결정을 내립니다. 모델은 실제 세계를 정확하게 예측하는 기간이 정해져 있으므로 프로덕션에 모델을 배포하는 데 너무 오래 걸리면 전체 가치를 제공하지 못할 것입니다.

조직화된 배포 프로세스는 GDPR 22조의 요구 사항을 충족하는 데 필요한 구성 요소이기도 합니다. 이 문서에서는 엄격한 조건(예:완전한 동의)을 준수하지 않는 한 개인 데이터에 대한 분석 프로파일링의 사용을 금지합니다. 제어된 배포를 통해 AI 프로세스에 사용된 데이터와 한 번에 데이터에 적용된 분석 모델에 대한 개요를 볼 수 있습니다. 이는 규정이 훼손되었는지 여부를 판단하는 데 중요합니다.

전반적으로 데이터 관리는 AI가 진정한 잠재력에 도달할 수 있도록 하는 기본입니다. 데이터 처리가 달성되는 방식을 이해할 수 있다는 것은 공정하고 신뢰할 수 있으며 효과적인 AI의 주요 기둥 중 하나인 투명성을 유지하는 데 중요한 부분입니다.

이 블로그의 저자는 SAS UK &Ireland의 GDPR 기술 책임자인 David Smith입니다.

빅 데이터 및 건물 분석이 어디에도 없는 이유:1부 IIoT, Industry 4.0 및 지게차 무료:2부

사물 인터넷 기술