사물 인터넷 기술
오늘날보다 데이터를 수집하기가 그 어느 때보다 쉬워졌습니다. 몇 번의 클릭만으로 클라우드가 제공해야 하는 모든 최고의 데이터 기술로 무장하여 가능한 모든 데이터를 저장할 수 있습니다. 불과 10년 전만 해도 상황이 극적으로 달라졌다는 것이 믿기지 않을 수 있습니다. 실제로 대규모 데이터 수집은 모든 데이터를 저장할 수 있는 유일한 실행 가능한 옵션인 값비싼 서버와 최상의 결과를 낼 수 있는 소수의 엔지니어 모두를 감당할 수 있는 가장 큰 기업, 조직의 유일한 옵션이었습니다. 데이터 과학이 막 싹을 틔우는 분야였을 때였습니다.
오늘날 운 좋게도 데이터 생성은 더 이상 기업의 스포츠가 아닙니다. 사실, 사물 인터넷(IoT) 덕분에 우리는 이제 좋든 나쁘든 작은 빅 데이터 공장이 되었습니다. 2020년까지 인간 한 명이 초당 1.7MB의 데이터를 생성하게 됩니다. 지금도 자율주행 차량 한 대가 하루에 11TB의 데이터를 생성합니다. 그리고 이 추세는 줄어들 기미가 보이지 않습니다. 오히려 증가할 것입니다.
이것은 모든 데이터 애호가들에게 분명히 좋은 소식입니다. 고품질 데이터 세트를 수집하는 것이 힘들고 고된 작업이었던 것은 그리 오래 전 일이 아닙니다. 그래도 우리는 항상 더 많은 것을 원합니다. 새로운 딥 러닝 모델이 92%의 정확도에 "유일"한 것처럼 보인다면 가장 쉽고 준비된 변명은 데이터를 비난하는 것입니다. "내 데이터 세트가 충분히 크지 않습니다." 우리는 상사에게 아무렇지 않게 말합니다. "하지만 몇 주만 더 기다리면 이 모델이 지금까지 본 것 중 최고가 될 것입니다!"
이것은 중요한 질문을 제기하는 것 같습니다. 실제로 얼마나 많은 데이터가 충분합니까? 그러나 실제로는 훨씬 더 중요한 문제를 제기합니다. 데이터가 너무 많습니다. ?
흥미롭게도 우리는 이 질문을 머신 러닝 분야에서 자주 듣지 않습니다. 빅 데이터는 엄청난 기회인 동시에 40제타바이트의 거대한 책임이기도 합니다. 데이터가 실제로 새로운 석유라면 우리는 비유를 한계까지 밀어붙일 필요가 있습니다. 데이터는 매우 수익성이 높은 자원이지만 석유와 마찬가지로 정제되어야 합니다. 통제되지 않은 사용을 자제하지 않으면 우리를 위험에 빠뜨리고 있습니다. 요컨대, 오늘날 우리가 데이터를 사용하고 고려하는 방식은 매우 지속 가능하지 않으며 이 사실은 여전히 집단 의식에 거의 도달하지 못하고 있습니다.
어쩌면, 어쩌면 이것은 잘못된 대화입니다. 빅 데이터는 결국 AI에 대한 진정한 답이 아닐 수도 있습니다.
잠시 뒤로 물러나서 우리가 정말로 수집하고 있는 것이 무엇인지 생각해보자. 디지털화 초기에는 데이터 수집에 더 많은 비용이 들었기 때문에 우리가 그 자리를 선택했습니다. 우리는 더 책임감 있고 조금 더 양심적이었습니다. 데이터 생성 및 수집이 점점 더 쉬워지면서 품질에 대한 관심은 줄어들었고 양은 클라우드 스토리지, 클라우드 컴퓨팅, GPU 머신, 대규모 데이터 관리 및 전송 시스템과 같은 신기술의 자연스러운 부산물이 되었습니다. 순식간에 데이터는 필수품이 되었지만 데이터 및 데이터 스토리지의 지속적인 확대로 누구도 단순한 질문을 하지 않았습니다. 우리가 이것을 수집하는 이유는 무엇입니까? 말이 되나요?
모델 구축의 상품화와 함께 데이터 해자는 확실히 AI 차별화에 대한 분명한 답처럼 보일 수 있지만 우리 모두는 큰 그림을 놓치고 있었습니까? 데이터 나이. 그것은 낡았다. 그리고 궁극적으로 데이터와 정보가 완전히 다른 두 가지라고 믿게 되더라도 모든 데이터는 그렇지 않습니다. 동등하게 만들어졌습니다. Instagram에 게시하기 전에 자신의 셀카 20장을 찍는 십대는 결국 검색 가능한 의학 문헌 카탈로그와 확실히 다릅니다.
하드웨어의 발전이 데이터 종말로부터 우리를 안전하게 지켜줄 것이라는 믿음에 집착하는 한, 이 중 어느 것도 문제가 되지 않는 것 같습니다. 데이터 스토리지는 날이 갈수록 저렴해지고 있으며 컴퓨팅 성능에 점점 더 접근할 수 있습니다. 이는 데이터 생성이 무어의 법칙을 따라갈 수 있는 엔지니어의 능력으로 상쇄되는 경우에만 사실입니다. 무한정 그렇게 할 수 있다고 해도 다음 사항을 고려하십시오. 모든 데이터가 동일한 정보를 제공하지 않는다면 수준 이하 또는 중복 데이터를 처리하는 요점이 무엇입니까?
사물 인터넷 기술
빅 데이터의 더 나은 보안과 더 빠르고 더 효율적인 컴퓨팅은 산업이 단편적인 솔루션 대신 전체적인 IoT 채택에 집중할 것임을 의미합니다. IoT는 지난 몇 년 동안 과대 광고 사이클에 있었습니다. 많은 전달이 아니라 과대 광고에 중점을 둡니다. 물론 수면과 기상 시간을 기반으로 온도 조절기 온도를 예측하는 연결된 물병이나 집이 있다는 것은 매력적인 일이지만 (재미는 있지만) 이것은 여전히 표면 수준의 구현입니다. IoT의 가장 큰 트렌드 중 하나는 IoT 그 자체 또는 오히려 전체 활용이 될 것입니다. 과거:표면 연결
데이터 사용에 대한 규제 규정과 데이터에 액세스할 수 있는 사람은 온라인 세상에서 우리가 움직이는 방식을 바꿀 것입니다. 지난 10년 동안 데이터는 세계 경제의 원동력인 새로운 석유로 부상했습니다. 엄청난 양의 데이터로 인해 데이터 사용에 대한 새로운 우려가 개인 정보 보호 및 보안 영역 내에서 혁신을 주도했습니다. 향후 몇 개월 및 몇 년 동안 개인 정보는 최신 혁신 원동력으로 다시 나타나 현재 일어나고 있는 추세에서 장기적인 변화를 일으킬 것입니다. 이러한 상황 중 일부가 개인정보 보호에 대한 이해와 업계 사용 사례에