산업 제조
산업용 사물 인터넷 | 산업자재 | 장비 유지 보수 및 수리 | 산업 프로그래밍 |
home  MfgRobots >> 산업 제조 >  >> Manufacturing Technology >> 산업기술

Word Embeddings가 새로운 열전기를 발견하는 방법

오늘 누구에게나 이야기하면 인공 지능이 차세대 제품이라고 말할 것입니다. 모두가 한 조각을 원하지만 누구도 씹을 수 없는 뜨거운 감자입니다.

그들 중 상당수는 AI가 실제로 과대 광고에 불과하기 때문에 진행되는 많은 일에 대해서도 알려줄 것입니다. Powerpoint를 차려입은 오래된 기계 학습과 수학을 찬양하는 것입니다. 그리고 대부분 그들의 말이 맞을 것입니다.

그러나 딥 러닝과 같은 AI 도구의 적용이 혁신에 가까운 한 분야는 자연어 처리입니다.

쉬운 예는 웹사이트를 조작하는 챗봇입니다. LSTM(Long Short Term Memory) 신경망이라고 하는 비교적 복잡한 딥 러닝 아키텍처에 의해 실행됩니다. 이러한 알고리즘은 우리가 말하는 내용을 '이해'하고 그에 대한 응답으로 읽기 쉽고 일관된 문장을 조합할 수 있습니다. 물론, 이 봇은 소크라테스가 아니지만 무작위로 뒤죽박죽 섞인 단어를 뱉어내지는 않습니다. 일부 낮은 수준의 지능에 대한 부인할 수 없는 암시가 있습니다.

워드 임베딩

언어 처리에서 딥 러닝의 현대 시대는 2013년 Tomas Mikolov의 word2vec 논문 출판과 함께 시작되었습니다. 그들의 승리는 단어 임베딩을 생성하기 위해 계산적으로 실현 가능한 방법을 개발한 것입니다. 또는 단어 벡터 신경망을 사용합니다.

남자, 여자, 왕 이라는 단어를 고려하십시오. 그리고여왕 . 이 단어들을 그룹화하라는 요청을 받은 경우 상식적으로 선택할 수 있는 여러 가지가 있습니다. 나는 [남자를 보는 경향이 있습니다. ] 및 [왕, 여왕 ]. [맨, 왕 ] 및 [여성, 여왕 ].

<그림>

단어 임베딩은 텍스트에서 단어 간의 의미 관계를 캡처합니다. https://samyzaf.com/ML/nlp/nlp.html

에서

나는 또한 이라는 단어가 그리고 남자 '여성과 정확히 같은 방식으로 관련됨 ' 및 '여왕 '.

남자:왕 =여자:여왕 

이 단어들을 한 번도 들어본 적이 없더라도, 나는 마주치는 문장들을 관찰함으로써 이러한 관계들을 배울 수 있습니다. '이 사람은 왕이다 ' , '여왕은 경건한 여성이었습니다 ', '은막의 여왕으로 군림한 그녀 ', '그의 왕국이 올 것이다 '. 이 문장은 단어의 근접성을 통해 이 대부분이 남자입니다. 그리고 여왕 여성일 가능성이 큽니다. .

Word 임베딩도 동일한 작업을 수행하지만 수천 개의 문서에서 수백만 개의 단어에 대해 수행합니다. 여기서 핵심은 단어가 문맥 . 이 수학적 유추 게임을 가능하게 하는 것은 현대 계산의 힘과 딥 러닝의 마법입니다.

딥 러닝 단어 임베딩

Harry Potter의 모든 단어에 대한 임베딩을 찾고 싶다고 가정해 보겠습니다. .

먼저 일종의 수학적 금고-도서관-실을 만듭니다. 우리가 필요로 하는 모든 단어를 담을 수 있을 만큼 충분히 큰 괴물 같은 다차원적 거물. 이것은 벡터 공간입니다. .

목표는 해리포터를 통과하는 것입니다. 단어 하나하나를 방의 금고에 넣어두세요. 드레스와 같은 유사한 단어 및 망토 같은 금고에 들어갑니다. 퀴디치 스니치 인접한 금고에 있습니다. 자동차 그리고 켄타우로스 바나나만큼 멀리 떨어져 있습니다. 그리고 볼드모트 .

단어의 단어 임베딩은 해당 단어가 발견될 보관소의 주소입니다. 수학적으로 이것은 벡터 벡터 공간 .

왜 인간이 이 직업을 원하지 않는지 알 수 있습니다. 너무 많은 단어와 너무 많은 움직임이 관련되어 있습니다.

그러나 신경망은 이 작업을 매우 잘 수행합니다. 이것은 마법을 통해 이루어집니다.


A 심층 신경망은 수백만 개의 기어와 레버가 있는 일종의 거대한 기계입니다. 처음에는 온통 혼돈이고 주위가 뒤섞여 있어도 아무 것도 어울리지 않습니다. 그런 다음 천천히 일부 기어가 잠기기 시작합니다. 지렛대가 제자리에 놓이고 혼란에서 질서가 나타납니다. 기계가 움직이기 시작합니다. 프랑켄슈타인이 살아있다!

여기의 언어는 의도적으로 모호합니다. 나는 단어 임베딩이 어떻게 파생되는지보다 단어 임베딩의 응용 프로그램으로 여러분을 데려가고 싶습니다. 그렇긴 하지만 근본적인 수준에서 우리는 신경망이 하는 일을 잘 모릅니다. 따라서 우리의 실험에서 우리는 작업에 도달하기 전에 레이어 수, 활성화 함수, 각 레이어의 뉴런 수 등을 가지고 놀아야 합니다. 그러나 그것은 다른 날의 주제입니다.

열전기

2019년에 발표된 논문에서 Lawrence Berkeley Lab의 연구원 팀은 1000개 저널에 게시된 약 330만 편의 논문에서 모든 초록의 단어 임베딩을 생성했습니다. 이 목록은 분명히 거대하며 지난 수십 년 동안 재료 과학에서 출판된 거의 모든 주제를 다룹니다.

과학 텍스트에 관해서는 화학식과 기호도 '단어'입니다. 따라서 LiCoO에 대한 단어 벡터가 있습니다. 2 – 일반적인 배터리 음극입니다. 그런 다음 다음과 같은 질문을 할 수 있습니다. LiCoO2에 가장 가까운 단어 벡터는 무엇인가요?

우리는 LiCoO2가 벡터 공간의 벡터라는 것을 알고 있습니다. 따라서 우리가 해야 할 일은 가까운 벡터를 찾는 것뿐입니다.

답은 LiMn으로 나옵니다. 2 4 , 리니 0.5 Mn 1.5 4 , 리니 0.8 공동 0.2 2 , 리니 0.8 공동 0.15 0.05 2 및 LiNiO 2 —모두 리튬 이온 음극 재료이기도 합니다.

<그림>

'열전'이라는 단어에 대한 선택된 화합물의 관계 경로. Li2CuSb는 '열전'과 직접적인 관련은 없지만, '간접대역', '광전자공학'과 같이 이 성질을 나타내는 지표인 말에 가깝다. [2]에서

여기서 무엇을 했는지 봅니까?

우리는 우리가 가장 좋아하는 음극과 유사한 다른 재료를 탐구하려고 노력했습니다. 수천 편의 논문을 읽고 메모를 하고 리튬 화합물 목록을 작성하는 대신 임베딩이라는 단어를 사용하면 몇 초 만에 작업을 해결할 수 있습니다.

이것이 워드 임베딩의 힘입니다. 의미론적 조회를 수학적 벡터 연산으로 변환함으로써 이 접근 방식을 통해 우리는 대규모 텍스트 데이터베이스를 더 효율적이고 효율적으로 조회하고 이해할 수 있습니다.

추가 예로서, 연구원들은 화합물이 '열전기 벡터 근처에서 얼마나 자주 발견되는지 연구했습니다. '. (전기 에너지를 열로 또는 그 반대로 변환하는 물질입니다.)

내적이라고 하는 간단한 벡터 연산을 통해 이를 수행할 수 있습니다. 유사한 벡터는 1에 접근하는 내적을 갖습니다. 서로 다른 벡터의 내적은 거의 0입니다.

데이터베이스에 있는 화합물과 단어 'thermoelectric에 대해 동일한 작업을 수행하여 ', 저자는 열전기일 가능성이 있는 모든 화학 물질을 발견했습니다. .

<그림>

추상 데이터베이스의 단어 임베딩은 다음과 같은 질문에 답할 수 있습니다. Zr이 육각형이면 Chromium은 ...? (본문 중심) [2]부터

저자는 결정 구조 및 강유전성과 같은 여러 재료 특성에 대해 유사한 관계가 입증될 수 있음을 계속해서 보여줍니다. 또한, 그들은 이 기술을 사용하여 현재의 열전기 중 몇 가지가 기존 문헌에서 몇 년 전에 예측될 수 있음을 보여줍니다.

이 분석은 '인간이 연구한 모든 물질 중 열전기일 가능성이 있는 물질이 무엇인지라는 질문에 대한 매우 아름답고 우아하지만 기만적일 정도로 단순한 표현입니다. .

자료 데이터베이스는 시대의 필요

당신은 우리가 이미 이 목록을 가지고 있다고 가정할 것입니다. 분명히 누군가 우리가 하고 있는 모든 작업을 기록하고 있습니까? 자료 핸드북 및 전자 데이터베이스를 편집합니까?

대답은 놀라운 아니오입니다. 우리가 수년에 걸쳐 축적한 방대한 양의 지식은 책, 저널 및 논문과 같은 텍스트에 잠겨 있습니다. 너무 많아서 수동으로 스캔하는 것이 불가능합니다.

이것이 바로 이 문서에서 시연된 단어 임베딩과 기술이 혁명적인 것인 이유입니다.
그것은 우리가 텍스트와 상호 작용하는 방식을 바꾸고 자료 데이터베이스를 빠르게 가속화할 것을 약속합니다.

압전기에 대해 연구된 재료에는 어떤 것이 있습니까? 우리가 문학에서 놓친 초전도체가 있습니까? 알츠하이머를 치료할 수 있는 신약이 있습니까?
임베딩이라는 단어를 물어보세요. 그들은 알고 있을 것입니다.


산업기술

  1. 새 소프트웨어 교육에 서툴지 않는 방법
  2. Python 줄 바꿈:Python에서 줄 바꿈 없이 인쇄하는 방법
  3. 새로운 임대 회계 표준이 운송 및 물류에 미치는 영향
  4. 새로운 소비자 행동에 대한 식료품 업계의 대응
  5. 뉴질랜드 육류 수출업체가 전염병을 헤쳐나가는 방법
  6. 국가 간 전자 상거래의 새로운 시대에 성공하는 방법
  7. 소매업체가 새로운 배송 추가 요금의 영향을 완화할 수 있는 방법
  8. 주문이 느릴 때 신규 고객에게 마케팅하는 방법
  9. 필라델피아 학생들이 제조 분야에서 기회를 찾을 수 있도록 펜실베니아에서 새로운 기금 제공
  10. MTConnect 표준이 제조의 새로운 시대를 만드는 데 어떻게 도움이 되는지