카테고리 없음

ChatGPT의 기반인 Transformer 모델의 주요 기능, Word Embedding과 뇌의 해마 기능의 유사성

Tmarket 2023. 4. 3. 00:45
반응형

펌) ChatGPT의 기반인 Transformer 모델의 주요 기능, Word Embedding과 뇌의 해마 기능의 유사성

ChatGPT로 대표되는 대규모 언어 모델(LLM)이 어떻게 이토록 자연어를 잘 처리할 수 있는지 아직 제대로 밝혀지지 않았습니다.

LLM이 기반한 Transformer 모델은 크게 두가지 기능이 핵심이라고 봅니다. 구글이 2017년 Transformer 모델을 처음 발표한 논문의 제목이 "Attention is all you need"인데서 알 수 있듯이 Attention 이 그 중에서도 Self Attention 이 하나의 핵심적인 역할을 하고 있습니다.

"Attention Is All You Need" https://arxiv.org/abs/1706.03762

그리고 단어(정확히는 단어보다 더 작은 형태소에 얼추 대응되는 토큰)를 고차원의 벡터 공간에 대응시켜주는 Word Embedding 이 또 하나의 핵심 기능입니다. Word Embedding 모듈이 하는 일은 단어의 의미를 고차원 벡터 공간 속의 위치에 대응시켜 일종의 지도를 만드는 일에 비유할 수 있습니다.

이는 Transformer 모델의 고유한 기능은 아니고 이전의 자연어 처리 모델에서 물려받은 것입니다. 2013년 구글에서 나온 word2vec 논문에서 유래한 것입니다.(Transformer 모델은 word2vec 모델이 발전해서 Attention 메커니즘이 추가된 것이라고 볼 수도 있습니다.)

"Efficient Estimation of Word Representations in Vector Space" https://arxiv.org/abs/1301.3781

그런데 우리의 뇌에도 공간 속의 위치나 장소를 처리하는 곳이 있습니다. 바로 해마에 있습니다. 여기에는 육각 격자 모양의 위치 정보를 처리하는 이른바 장소 세포(Place Cell)들이 있습니다. 2014년 이를 밝혀낸 공로로 노벨 생리의학상이 수여되었습니다.

‘내몸 안의 GPS’ 신경세포 발견하다 -노벨생리의학상
http://scienceon.hani.co.kr/199433


제 개인적인 추측으로 이렇게 뇌 속에서 위치나 장소에 대한 정보를 처리하는 기능이 언어를 처리하는 기능으로 발전하지 않았을까 하는 것입니다. 우리 뇌 속에서 GPS 역할을 하는 해마는 기억을 처리하고 있기도 합니다. 이 해마에 문제가 생기면 단기기억을 장기기억으로 전환하지 못한다고 합니다.

물론 우리 인간의 뇌에서 언어를 처리하는 곳은 해마가 아니라 대뇌좌뇌 반구의 측두엽 쪽에 있는 베르니케 영역과 브로카 영역입니다. 베르니케 영역은 언어의 이해를 맡고 있고, 브로카 영역은 언어의 생성을 맡고 있습니다. 그런데 해마는 측두엽 쪽에 가까이 있고, 감각 정보를 언어 기억으로 바꾸는 일을 한다고 추측하고 있기도 합니다.

암튼 이 영상에서 말하는 내용은 포유류의 해마는 단지 물리적인 위치 정보만 처리하지 않고 이것을 추상화한 인지적 지도를 만드는 일도 한다는 겁니다. 지식을 인지적 지도로 조직화해서 저장하는 일을 한다는 겁니다. 이는 제가 추측한대로 뇌에서 위치 정보를 처리하는 기능이 언어처리 기능으로 발전했다는 걸 지지하는 정황 증거라고 생각합니다.

LLM의 Word Embedding 이 단어의 의미를 고차원 벡터 공간 속의 위치에 대응시키는 것이랑 유사한 건 우연이 아니란 겁니다. LLM이 자연어를 잘 처리하게 된 것은 이런 유사성에서 나온다고 생각합니다. 물론 이는 Transformer 모델에 기반한 LLM 이 자연어를 잘 처리하는 것에 대한 일부 설명일 뿐입니다. Self Attention 에 해당하는 기능을 담당하는 뇌의 메커니즘은 우리가 아직 모르는 듯합니다.

(Disclaimer: 이 논의는 어디까지나 뇌과학이나 신경과학에 대해서 교양 과학서 수준의 얕은 지식 밖에 없는 비전문가로서 하는 추측이라서 틀릴 수 있습니다.)  

https://youtu.be/9qOaII_PzGY



블룸버그에서 나름의 LLM에 대한 논문을 내놨는데 흥미롭다. (3월 30일 - BloombergGPT : A Large Language Model for Finance)
블룸버그와 같이 Data 를 다루고, 직접 수집하고, 또 고객들의 니즈를 일선에서 접하는 현금흐름 좋은 회사가, 자연스럽게 LLM으로 서비스를 개선하는 것은 예상할 수 있는 길이었다. 하루에 80만개 이상의 기사를 수집하고 보여주고 있는 회사이며, 대부분 기업의 재무제표를 가지고 있다. 저번에 들으니 재무제표를 수십년간 수기입력하며 그 데이터 포인트의 주소를 마침 모두 저장해뒀던 점 덕분에 최근 재무 데이터의 수집에서 자동화를 매우 효과적으로 진행할 수 있게 되었다고 하더라.
여튼 domain specific 한 영역에서, 특히 금융에서, 특히 전문가형 서비스에서 본격 도입되고 있는 AI들을 보니 놀랍고도 두렵고도 설레인다. 블룸버그가 추가 비지니스 모델을 만들 수 있을까 싶었는데 어쩌면 이번에 획기적인 변화가 있을 것인가?

반응형