최근 ai가 시장에서 활발하게 쓰여지고 있다. 현재 상용화된 ai 도구들은 여러가지 모델이 있는데, 가장 유명한 ChatGPT 언어학습모델이 있고, 그림 영상 사운드 등 여러가지 최적화된 모델들이 하루가 멀다하고 시장에 모습을 보이고 있다. 그 중 언어학습모델에 대해 생각해보자.
처음 ChatGPT가 세상에 모습을 보였을 때 전세계의 사람들이 열광했다. 마치 사람처럼 문맥을 이해하고 사용자의 프롬프트에 따라 응답을 주는 모습은 모든 사람들을 열광하게 하고 매료시켰다. 하지만 그것도 잠시, 사람들은 ai가 하는 말의 신빙성을 의심하기 시작했는데, 믿을만한 정보와 그렇지 못한 정보가 구분없이 제공되었기 때문이었다. 왜 이런 현상이 발생한걸까?
인공지능은 언어 데이터 학습하며 한글자 한글자씩 관련성 가중치를 부여한다. 이를 토대로 다음 글자를 예측하여 가능성 높은 문자를 보여주는 방식으로 작동한다. "인공지__" 라는 세 글자를 보고 연결가능 한 문자 중 기존에 학습된 데이터를 통해 축적된 가중치가 높은 글자를 선택하여 출력해주는 방식이다.
단순히 단어를 완성하는걸 넘어서서 문장을 꽤나 구조적으로 완성시켜주는게 현재의 언어학습모델이다. 원리는 단어를 완성하는 방법과 다르지 않지만. 입력 파라미터의 수를 어마어마하게 늘려내면 입력값에 따라 기하급수적으로 많은 예측 연산이 작동하면서, 놀랍게도, 긴 문장이 가지고 있는 구조적 특성 또한 생성된 문장에 반영된다는 점이다. 구조는 추상적 사고의 산물인데, 한글자 한글자 예측하다 보니 구조가 튀어나온다는 점을 보고 특이점이 도래했다고 말하기도 하였다.
하지만, 챗지피티가 표현하는 구조는 전혀 논리적이지 않다. 학습 방식 자체가 논리적이지 못했기 때문이다. 논리적 학습이 가능하려면 상관성과 인과성을 구분하고 인과적으로 사고해야 하지만, 가장 기본적인 학습방식에서 상관성 예측을 통해 문장을 생성해내기 때문에, 태생적으로 불가능한것일지도 모른다.
그래서 인공지능 개발자들이 하는일은 이런 언어학습모델에서 가장 중요한건 어떤 학습데이터로 학습했는가인데, 아래 링크글에서 잘 설명해주고 있다.
이 학습모델이 인간으로 치자면, '감'에 의존하는 방식 그 자체라는 것. 인간의 '감'은 보다 추상적인 계층에서도 작동하지만, 현재 언어학습 인공지능은, 단어와 문장을 완성시키는 수준에서 작동하고 있다는 점이다. 물론, 이 예측방식은 1차원에서 글자를 완성시키지만, 몇 차원이나 건너뛴 예측능력을 보여주고 있기는 하다.