Economic Report

챗GPT는 초거대 인공지능 모델 GPT-3.5를 누구나 쉽게 사용할 수 있도록 만든 챗봇을 말한다. 간단한 질문이나 명령만 하면 챗GPT가 체계적 구성을 가진 문서를 만들어 주는 등 챗GPT가 열어준 생성형 AI 시대를 맞이하고 있다. 국회입법조사처 이슈와 논점에서 챗GPT의 특징과 국내외 동향을 살펴보고 인공지능 분야에서의 향후 과제를 모색한 내용을 소개한다. 

2022년 11월 30일 미국의 인공지능(AI) 기업 오픈에이아이(OpenAI)가 ‘챗GPT(ChatGPT)’를 시장에 내놓았다. 챗GPT는 오픈에이아이의 AI 모델인 ‘GPT(Generative Pretrained Transformer : 생성형 사전학습 트랜스포머)-3.5’를 대화 방식으로 사용할 수 있게 만든 챗봇이다. 챗GPT는 언어와 문자로 표현할 수 있는 것이라면 논문, 보고서, 문학, 코딩 등 분야를 가리지 않고 수준 높은 결과물을 만들어 내기에 챗GPT 또는 GPT-3.5를 ‘생성형 AI(Generative AI)’라고 부른다. PC나 스마트폰만 있으면 누구나 접속해 간단한 채팅만으로도 원하는 결과를 얻을 수 있는 덕분에 챗GPT는 출시 두 달 만에 전 세계 월간 활성 사용자 수 1억 명을 돌파하여 인스타그램(2년 6개월), 틱톡(9개월) 등이 가지고 있던 종전 기록을 단숨에 갈아치웠다. 이는 챗GPT가 거둔 성과이지만 한편으로는 생성형 AI의 대중화 가능성을 확인하는 계기로서도 의미가 크다.

초거대 AI, 챗GPT의 특징
오늘날 AI 알고리즘에는 인간의 뇌를 모방한 기계학습 방식인 심층학습(Deep-Learning)이 적용된다. 학습을 통해서 도출된 값을 파라미터(Parameter, 매개변수)라고 하는데 파라미터가 많을수록 AI 모델의 성능이 좋아진다. 
2020년 기준으로 마이크로소프트의 AI 모델인 ‘MS Turing-NLG’에는 170억 개의 파라미터가 사용되었는데, 챗GPT의 두뇌에 해당하는 GPT-3.5에는 이것 보다 열 배 이상 많은 1,750억 개의 파라미터가 사용됐다. GPT-3.5와 같이 대량의 파라미터를 적용하는 AI 모델을 ‘대규모 언어 모델(Large Language Model : LLM)’ 또는 ‘초거대 AI’라고 부른다. GPT-3.5 외에도 구글의 ‘람다(LaMDA)’, 네이버의 ‘하이퍼클로바(Hyper CLOVA)’와 같은 생성형 AI는 대부분 초거대 AI를 지향한다. 현재 오픈에이아이가 개발중인 ‘GPT-4’에는 100조 개 이상의 파라미터가 사용될 것으로 예상되어 생성형 AI의 대형화는 당분간 지속될 전망이다.
초거대 AI의 장점은 소량(Few)의 학습데이터만 있어도 원하는 결과를 얻는 ‘퓨샷러닝(Few-Shot Learning)’이 가능하다는 점이다. 기존에는 개별 목적에 따라 각각 데이터셋을 학습시켜 전용 AI 모델을 만드는 미세조정(Fine-Tuning) 방식이 일반적이었지만, 초거대 AI는 대규모 데이터를 사전학습(Pre-Training) 시켜 공통적인 기본 AI 모델을 만든 다음 그 위에 소량의 데이터만 추가 학습시켜도 정확도가 높은 결과를 제시할 수 있다. 챗GPT는 소량의 학습 데이터를 확보하기 위해 챗봇 방식을 적용한다. 이용자가 대화창에 간략한 지시어(Prompt)를 입력하면 챗GPT는 정리된 결과물(텍스트)을 생성한다. 지시어가 효과적일 경우에는 추가적 설명과 학습 없이(Zero-shot) 한 번의 채팅만으로 원하는 결과를 얻을 수도 있다. 
기존 AI 모델은 여러 장의 사진 중에서 고양이를 찾는 것과 같은 식별(Recognition) 기능에 초점을 두었다면 챗GPT는 글, 문장, 단어, 부호와 같은 언어로 결과물을 생성하는 AI 모델이다. 챗GPT가 문장을 생성하는 원리는 특정 단어 다음에 올 가장 적합한 단어를 예측하고 이것을 연결해 문장을 만드는 것이다. 다음에 올 단어 예측에는 ‘트랜스포머(Transformer)’라는 AI 모델이 적용된다. 트렌스포머 모델은 데이터의 입력 정보와 출력 정보를 동시에 처리하는 방식으로, 입·출력 정보를 순차적으로 처리하던 기존의 순환신경망(Recurrent Neural Network : RNN) 방식에 비해 계산 효율성을 크게 높일 수 있다. 

챗GPT 등장 이후 국내외 동향
국내 기업들은 한글 서비스에 관해서는 우리 기업이 비교우위가 있다고 보고 초거대 AI 대응 전략을 마련하고 있다. 네이버는 2021년 자체적으로 초거대 AI 모델인 하이퍼클로바를 개발했고 2023년 상반기에는 한국어에 특화된 생성형 AI 챗봇인 ‘서치GPT’를 선보일 예정이다. 카카오는 초거대 AI 모델인 ‘KoGPT’를 챗봇 조르디, 카카오톡 채널 등과 결합하여 상용 AI 서비스를 제공할 예정이다. 
챗GPT는 이용자의 요구 또는 질문에 대한 답을 제시하는 것이어서 기존의 검색 서비스와 지향하는 바가 같다. 차이가 있다면 검색 서비스는 정보의 출처를 제시하여 이용자가 각각의 정보를 찾아 비교·평가하도록 하는데, 챗GPT는 AI가 이 과정을 대신해 준다. 그 결과 챗GPT는 검색 서비스 방식과 주요 사업자의 변화를 초래할 것으로 예상된다. 
챗GPT 이용자들은 대부분 그 능력에 대해서 긍정적으로 평가하며 다양하게 활용하고 있다. 그러나 모든 분야에서 챗GPT가 환영을 받는 것은 아니다. 특히 대학과 같은 교육기관에서 챗GPT 사용은 논쟁적이다. 일부 대학은 모든 수업·과제·평가에 챗GPT 사용을 금지하고 허가를 받지 않은 챗GPT 이용은 표절로 간주한다고 밝혔다. 챗GPT 이용에 따른 긍정적 효과와 부정적 효과가 병존하지만 전반적으로 본다면 지금까지의 디지털 혁신과 마찬가지로 인간을 보완하는 역할이 더 클 것이다. 다만, 이용자가 챗GPT를 오·남용할 경우 사회적 가치와 충돌하는 문제를 초래하고, 경우에 따라서는 직업 기회 감소와 같은 실질적 위협에 직면할 수도 있다. 따라서 AI 이용 확대에 따른 사회 질서의 정립과 자원의 재분배 원칙 수립 등이 병행되어야 한다. 

AI 정책의 과제
초거대 AI 시대의 기업경쟁력, 국가경쟁력을 강화하기 위해서는 대규모 학습데이터를 빠르게 처리하고 수많은 이용자 질문에 실시간으로 대답할 수 있는 컴퓨팅파워(Computing Power)를 확보하는 것이 중요하다. 이를 위해 정부는 국가 슈퍼컴퓨터 자산을 확충하고 민간이 이를 초거대 AI 개발에 활용할 수 있도록 「국가초고성능컴퓨팅 혁신전략」에 반영해야 한다. 
또 민간이 컴퓨팅파워 구축에 적극적으로 투자할 수 있도록 현재의 AI 사업 규제를 점검하고 과감하게 개선해야 한다. 중장기적 관점에서 AI 반도체 역량 확보도 관건이다. 현재 사용하는 GPU는 가격이 비싸고 전력소모가 많은 고비용 방식이기 때문에 컴퓨팅파워 확대에 어려움이 크다. 향후 예상되는 컴퓨팅파워 수요 증가에 효율적으로 대응하기 위하여 AI 모델에 최적화된 AI 반도체 연구개발 지원이 필요하다. 
이와 더불어 GPT-3.5와 같은 범용성을 갖춘 초거대 AI 모델을 만들기 위해서는 다양한 분야의 학습데이터를 확보해야 한다. 정부는 지금까지 ‘데이터 댐’ 사업을 통해 AI 허브에 한국어 데이터 93종, 영상이미지 78종, 헬스케어 67종, 재난안전환경 59종, 농축수산 41종, 교통물류 46종의 AI 학습데이터를 구축했는데 이는 초거대 AI 학습용으로는 여전히 부족하다. 따라서 민간에서 직접 공급하기 어려운 데이터 수요를 파악하여 정부와 공공기관이 보다 적극적으로 학습데이터를 구축할 필요가 있다. 이와 함께 민·관의 다양한 분야에 축적되어 있는 방대한 데이터가 초거대 AI 모델 학습에 활용될 수 있도록 데이터 유통·거래를 활성화시켜야 한다. 「데이터 산업진흥 및 이용촉진에 관한 기본법」 상 민간 데이터 거래소의 역량을 강화하고, 웹사이트에 공개된 데이터에 대한 학습용 수집(크롤링) 허용 조건도 명확하게 정립해야 한다.
생성형 AI와 관련된 저작권 규정도 합리적으로 정비할 필요가 있다. 특히 AI 학습에 사용된 데이터의 저작권 허용 범위, 생성형 AI가 만든 결과물의 저작권 보호 범위가 중요 논의 대상이다. 이용자의 정보보호 인식과 실천도 중요하고 이용자의 비판적 활용 능력을 높여야 한다. 생성형 AI는 확률적으로 ‘적절’한 표현을 생성하는 것이지 ‘정확’한 내용을 찾아주는 것은 아니다. 전혀 존재하지 않는 내용을 그럴듯하게 표현하는 환각(Hallucination)이 종종 발생하기도 한다. 따라서 이용자는 생성형 AI의 결과물이 사실과 다를 수 있다는 점, 그래서 책임 있는 결정에 직접 활용하기 어렵다는 점을 명확하게 인지하고 있어야 한다. 마지막으로 학습한 데이터의 편향성·불충분성 등으로 인해 인간에게 유해하거나 윤리적이지 못한 내용이 여과 없이 표출되는 문제를 경계해야 한다. 따라서 AI 사업자는 AI 윤리규범을 생성형 AI의 개발 및 사업화에 적극적으로 반영할 필요가 있다. 
챗GPT가 생성형 AI 시장을 선점하여 이용자의 초기 피드백을 독점하고 있지만 아직 시장은 초기 단계이기 때문에 우리 기업에도 충분한 기회가 있다. 한글에서의 비교우위를 발판으로 국내 기업들이 생성형 AI를 준비 중이지만 장기적으로 우리나라를 넘어 비영어권 시장으로의 확산도 노려 볼 만하다. 기업의 꾸준한 노력, 정부의 안정적인 환경 조성, 우수한 인재의 육성과 유치, 이용자의 활발한 사용이 모두 필요한 때이다. 

Cooperation 국회입법조사처 

저작권자 © 월간 CEO& 무단전재 및 재배포 금지