본문 바로가기

비전공생이 말하는 IT | 디자인 이야기

챗GPT의 할루시네이션 현상 개선과 사용 시 주의점 (feat. 빙 챗 & 바드)

반응형

 

 

 

챗GPT 활용법? 어디까지 갈까

 

 

챗GPT 기술이 세상에 알려진 지 대략 6개월 정도 지났습니다. 

22년 하반기에 조용히 출시되었다가, 23년 3월 경 최신 버전인 GPT-4가 출시되면서 본격적으로 대중들에게 널리 알려지기 시작했지요. 그 후로 두 달 정도 시간이 흘렀음에도 불구하고, 여전히 챗GPT 관련 콘텐츠들이 많이 생산되고 있고 인기가 꽤 오래가는 것 같습니다!

 

 

제 블로그에서 가장 인기 많은 게시글도 챗GPT의 할루시네이션(hallucination) 현상, AI의 치명적 단점일까요?  이더라고요.

 

챗GPT의 할루시네이션(hallucination) 현상, AI의 치명적 단점일까요?

챗GPT 아직도 안 써본 사람은 없겠지? 요즘 가장 주목 받고 있는 기술은 단연 오픈AI의 챗GPT(chatGPT)라고 할 수 있습니다. 어떻게 하면 챗GPT를 잘 활용할 수 있을지 아니면 챗GPT와 같은 거대 인공지

itdesign.zyuddo.com

 

 

그리고 저의 인스타 피드 곳곳에 '챗GPT 활용법'에 대한 강의가 우후죽순으로 쏟아지고 있습니다. 

챗GPT를 새로운 툴(tool)로써 바라보고 여러 분야에 활용하는 팁이나 원하는 정보를 얻을 수 있게끔 프롬프트를 잘 입력하는 방법 등을 알려주는 내용들 같습니다. 

마치 포토샵과 일러스트레이션과 같은 디자인 툴이나 워크스페이스 툴인 노션이 인기를 끌어 'OOO 잘 활용하는 방법'이라는 강의가 만들어지듯이, 챗GPT도 유사한 도구적 기능을 가지는 것으로 보입니다. 

 

 

글쓰기를 빨리 하고 싶거나, 더 많이 하고 싶거나, 더 잘하고 싶으신 분들은 챗GPT 거대언어모델의 힘을 빌려보는 것도 좋은 방법이 될 것 같습니다. 글쓰기 외에도 개발 코드를 짜준다거나 음악 작곡도 할 수 있으니 사용자가 적재적소에 잘 활용하기만 한다면 도움이 될 수 있을 것 같네요. 

 

 

 

 

 

 

 

 

 

 

챗GPT 활용에 따른 학습 데이터 오염과 할루시네이션 현상

 

 

챗GPT에 관심이 있으신 분들은 아래 정보를 확인하시면 좋을 것 같습니다. 

한국행정연구원에서 <공공분야 챗GPT 활용에 따른 학습 데이터 오염과 "할루시네이션(환각)" 개선 방안>을 발간했습니다. 

 

 

https://www.kipa.re.kr/site/kipa/research/selectPublishView.do?gubun=IS&pblcteId=PUBL_000000000000838 

 

이슈페이퍼 - 한국행정연구원

<목차> 1. 챗GPT 확산에 따른 데이터 신뢰성 이슈 2. 데이터 오염과 환각 발생의 피해 3. 데이터 오염과 환각 현상 탐지 기술  4. 공공 부문 챗GPT 활용과 개선방안  <요약> 챗GPT 같은 인공지능 기술

www.kipa.re.kr

 

 

또한 행정안전부에서도 지난 5월 8일 '챗GPT 활용방법 및 주의사항 안내' 지침을 배포하면서 데이터 오염과 할루시네이션 현상에 대한 주의를 당부했다고 합니다. 이제 공공분야에서도 '챗GPT가 만능은 아니다. 챗GPT의 취약성을 알고 잘 사용하자.'라는 취지의 문서를 배포하기 시작한 것입니다. 

 

 

이제는 정부와 공공분야에서도 할루시네이션 관련 콘텐츠를 생산하는 것을 보니, 아직까지도 챗GPT의 취약성을 모르고 계셨던 분들은 빨리 익히셔야겠습니다! 원래 '공'자 들어가는 조직들은 제일 느린 편이거든요 ㅎㅎ 너무 늦지 않게 저희도 새로운 정보들을 빨리 쫓아가 봅시다. 

 

 

한국행정연구원에서 발간한 내용을 요약하자면 다음과 같습니다.

한마디로 요약하자면, "학습한 데이터 자체에 문제가 있기 때문에, 챗GPT가 편향되거나 부정확한 답변을 제공할 수 있다. 챗GPT가 말하는 정보를 그대로 믿거나 챗GPT가 제공하는 정보에만 의존해서는 안된다."라는 내용입니다.

  • 챗GPT는 자동회귀 언어모델(AR-LLM)을 기반하여 할루시네이션 현상이 발생할 수 있다. 때문에 챗GPT의 생성물에는 신뢰도가 저하될 수 있다. 
  • 자동회귀 언어모델은 주어진 문장의 단어 다음에 올 단어를 자동으로 예측하는 확률적 언어모델로, 다음에 나올 단어를 통계에 기반하여 가장 빈번하게 나왔던 단어를 나열하여 문장을 완성하는 형태이다. 
  • 잘못된 정보의 데이터를 학습하여 틀린 정보를 마치 맞는 정보인 것처럼 답변하는 현상을 '할루시네이션'이라고 한다. 
  • 챗GPT의 신뢰할 수 없는 답변을 통해 잘못된 의사결정으로 이어질 가능성이 있다. 
  • 최근 과학기술, 법률, 의료, 복지, 행정 등 다양한 분야에서 챗GPT를 활용하고 있는데, 부정확한 데이터로 인해 잘못된 정보가 유통될 가능성이 있다. 
  • 생성형 AI가 사실을 잘못 해석하거나 편향되거나 부정확한 데이터로 학습/훈련될 경우, 가짜뉴스, 허위 정보, 유해한 콘텐츠 등의 오염된 데이터를 재생산할 위험 역시 커진다. 
  • 챗GPT는 상황에 대한 이해 부족, 훈련 데이터의 오류, 편향성 등을 그대로 반영하고, 2021년까지 생성된 데이터만 학습하여 최신 정보는 알지 못하는 등의 단점이 존재한다. 
  • 챗GPT는 학습과 추론으로 문장이나 언어 표현을 '창작'할 수는 있으나, 입력된 학습 데이터 기반으로만 답변을 생성하는 것이다.
  • 학습데이터 출처가 명확하지 않아 챗GPT가 제공하는 정보에만 의존하는 것은 단기적으로 위험할 뿐만 아니라 장기적으로 지식 생태계를 오염시킬 수 있다. 
  • 악성코드 생성, 프로그래밍 언어 변환, 개인정보 침해 등 윤리적 이슈는 물론 챗GPT를 악용한 사이버공격 등도 발생하고 있다. 

※ 더 자세한 내용을 확인하려면, 상단의 한국행정연구원 사이트에 접속하여 전문을 다운로드하여 보세요.

 

 

 

 

 

 

 

 

 

챗GPT도 발전하고 있다고요! (feat. 빙 챗 & 바드 답변 비교)

 

 

갑자기 챗GPT에 대한 신뢰도가 확 떨어지신다고요?

네 그렇습니다. 원래 챗GPT는 완벽하지 않았습니다. 

 

 

챗GPT 개발진들과 인공지능 전문가들 또한 위 사실을 모두 알고 있었습니다. 

그리고 이러한 부분을 개선하기 위해서 노력하고 있습니다.

 

 

그에 대한 증거를 보여드리겠습니다. 

저는 23년 4월에 챗GPT의 할루시네이션 현상에 대한 포스팅을 작성하고자 챗GPT에게 "이순신 장군의 아이패드 도난 사건을 알려줘." 라고 질문했습니다. 그리고 챗GPT는 이에 대해 그럴싸한 거짓 답변을 제공했습니다.

챗GPT 할루시네이션 현상이 발생한 답변 (23.04월 ver.)

 

 

 

그리고 며칠 전 다시 똑같은 질문을 해보았습니다. 1달 사이 챗GPT의 기능이 개선되어 다른 답변을 제공했습니다. 

챗GPT 할루시네이션 현상 개선한 답변 (23.05월 ver.)

 

 

 

불과 1달 사이, 혹은 1달도 안 되는 사이에 챗GPT의 기능이 개선된 것입니다. 물론 다른 형태의 질문으로는 여전히 할루시네이션 현상이 발생할 수도 있겠죠. 하지만 적어도 이순신 장군의 아이패드 도난 사건에 대해서는 거짓말을 하지 않기로 결심한 것 같습니다.

 

 

그래도 여전히 답변이 100% 만족스럽지는 않네요. 이순신 장군과 아이패드 도난 사건 사이에 상관관계가 없음을 말해주면 좋겠지만, 챗GPT가 학습한 데이터가 21년까지이기 때문에 해당 정보는 모르겠다고 말하고 있습니다. 

 

 

답변 비교를 위해, 빙 챗과 바드에게도 동일한 질문을 해보겠습니다.

 

 

빙 챗은 "찾아보았으나 그에 대한 정보를 찾을 수 없었습니다."라고 말합니다. 그리고 좀 더 자세한 코멘트를 남겼습니다. 이순신 장군은 1598년에 전사했으며 그와 관련된 아이패드 도난 사건은 없다고 말합니다! 빙 챗이 검색 엔진을 위해 제작된 챗봇이기 때문일까요? 챗GPT보다는 검색 자료에 기반하여 논리적으로 대답하고자 노력하는 느낌의 답변입니다. 

빙 챗의 답변 - 이순신 장군의 아이패드 도난 사건

 

 

바드의 첫 번째 답변은 "모르겠습니다."입니다. 그런데 두 번째 답변과 세 번째 답변에서는 할루시네이션 현상이 발생했습니다. 가만히 있으면 중간이라도 갈 텐데, 여러 답안을 제공하다가 그만! 실수가 발생했습니다. 사용자에게 다양한 형태의 답변을 제공하고자 했던 시도가 안타까운 결과를 낳았습니다. 

바드의 답변 - 이순신 장군의 아이패드 도난 사건

 

 

제가 챗GPT, 빙 챗, 바드의 답변에 점수를 줄 수 있다면 개선을 보인 챗GPT에게 80점을, 조금 더 신뢰 가는 답변을 준 빙 챗에게 90점을, 안타까운 실수를 한 바드에게는 70점을 주고 싶습니다. (여러분은 어떻게 점수를 주고 싶으신가요?)

 

 

 

 

 

 

 

 

 

 

챗GPT의 시대, 우리는 어떻게 해야 할까?

 

 

지난 포스팅에서도 말씀드렸듯이, 할루시네이션 현상은 어떤 의미로 보면 단점이 아닙니다. 인간도 잘못된 정보를 배우고 마치 사실인 듯 말할 때가 있습니다. 우리는 그것을 '실수'라고 부르기로 했고요. 그리고 인간이 실수를 한다고 해서 그것이 그 사람의 치명적인 단점이나 취약점이라고 생각하지는 않습니다. 인간은 누구나 실수를 한다고 생각할 뿐이지요.

 

 

다만 우리가 때로 인공지능에게 '인간과 비슷함'이 아니라, '인간보다 더 나은 기계적인 완벽함' 을 요구하기 때문에 할루시네이션 현상이 큰 취약점으로 비치게 된 것입니다. 또한 인공지능이 한 실수는 인간이 한 실수보다 더 큰 부작용과 파급력을 불러일으킬 수 있습니다. 한 인간의 할루시네이션과 같은 실수는 그와 관련 있는 사람들 사이에서 작은 해프닝으로 끝날 수 있지만, 챗GPT는 전 세계인에게 실시간으로 라이브 되는 서비스입니다. 수많은 사람들이 챗GPT가 제공하는 정보를 동시에 믿고 의존할 수 있는 가능성이 있습니다. 그리고 이러한 파급력을 알고 있는 사람들이 기술의 취약점을 악용할 가능성 또한 존재합니다. 그렇기 때문에 우리는 챗GPT를 사용함에 있어 더 주의를 기울여야 하는 것입니다. 

 

 

한 번 진보한 기술이 후퇴하지는 않습니다. 챗GPT와 같은 생성형 AI 기술을 사용하게 될 인간이 올바른 판단력과 통찰력을 갖추고 정보의 진위를 파악해야 할 때입니다. 챗GPT생성형 AI가 완벽하지 않을 수 있고, 그 기술이 악용될 가능성이 있음을 인지하면서 정보를 접해야 합니다. 인터넷이 생겨난 순간부터 항상 그래왔지만, 인공지능 기술이 한 층 더 발전한 지금 더욱더 강조되어야 할 것들이 있습니다. 이제는 많은 지식을 단순히 습득하고 암기하는 것보다 다른 사람들보다 양질의 정보를 찾고 자신만의 관점으로 정보들 사이의 연결성을 찾아내는 것이 더 중요합니다. 지식 보유보다 변화하는 지식과 환경에 대처할 수 있는 능력을 기르는 것이 더 중요합니다.

 

 

개개인도 새로운 능력을 갖추기 위해 노력해야겠지만, 당연히 기술을 개발하고 제공하는 기업도 취약점이 발생했을 때 대처할 수 있는 안전장치를 마련해야 합니다. 그리고 이러한 주제와 논의들을 정리하고 반영한 AI 윤리 가이드라인에 대한 연구들도 진행되어야 할 것입니다. AI 윤리에 대한 논의가 더욱 공론화되고, 최적의 가이드라인이 도출되고 법제화되어 인간을 보호할 수 있는 규제 속에서 기술 개발이 이루어지기를 바랍니다.

 

 

 

반응형