Chat GPT가 거짓말을 한다? 다른 AI 모델들은?
많은 사람들이 인공지능과 대화하다가 사실과 전혀 다른 답변을 들어본 경험이 있을 겁니다. 더 놀라운 건, 그 답변이 마치 진짜인 것처럼 자신감 넘치게 나온다는 것입니다.
예를 들어, 존재하지 않는 논문을 만들어낸다든지, 실제로 없는 사건을 사실처럼 설명하는 경우가 있습니다. 이런 현상을 우리는 AI 환각(Hallucination)이라고 부릅니다. 단순한 버그일까요? 아니면 인공지능의 구조적 한계일까요?
이번 글에서는 최신 연구 논문(Why Language Models Hallucinate?)을 토대로, 왜 언어모델(LLM)이 환각을 일으키는지, 그 메커니즘과 근본 원인을 알기 쉽게 설명해 드리겠습니다. 그리고 AI는 왜 모른다고 말하지 않을까?라는 흥미로운 질문에 대한 답도 함께 찾아가 보겠습니다.
환각 현상의 정의
언어 모델이 만들어내는 환각(hallucination)은 실제 사실과 다르지만, 겉보기에 그럴듯한 거짓 정보를 출력하는 현상을 말함. 인간이 환각을 경험하는 것과는 달리, LLM에서의 환각은 통계적 학습 과정에서 불가피하게 발생하는 오류로 이해할 수 있습니다.
예시
1. Singleton Facts (드문 사실)
- 사람의 생일 같은 사실은 텍스트에 한 번만 등장하는 경우가 많음.
- 따라서 모델이 이를 일반화하지 못하고 잘못된 답을 추측하는 환각을 일으킬 수 있음 .
2. Distribution Shift (분포 변화)
- “깃털과 납은 어느 쪽이 무겁나?” 같은 질문. 현실 세계에서는 당연히 납이 무겁지만, 진공 상태를 가정하면 다른 답이 가능
- 이렇게 훈련 데이터와 다른 맥락이 주어지면 모델이 혼란을 겪고 환각 발생 .
3. Garbage In, Garbage Out (잘못된 데이터의 영향)
- 위키백과나 인터넷에 존재하는 오류가 그대로 모델에 학습될 수 있음.
- 그 결과, 모델이 사실처럼 잘못된 정보를 자신 있게 말함 .
환각의 근본 원인 - 훈련 과정
논문은 환각이 단순히 모델이 "거짓말"을 하는 것이 아니라, 훈련 과정의 구조적 한계에서 비롯된다고 설명합니다.
사전학습(Pretraining)
대규모 텍스트 데이터를 기반으로 다음 단어를 예측하도록 학습합니다.
데이터가 아무리 오류 없이 정제되어 있더라도, 확률 모델 특성상 오류는 불가피합니다.
저자들은 이를 “Is-It-Valid(IIV)” 이진 분류 문제와 연결시켜 설명함. 즉, 모델이 어떤 문장이 유효한지 아닌지를 판별할 때 생기는 분류 오류가 곧 환각으로 이어진다는 것입니다.
사후학습(Post-training)
RLHF(인간 피드백 강화학습) 등으로 모델을 다듬지만, 평가 방식이 불확실성 표현을 불리하게 만듭니다.
대부분의 벤치마크가 “정답/오답”만을 평가하므로, 모델은 “모르겠다(IDK)”라고 답하는 것보다 그럴듯하게 추측하는 것이 점수를 잘 받습니다.
이 때문에 환각이 제거되지 않고, 오히려 강화되는 경향이 있습니다.
환각을 유발하는 통계적 요인
연구진은 여러 통계적 요인을 분석해 환각의 구조적 원인을 제시합니다.
요인 | 설명 | 예시 |
Singleton rate | 데이터에서 단 한 번만 등장한 사실(singleton)은 일반화 불가 ➡️ 환가 가능성 ⬆️ |
특정 날짜가 한 번만 등장하면 잘못된 날짜를 생성 |
Poor models | 모델 구조가 개념을 충분히 표현하지 못할 때 발생 | n-gram 기반 모델이 문맥 이해에 실패 |
Distribution shift | 훈련 데이터와 다른 맥락의 질문 등장 시 오류 | "깃털과 납은 어느 쪽이 무겁나?" 같은 의도적 질문 |
GIGO (Garbage In, Garbage Out) |
학습 데이터 자체의 오류가 복제 | 잘못된 위키백과 정보 |
왜 환각이 사라지지 않을까? 왜 모른다고 하지 않을까?
논문에서는 다음과 같은 답을 내놓았습니다.
- 모델은 시험을 치르는 학생과 유사합니다.
- "틀려도 좋으니 찍어라"라는 시험 구조가 환각을 조장합니다.
- 실제 벤치마크 대부분이 불확실성 응답(IDK)을 0점 처리하므로, 모델은 "잘 모르겠다" 보다 자신 없는 답변을 내는 것이 유리합니다.
- 그 결과, "과잉 자신감(Confident but Wrong)"이 시스템적으로 발생합니다.
제안된 해결책
저자들은 "새로운 환각 전용 평가"를 만드는 것보다, 기존 평가 방식 자체를 바꿔야 한다고 주장합니다.
- Binary grading(0/1 채점) → 불확실성 허용 평가로 전환이 필요합니다.
- 예: ">75% 확신이 있을 때만 답하라. 틀리면 -2점, 모르겠다고 하면 0점."같은 명시적 규칙을 도입합니다.
- 이를 통해 모델이 idk를 전략적으로 활용하도록 유도하고, 불필요한 환각을 줄일 수 있습니다.
결론
환각은 LLM의 구조적 산물이며 단순한 "버그"가 아닙니다.
사전학습 단계에서는 통계적 불가피성 때문에 발생하고, 사후 학습 단계에서는 평가 체계가 이를 강화합니다.
해결을 위해서는 리더보드와 벤치마크 채점 기준 자체를 바꾸는 사회기술적 접근이 필요합니다.
장기적으로는 모델이 "모른다"를 자연스럽게 말할 수 있도록 하는 것이 핵심입니다.
끝으로
AI 환각(Hallucination)은 단순히 “버그”가 아니라, 언어 모델이 가진 구조적 한계와 학습 방식에서 필연적으로 나타나는 현상입니다. 사전학습 과정에서는 데이터의 희소성과 통계적 제약 때문에, 사후학습 과정에서는 평가 체계가 불확실한 답변(IDK)을 불리하게 만들기 때문에 환각이 반복됩니다.
하지만 중요한 건, 이 문제를 해결할 방법이 전혀 없는 것은 아니라는 점입니다. 연구자들이 제안하듯이, “정답/오답”만을 따지는 이진 평가에서 벗어나, 불확실성을 표현하는 답변에도 점수를 부여하는 새로운 채점 방식이 도입된다면, AI는 “잘 모르겠다”라는 답을 더 자주, 더 자연스럽게 내놓게 될 것입니다.
궁극적으로 AI가 환각을 줄이고 신뢰성을 높이려면, 기술적인 개선뿐 아니라 평가 기준, 사회적 합의, 사용자 인식이 함께 발전해야 합니다.
AI를 무조건 맹신하는 대신, “AI도 틀릴 수 있다”는 전제를 가지고 활용한다면, 우리는 환각을 리스크가 아닌 건강한 한계 인식으로 받아들일 수 있을 것입니다.
'For 비전공, 비전문가 > AI' 카테고리의 다른 글
음란물도 만드는 Grok AI (1) | 2025.09.09 |
---|---|
YUPP AI에서 무료로 나노 바나나 AI만 선택해서 사용하는 방법 (3) | 2025.08.25 |
나노 바나나 AI, 이미지 생성과 수정의 끝판 왕 (1) | 2025.08.20 |
GPT-5가 멍청해졌다고요? 10초 만에 다시 '천재 모드'로 만드는 방법 공개 (11) | 2025.08.13 |
Ideogram AI로 이미지 수정/보정/배경 변경 하기 (9) | 2025.07.31 |