LLM 한계 3가지: 얀 르쿤의 월드 모델 이론과 엔지니어 현장 경험 비교

이 글의 핵심 3가지

1. LLM은 텍스트 패턴을 조합할 뿐, 물리 현실을 내부적으로 시뮬레이션하지 않는다
2. 얀 르쿤이 제안하는 월드 모델은 LLM을 대체하는 것이 아니라 보완하는 구조다
3. 발전소 성능해석·열역학 계산·설비 진단에서 LLM을 그대로 신뢰하면 안 되는 구체적 이유가 있다

발전소 성능해석 프로그램에서 GPT의 도움을 받다가 LLM 한계를 직접 맞닥뜨린 적이 있습니다. 결과가 이상했고, “왜 이렇게 나왔냐”고 물었더니 그럴듯한 설명이 돌아왔습니다. 확신에 찬 말투로. 그런데 틀렸습니다. 이 경험이 얀 르쿤(Yann LeCun)의 경고와 정확히 같은 지점을 가리키고 있다는 걸, 나중에야 알게 됐습니다.

LLM 한계는 “틀린다”가 아니라 “왜 틀리는지 모른다”

ChatGPT 같은 LLM은 ‘다음에 올 단어가 뭘지 예측’하는 방식으로 작동합니다. 수조 개의 텍스트를 학습해서 어떤 문장 다음에 어떤 말이 오는지 통계적 패턴을 익힌 겁니다. 이 구조에서 비롯된 LLM 한계는 세 가지로 정리됩니다.

LLM이 틀리는 구조

텍스트 패턴 학습

수조 개의 문장에서 “다음 단어”를 예측하는 통계 학습

↓

질문에 즉각 반응 (System 1)

내부 시뮬레이션 없이 가장 그럴듯한 답을 즉시 생성

↓

오류 누적 — 검증 불가

각 단계의 작은 오류가 쌓이면 최종 결과는 틀려도 자신감 있게 출력

↓

BLOCK

물리 현실과의 단절

현실을 시뮬레이션할 내부 모델 없음 → 전문 분야에서 치명적

↓

일상적 질문

충분히 유용

전문 기술 영역

자신감 있는 오답 위험

발전소 현장에서 직접 겪은 LLM 한계 3가지 사례

이론이 아닙니다. 실제 현장에서 LLM 한계에 직접 부딪혔던 경험입니다. 르쿤의 구조적 설명이 각 사례에서 어떻게 작동하는지 확인할 수 있습니다.

한계 1. 복합화력 성능해석 — 그럴듯한 오답

EBSILON으로 복합화력 사이클을 시뮬레이션하다 이상한 수치가 나왔습니다. 고압터빈 배기 엔탈피가 물리적으로 불가능한 값을 가리키고 있었습니다. GPT에 조건을 입력하고 “왜 이 값이 나왔냐”고 물었습니다. 답변은 자신감 있었고, 압력비와 등엔트로피 효율을 이용한 설명까지 곁들였습니다. 그런데 직접 계산해보니 틀렸습니다. GPT가 제시한 수식은 해당 증기 조건에서 적용할 수 없는 공식이었습니다.

GPT는 증기 몰리에르 선도에서 실제 상태점이 어디인지 시뮬레이션한 게 아니었습니다. 비슷한 문장 패턴이 학습 데이터에 있었고, 그것을 조합해 출력했을 뿐입니다. 물리 현실과의 단절이 여기서 드러납니다.

한계 2. SCR 촉매 수명 추정 — 자신감 있는 범위 이탈

석탄화력 SCR 운전 중 촉매 층 차압이 올라가고 있었습니다. 촉매 수명을 추정하기 위해 NOx 제거율, 입구 온도, 공간속도(SV) 데이터를 GPT에 넣고 분석을 요청했습니다. Arrhenius 식 기반 활성화 에너지 계산까지 포함된 상세한 답변이 돌아왔습니다. 문제는 실제 촉매 제조사 데이터 시트의 값과 전혀 달랐다는 점입니다. GPT가 제시한 활성화 에너지 값은 학술 논문에서 흔히 인용되는 범위였지만, 실제 운전 조건에서의 비소·황 피독 영향이 전혀 반영되지 않았습니다.

전문가라면 “이 조건에서는 제조사 실측 데이터가 필요합니다”라고 말했을 상황입니다. LLM 한계 중 가장 위험한 부분이 여기 있습니다 — 적용 범위를 벗어났다는 사실을 스스로 인식하지 못한다는 것입니다.

한계 3. 열교환기 오염도 계산 — 지식의 시간적 한계

복수기 성능 저하 원인 분석 중 열교환기 오염도(Fouling Factor)를 추정해야 했습니다. 입출구 온도와 유량 데이터를 주고 TEMA 기준 fouling factor를 계산해달라고 했습니다. 결과는 나왔지만 단위 변환 오류가 있었고, 사용한 기준표가 구버전이었습니다. GPT는 이 사실을 알리지 않았습니다. 현재 적용 기준과 다르다는 안내도 없었습니다.

LLM은 학습 데이터 어딘가에 있던 수치를 출력했을 뿐입니다. 그것이 현재 기준에 부합하는지, 버전이 맞는지 스스로 판단하는 기능이 없습니다. 이것이 LLM 한계 중 현장에서 자주 간과되는 부분입니다 — 지식의 시간적 범위를 스스로 고지하지 않는다는 점입니다.

인간 아이 vs LLM: 학습 방식 비교가 한계를 설명한다

르쿤이 자주 드는 비유가 있습니다. 네 살짜리 아이와 최첨단 LLM의 학습 방식을 비교하면 LLM 한계가 더 선명하게 드러집니다.

비교 항목	인간 아이 (4세)	최신 LLM
학습 방식	눈으로 보고, 손으로 만지고, 직접 넘어지며	인터넷의 수조 개 텍스트 토큰
학습 기간	약 16,000시간의 관찰과 경험	약 40만 년치 분량의 독서
에너지 소비	약 20W (전구 하나 수준)	메가와트급 데이터센터
물리 상식	공이 어디로 떨어질지 직관적으로 앎	텍스트에서 추론, 실제 시뮬레이션 불가

40만 년치 책을 읽고도 공이 어디로 떨어질지 몸으로 모른다는 것. 이게 르쿤이 말하는 핵심입니다. 더 많은 텍스트를 학습한다고 해결되는 문제가 아니라는 뜻이죠.

대안: 월드 모델은 LLM과 어떻게 다른가

르쿤이 제안하는 월드 모델(World Model)은 세상이 어떻게 작동하는지를 AI가 내부에서 시뮬레이션하는 구조입니다. 텍스트의 다음 단어를 예측하는 것이 아니라, 세상의 다음 상태를 예측하는 방식입니다.

르쿤이 개발 중인 JEPA(Joint Embedding Predictive Architecture)는 영상 데이터를 보면서 “이 장면 다음에 어떤 상태가 올지”를 추상적 수준에서 예측합니다. 픽셀 하나하나를 복원하는 것이 아니라 핵심 패턴만 학습하는 구조이죠. Meta의 V-JEPA 2는 한 번도 본 적 없는 환경에서 로봇이 스스로 물건을 조작하는 데 성공했습니다. 물리 법칙을 내부적으로 시뮬레이션한 결과입니다.

발전소 성능해석에서 GPT가 틀린 이유가 이제 보입니다. 증기 압력 변화, 열교환기 온도 분포, 터빈 내부 유동은 공간과 시간이 결합된 물리 시뮬레이션 영역입니다. LLM은 이 현상을 “시뮬레이션”한 것이 아니라 “텍스트에서 비슷한 패턴을 찾아낸” 것이었습니다. 그래서 결과는 그럴듯했지만, 물리적으로 틀렸습니다. 참고 영상: 얀 르쿤 인터뷰 (Videomug)

LLM vs 월드 모델: 핵심 차이점 비교

월드 모델이 LLM을 대체한다는 의미가 아닙니다. 역할이 다릅니다. 비교표로 정리하면 이 차이가 명확해집니다.

비교 항목	현재 LLM (GPT, Claude 등)	월드 모델 (JEPA 방향)
학습 데이터	수조 개 텍스트 토큰	영상·감각 데이터 + 물리 상호작용
예측 방식	다음 단어(토큰) 예측	다음 세계 상태(state) 예측
물리 이해	텍스트 패턴 기반 (시뮬레이션 없음)	내부 물리 모델로 상태 추론 가능
추론 방식	즉각 반응 (System 1)	계획·시뮬레이션 포함 (System 2 지향)
불확실성 처리	자신감 있는 오답 가능	모르는 영역을 인식하고 표현 가능
강점 영역	언어, 요약, 문서, 코드	로봇 조작, 물리 시뮬레이션, 공학 계산
현재 성숙도	상용화, 광범위 활용	연구 단계 (V-JEPA 2, 2025년 기준)

르쿤의 비전은 두 시스템이 결합된 구조입니다. 월드 모델이 물리 세계를 이해하고 계획을 세우면, LLM이 그 계획을 언어로 설명하고 사용자와 소통하는 방식입니다. 지금 LLM이 사라지는 게 아니라, 더 큰 시스템 안에서 역할이 재정의되는 방향입니다.

언제 LLM을 믿고, 언제 의심해야 하는가

LLM 한계를 알고 쓰는 것과 모르고 쓰는 것은 현장에서 전혀 다른 결과를 낳습니다. LLM이 쓸모없다는 게 아닙니다. 저도 매일 씁니다. AI로 발표자료를 제작하거나 문서 초안을 잡는 작업에서는 충분히 강력합니다. 핵심은 어디에 쓰느냐입니다.

영역	LLM 활용 판단	이유
보고서 초안, 문서 요약	신뢰 가능	텍스트 패턴이 잘 작동하는 영역
코드 작성, 번역, 이메일 초안	신뢰 가능	반복 패턴이 명확하고 검증이 쉬움
열역학 수치 계산, 사이클 분석	결과 반드시 검증	물리 시뮬레이션 없이 패턴 조합 → 오류 누적
설비 고장 원인 진단	참고만, 최종 판단은 전문가	현장 맥락과 실측 데이터를 LLM이 모름
기술 기준·코드 수치 인용	원본 문서 직접 확인 필수	개정 이력 인식 불가, 구버전 인용 위험
촉매·재료 특성값 산출	제조사 데이터 우선	운전 조건별 피독·열화 특성은 LLM이 반영 못함

참고 — 이 주제에서 가장 많이 나오는 오해

미디어 제목이 자극적이다 보니 “AI 석학이 LLM은 끝났다고 선언했다”는 식으로 읽히기 쉽습니다. 르쿤의 실제 메시지는 다릅니다. LLM이 사라지는 게 아니라, 더 큰 시스템의 한 부품이 되어가는 방향입니다. 월드 모델이 물리 세계를 이해하고, LLM이 언어를 처리하는 방식으로 역할이 분담될 것입니다.