AI가 틀린 문제를 내지 않게 만드는 법

AI가 문제를 만든다고 하면, 선생님들이 가장 먼저 꺼내시는 걱정이 있습니다.

"그게 틀린 문제를 내면 어떡하죠? 결국 선생님이 다시 다 검토해야 하는 거 아닌가요?"

충분히 타당한 우려입니다. PlanA AI도 초기부터 이 문제를 정면으로 마주했습니다. 그래서 생성 파이프라인 안에 검수 레이어를 직접 심었습니다. 문제가 선생님 화면에 닿기 전에 시스템이 한 번 더 들여다보는 구조입니다.

이 글은 그 구조가 어떻게 생겼는지, 그리고 왜 그것이 선생님의 시간을 실제로 아껴 주는지에 관한 이야기입니다.

LLM은 왜 오류가 나는가

먼저 솔직하게 말씀드리겠습니다. LLM(거대 언어 모델)은 놀랍도록 유능하지만, 구조적으로 오류를 낼 수밖에 없습니다.

가장 흔한 유형은 세 가지입니다. 첫째는 할루시네이션입니다. 모델이 그럴듯한 내용을 자신 있게 내놓아도 지문과 실제로 다를 때가 있습니다. 해설이 정답을 제대로 뒷받침하지 못하거나, 정답으로 지목한 선택지가 지문에 근거하지 않는 경우죠.

둘째는 선택지 편향입니다. 객관식에서 정답이 특정 위치(예: 항상 두 번째)에 몰리거나, 오답이 지나치게 뻔해지곤 합니다. 셋째는 형식 오류입니다. 문제·선택지·정답·해설이 갖춰야 할 구조가 있는데, 필드 하나가 빠지거나 서술 형식이 제각각으로 나옵니다.

이 오류들을 선생님이 수백 문제 단위로 일일이 눈으로 잡아내야 한다면, 그건 진짜 시간 절약이 아닙니다. AI가 초안을 만들고 선생님이 교열 사원이 되는 구조일 뿐이죠.

검수 없는 AI 문제 생성은 '초안 생성기'에 그칩니다. 선생님의 야근만 종류가 바뀔 뿐입니다.

검수는 별도 단계가 아닙니다

PlanA AI에는 핵심 설계 원칙이 하나 있습니다. 검수는 생성이 끝난 뒤 따로 하는 일이 아니라는 것입니다.

생성이 완료되면 그 문제는 곧바로 자동 검수 레이어를 통과합니다. 검수를 거치지 않은 문제는 어떤 경우에도 선생님 화면에 올라오지 않습니다. 생성과 검수가 분리된 두 버튼이 아니라 하나의 흐름 안에 묶여 있다는 뜻입니다.

선생님 입장에서는 생성 버튼을 누르고 기다리면 검수까지 끝난 문제 목록이 나타납니다. 따로 "검토하러 들어가는" 단계가 없습니다.

생성된 문제가 구조·분량·내용 검수를 통과해야 선생님 화면에 전달되는 품질 파이프라인 개념도.

실제 데이터 기반 예시

품질 검수 예시: 자동 재검토가 필요한 결과

실제 사용 패턴을 합성·익명화해 재구성했습니다.

대표적인 검수 흐름을 보면, 모든 결과가 같은 품질로 통과되는 것은 아닙니다. 기준에 못 미치는 작업은 그대로 좋은 결과라고 포장하지 않고, 재시도나 검토 대상으로 분류됩니다.

구조: 문항·선택지·정답·해설이 모두 있는지 확인합니다.
분량: 문제와 해설이 지나치게 짧거나 길지 않은지 봅니다.
내용: 지문과 해설의 연결, 정답 근거의 자연스러움을 점검합니다.

선생님께 중요한 것은 내부 점수표가 아닙니다. 기준에 못 미치는 결과를 시스템이 인식하고, 그대로 내보내지 않도록 설계되어 있다는 점입니다.

자동 검수는 무엇을 확인하나요

PlanA AI의 검수는 선생님 화면에 점수를 보여 주기 위한 기능이 아닙니다. 핵심은 내부 기준에 맞지 않는 문제를 그대로 내보내지 않는 것입니다.

검수는 크게 세 축으로 이뤄집니다.

구조 검수는 문제가 갖춰야 할 필수 요소가 빠짐없이 들어 있는지 봅니다. 문제 본문, 선택지, 정답, 해설이 모두 있어야 하고 각각 제 형식을 갖춰야 합니다. 필드 하나라도 빠진 문제는 이 단계에서 다시 생성하거나 제외합니다.

분량 검수는 문제와 해설의 적절한 길이를 봅니다. 지나치게 짧아서 설명이 부실하거나, 반대로 장황해서 학생이 읽기 어려운 경우를 걸러냅니다.

내용 검수는 문제의 실질적인 내용을 검토합니다. 오류를 암시하는 표현이 있는지, 학술적으로 어색한 어휘를 썼는지, 지문과의 연결이 자연스러운지를 살핍니다.

정확한 내부 기준과 가중치는 공개하지 않습니다. 다만 선생님께 중요한 것은 숫자를 보는 일이 아니라, 기준에 못 미치는 결과가 선생님 화면에 오기 전에 한 번 더 걸러진다는 점입니다.

고난도 문항에는 별도 난이도 판정이 붙습니다

일반 문제는 기본 구조·분량·내용 검수만으로도 상당 부분 걸러집니다. 그런데 SAT 수준의 고난도 킬러문항은 이야기가 다릅니다.

킬러문항은 형식이 맞고 내용이 틀리지 않은 것만으로는 부족합니다. 실제 고난도 시험에서 통할 만한 수준인지를 따로 평가해야 합니다.

그래서 고난도 문항에는 IRT(문항반응이론) 기반의 난이도 판정 레이어가 추가로 작동합니다. 이 레이어는 문항을 난이도 구간으로 분류합니다. 가장 낮은 구간으로 판정된 문항은 'bad'로 표시되어 자동으로 제외됩니다. 선생님 목록에는 올라오지 않습니다.

유형마다 판정 기준이 다르게 적용됩니다. 빈칸 추론과 어법 문제, 서술형 문제는 "어렵다"는 것의 의미 자체가 다르기 때문입니다.

고난도 문항에서 'bad' 판정이 나면 선생님 화면에 올라오지 않습니다. 걸러진 문제가 있었는지조차 신경 쓰실 필요가 없습니다.

한 번 실패해도 포기하지 않습니다

내부 검수 기준을 통과하지 못한 문제가 있으면, 시스템은 그냥 폐기하지 않습니다. 자동으로 재시도합니다.

재시도해도 해결이 안 되면 폴백 메커니즘이 작동합니다. PlanA AI는 Claude, Gemini 계열 등 복수의 파운데이션 모델을 조합해 활용합니다. 주 모델이 특정 유형에서 품질 기준을 충족하지 못하면 대체 모델로 전환해 다시 생성을 시도합니다.

단일 모델만 쓰면 그 모델의 약점이 그대로 선생님에게 전달됩니다. 복수 모델 조합과 폴백 구조는 이 위험을 분산시키는 장치입니다.

이 모든 재시도와 폴백은 내부에서 자동으로 일어납니다. 선생님은 결과만 받아 보시면 됩니다.

선생님 화면에 보이는 것

생성이 끝나면, 선생님 화면에는 문제 목록과 정답·해설이 나타납니다. 이 목록은 내부 검수 기준을 통과한 결과물입니다.

기준에 미치지 못해 자동으로 제외되거나 재시도된 문제는 목록에 올라오지 않습니다. 선생님이 "이 문제는 좀 이상한데?" 하고 의심하며 하나하나 읽어 내려가는 과정을 최대한 줄이려 했습니다.

물론 시스템이 완벽하다고는 말씀드리기 어렵습니다. AI가 내보낸 문제를 선생님이 마지막으로 한 번 보시는 건 언제나 좋습니다. 다만 그 검토가 "오류를 찾는 작업"이 아니라 "수업에 맞게 고르는 작업"이 되는 것이 목표입니다. 이 차이가 결국 선생님의 시간을 돌려드리는 핵심입니다.

검수가 있어야 AI가 믿을 수 있는 도구가 됩니다

PlanA AI가 범용 챗봇과 다른 이유를 묻는다면, 그 답 중에 반드시 검수가 들어갑니다.

생성만 잘하는 도구는 실제로 부담을 줄여 주지 못합니다. 검수까지 내재화되어야 선생님이 믿고 쓸 수 있는 도구가 됩니다. 그리고 믿고 쓸 수 있어야 수업 준비 시간이 줄고, 그 시간에 학생을 더 볼 수 있습니다.

PlanA AI가 지원하는 39개(객관식 21 + 서술형 18)의 문제 유형 각각에 검수 기준이 적용됩니다. 유형마다 다른 출제 규칙이 있듯이, 검수 기준도 유형을 따라갑니다.

신뢰는 결과물에서 시작합니다. 검수를 통과한 문제만 전달되는 구조가, 선생님이 PlanA AI를 믿고 쓸 수 있는 근거입니다.

검수를 통과한 문제들이 이후 워크북·듣기·단어장 등 확장 기능으로 어떻게 연결되는지는 다음 편에서 이어가겠습니다.

PlanA AI를 아직 경험해 보지 않으셨다면, 지금 가입하시면 3,000 크레딧을 무료로 드립니다. 선생님의 지문 하나를 넣어 보시고 검수까지 끝난 문제가 어떤 모습으로 나오는지 직접 확인해 보시길 권합니다. 내신 시즌이 오기 전에 한 번은 써 보실 만한 도구입니다.