ChatGPT로 변형문제를 만들어 보셨다면, 이 글을 권합니다

영어 선생님이라면 한 번쯤 시도해 보셨을 겁니다. 내신 시즌, 산더미 같은 변형문제를 앞에 두고 ChatGPT 창을 띄워 지문 하나를 붙여 넣는 일 말입니다. 처음 몇 문제는 꽤 그럴듯하게 나옵니다. "오, 이거 쓸 만한데?" 싶은 순간도 분명 있습니다.

그런데 30문제짜리 시험 하나를 만들려고 1,000문제 가까운 변형을 뽑다 보면, 어느 순간 손이 멈춥니다. 같은 유형을 부탁했는데 답지 형식이 제각각이고, 어법 문제라더니 어휘 문제가 섞여 나오고, 분명히 "고1 수준"이라고 했는데 수능 킬러급 어휘가 튀어나옵니다. 결국 하나하나 다시 읽고, 고치고, 형식을 맞추다 보면 — 차라리 직접 만드는 게 빠르겠다는 생각이 듭니다.

이 글은 바로 그 지점에 관한 이야기입니다. 범용 챗봇이 왜 거기서 멈추는지, 그리고 PlanA가 그 너머를 어떻게 시스템으로 풀어냈는지를, 가능한 한 솔직하게 말씀드리려 합니다.

범용 챗봇이 똑똑하지 않아서가 아닙니다

먼저 분명히 해 둘 것이 있습니다. ChatGPT, Claude, Gemini 같은 최신 LLM은 놀랍도록 유능합니다. PlanA 역시 이런 최신 모델들을 조합해 활용합니다. 문제를 만드는 "두뇌" 자체를 부정하려는 것이 아닙니다.

문제는 다른 데 있습니다. 범용 챗봇은 말 그대로 "범용"입니다. 시 한 편을 쓰고, 코드를 짜고, 여행 일정을 잡는 그 도구로, 한국 중·고등학교 영어 내신의 특수한 규칙까지 한 번에 만족시키기는 어렵습니다.

범용 챗봇은 한 문제를 잘 만듭니다. 그러나 시험지 한 부를 일관되게 만들어 내는 일은 전혀 다른 문제입니다.

선생님이 진짜로 필요한 것은 "그럴듯한 문제 하나"가 아닙니다. 같은 유형이면 같은 형식으로, 교육과정 범위 안에서, 반별 난이도에 맞게, 검수까지 끝난 채로, 그대로 인쇄해 나눠 줄 수 있는 한글 시험지 한 부입니다. 이 다섯 가지 요구가 동시에 걸리는 순간, 범용 도구는 한계를 드러냅니다.

한 문제씩 만들 때 부딪히는 다섯 개의 벽

현장에서 챗봇으로 변형문제를 만들어 보면, 대체로 비슷한 지점에서 막힙니다.

첫째, 일관성입니다. 같은 "빈칸 추론" 유형을 10번 요청하면 10가지 다른 형태로 나옵니다. 선택지 개수가 들쭉날쭉하고, 정답·해설의 서술 방식도 매번 바뀝니다. 한 부의 시험지는 형식이 통일되어야 하는데, 매 요청이 독립적인 대화이다 보니 통일성을 유지하기가 어렵습니다.

둘째, 교육과정 범위입니다. "중3 수준"이라고 말해도 챗봇은 그 학년이 실제로 배우는 어휘·문법의 경계를 알지 못합니다. 범위를 벗어난 어휘가 섞이거나, 반대로 지나치게 쉬워지기도 합니다.

셋째, 유형 체계입니다. 내신과 수능에는 명확히 분류된 문제 유형이 있습니다. 어순 배열, 요약문 완성, 어법성 판단처럼 유형마다 출제 규칙이 다른데, 범용 챗봇에는 이 체계가 내장되어 있지 않아 매번 선생님이 규칙을 설명해 줘야 합니다.

넷째, 검수입니다. AI가 만든 문제는 가끔 정답이 둘이거나, 정답이 없거나, 지문과 어긋난 해설을 답니다. 한 문제라면 눈으로 잡아내지만, 수백 문제를 그렇게 검수하는 일은 또 다른 야근의 시작입니다.

다섯째, 한글 시험지 포맷입니다. 이것이 의외로 가장 큰 벽입니다. 챗봇이 멋진 문제를 만들어 줘도, 그것을 한글(HWPX) 시험지 양식에 옮겨 담고, 번호를 매기고, 교사용·학생용을 나누는 일은 고스란히 사람의 몫으로 남습니다.

범용 챗봇 한 칸과 PlanA 전체 워크플로우를 나란히 그린 개념도. 지문 입력부터 분석, 유형별 생성, 검수, HWPX 출력까지 하나의 흐름으로 이어집니다.

실제 데이터 기반 예시

대표 사용 흐름으로 보면 차이가 더 선명합니다

실제 사용 패턴을 합성·익명화해 재구성한 예시입니다.

대표 사용 흐름을 살펴보면, 선생님들은 한 지문에서 여러 유형의 변형 문제를 반복적으로 생성하고, 그 결과를 검수와 출력까지 이어서 사용합니다. 단순히 챗봇에 지문을 붙여 넣는 방식이었다면 이 흐름에서 형식·검수·출력 품질을 일정하게 유지하기 어렵습니다.

입력: 모의고사 지문 또는 학교 시험지 파일
중간 처리: 지문 분석, 유형 선택, 변형 생성, 내부 검수
출력: 선생님이 바로 검토하거나 HWPX·워크북으로 이어 갈 수 있는 결과물

핵심은 규모가 아니라 반복성입니다. 반복 가능한 워크플로우가 있어야 실제 수업 현장에서 계속 쓸 수 있다는 점을 보여 주는 예시입니다.

PlanA는 '문제 하나'가 아니라 '워크플로우 전체'를 설계했습니다

PlanA를 ChatGPT 래퍼라고 오해하시는 분들이 계십니다. 그러나 우리가 실제로 만든 것은 챗봇에 말을 거는 껍데기가 아니라, 지문이 들어와 인쇄 가능한 한글 시험지로 나오기까지의 전 과정을 책임지는 하나의 시스템입니다.

최신 LLM은 강력한 엔진입니다. 그러나 차를 굴러가게 하는 것은 엔진만이 아닙니다. PlanA는 그 위에 얹은 변속기·제동·차체에 해당합니다.

조금 더 구체적으로, 한 장의 지문이 PlanA를 통과하는 여정을 새의 눈높이에서 그려 보겠습니다.

1단계 — 지문 입력과 분석. 선생님이 모의고사·교과서·부교재 지문을 넣거나, 직접 준비한 외부 지문을 붙여 넣습니다. PlanA는 이 지문을 단순히 "읽는" 데서 그치지 않고, 그 지문이 어떤 출제 패턴과 닮았는지를 분석합니다. 과거 시험지를 의미 단위로 비교하는 임베딩 기반 분석으로 "이 지문은 어떤 유형의 문제로 출제하기 적합한가"를 가늠합니다. 우리가 앞으로 따로 다룰 시험지 분석 기술이 바로 이 단계의 핵심입니다.

2단계 — 유형별 생성. 여기서 PlanA의 유형 체계가 작동합니다.

PlanA는 39개(객관식 21 + 서술형 18)의 문제 유형을 체계적으로 지원합니다. 각 유형에는 고유한 출제 규칙과 형식이 정의되어 있어서, "어법성 판단"을 요청하면 언제나 같은 구조의 어법 문제가 나옵니다. 매번 규칙을 다시 설명할 필요가 없습니다. 이 유형 엔진이 어떻게 동작하는지는 유형별 생성 엔진 글에서 자세히 풀겠습니다. 그중에서도 가장 까다로운 킬러문항 생성은 별도의 이야깃거리가 될 만합니다.

3단계 — 난이도 변형. 같은 지문에서 기초반부터 최상위반까지 쓸 수 있도록, 원본을 단계적으로 변형합니다. 단순히 어려운 단어로 바꾸는 것이 아니라, 실제 출제 경향에 맞는 방식으로 난이도를 조절합니다. 한 지문으로 여러 반의 수준별 학습지를 동시에 구성할 수 있습니다.

4단계 — 검수. 생성된 문제는 곧바로 선생님에게 가지 않습니다. 그 사이에 검수 단계가 있습니다. 정답이 하나로 떨어지는지, 지문과 해설이 어긋나지 않는지를 시스템이 한 번 걸러 냅니다. 사람이 수백 문제를 일일이 확인하던 그 야근을, 시스템이 상당 부분 덜어 줍니다. 이 품질 검수 파이프라인은 우리가 가장 공들인 부분 중 하나입니다.

5단계 — 한글 시험지 출력. 마지막으로, 완성된 문제들이 한글(HWPX) 시험지 양식에 자동으로 담깁니다. 번호가 매겨지고, 교사용(해설 포함)과 학생용(정답 분리)이 한 번에 나옵니다. 그대로 출력해 교실에 들고 들어가시면 됩니다. 한글 포맷을 코드로 정확히 생성하는 일이 왜 그토록 어려운 엔지니어링 과제인지는 HWPX 포맷 엔진 글에서 따로 다루겠습니다.

결국 선생님께 돌아가는 것은 '시간'입니다

기술 이야기를 길게 했지만, 우리가 진짜로 만들고 싶었던 것은 정교한 파이프라인 그 자체가 아닙니다. 선생님이 새벽까지 문제를 타이핑하고 형식을 맞추는 대신, 학생 한 명 한 명을 더 들여다볼 수 있는 시간입니다.

한 학원 선생님은 이렇게 말씀하셨습니다. "예전에는 자료 만드는 데만 하루를 거의 다 썼는데, 이제는 훨씬 짧은 시간 안에 초안을 만들고 수업 설계에 더 집중할 수 있게 되었습니다."

좋은 도구는 교사를 대체하지 않습니다. 교사가 교사다운 일에 집중하도록 시간을 돌려줍니다.

범용 챗봇으로 한 문제씩 씨름하던 그 시간을, PlanA는 시스템에 맡기시라고 제안합니다. 그것이 ChatGPT 창에 지문을 붙여 넣는 일과 PlanA를 쓰는 일의 결과가 끝내 달라지는 이유입니다.

다음 이야기들

이 글은 PlanA를 새의 눈높이에서 한 번 훑은 지도입니다. 앞으로 각 단계를 하나씩 깊이 들여다보겠습니다. 지문을 의미 단위로 읽어 내는 시험지 분석, 유형을 일관되게 찍어 내는 생성 엔진과 킬러문항, 정답을 한 번 더 걸러 내는 검수 파이프라인, 그리고 모두가 골치 아파하는 한글 시험지 포맷까지 차근차근 풀어 가겠습니다.

혹시 지금도 ChatGPT 창과 한글 파일을 오가며 변형문제와 씨름하고 계시다면, PlanA를 한번 직접 써 보시길 권합니다. 가입하시면 3,000 크레딧을 무료로 드리니, 부담 없이 선생님의 지문 하나를 넣어 보시고 결과가 어떻게 다른지 직접 확인해 보세요.