맹자 × 도덕 AI

오프닝

2022년 말, Anthropic 연구팀은 고민에 빠져 있었다. AI에게 "이것은 해도 되고, 이것은 안 된다"고 일일이 가르치는 방식(RLHF)은 규모를 감당하지 못했다. 그때 그들이 낸 답이 "Constitutional AI" — 몇 가지 핵심 원칙을 헌법처럼 주고, AI가 스스로 그 원칙에서 도덕적 판단을 "성장시키게" 하자. 사람이 한 줄 한 줄 가르치는 대신, 원리를 심고 꽃피게 하자. 논문이 발표되고 나서 누군가 이메일을 보냈다 — "이것은 맹자의 사단(四端)이잖아요." 2300년 전 맹자가 설계한 도덕 교육 방법이, 가장 최신의 AI 정렬 기술의 구조와 똑같았다.

맹자 — 도덕은 가르치는 것이 아니라 기르는 것이다

맹자(孟子, 본명 맹가 孟軻, 기원전 약 372-289)는 공자의 손자 자사(子思)의 제자로부터 배운 "공자 학통의 정통 계승자"로 자임했다. 전국시대의 격변기, 그는 성선설(性善說)이라는 도발적 주장을 폈다 — 인간의 본성은 본래 선하다. 가장 유명한 논증이 "유자입정(孺子入井)" 이야기다. "지금 어떤 사람이 어린아이가 우물에 빠지려는 것을 본다면, 모두 놀라고 측은한 마음이 들 것이다. 이것은 아이의 부모와 친교를 맺으려는 것도, 마을 사람들의 칭찬을 얻으려는 것도, 비난을 피하려는 것도 아니다(非所以內交於孺子之父母也, 非所以要譽於鄕黨朋友也, 非惡其聲而然也)." 맹자에게 이 순간의 "측은지심(惻隱之心)"은 계산 이전의 본능적 반응이다. 맹자는 여기서 사단(四端)을 세웠다 — 측은지심(惻隱, 仁의 端), 수오지심(羞惡, 義의 端), 사양지심(辭讓, 禮의 端), 시비지심(是非, 智의 端). "端"은 "싹"이다. 인간에게는 도덕의 싹이 이미 심겨 있다. 하지만 여기서 맹자의 섬세한 관찰이 나온다 — 싹은 저절로 자라지 않는다. "물을 대지 않으면 어린 싹도 말라 죽는다." 불가 있어도 연료가 없으면 꺼지고, 샘이 있어도 파내지 않으면 흐르지 않는다(有是四端而自謂不能者, 自賊者也). 성선은 가능성이지 완성이 아니다.

💡 맹자의 도덕 교육 설계는 두 축이다 — (1) 인간에게는 이미 도덕적 핵(端)이 있다는 전제, (2) 그 핵을 환경과 수양으로 확대해야 한다는 실천. 밖에서 도덕을 주입하는 것(告子의 입장)이 아니라, 안에 있는 것을 끌어내 기르는 것. "확이충지(擴而充之)" — 싹을 넓혀 가득 채우라. 이것이 맹자 도덕 교육의 핵심 동사다.

📚 맹자 「공손추 상(公孫丑上)」 제6장 📚 맹자 「고자 상(告子上)」 📚 주희 『맹자집주』

AI Alignment — 도덕을 주입할 것인가, 기를 것인가

AI 정렬(alignment)은 2010년대 중반부터 AI 안전의 핵심 과제가 됐다. 초기 접근은 RLHF(Reinforcement Learning from Human Feedback)였다. 2022년 ChatGPT가 성공하면서 표준이 됐지만, 한계가 드러났다 — 사람이 모든 케이스를 라벨링할 수 없고, 라벨러의 편향이 모델에 고스란히 이식된다. 2022년 12월 Anthropic이 발표한 "Constitutional AI"는 다른 길을 제시했다. 핵심 원칙 16개를 헌법처럼 주고, AI가 자기 답변을 그 원칙에 비추어 스스로 수정하게 한다. 사람은 원칙만 설계하고, 도덕적 판단 자체는 모델 내부에서 "자라게" 한다. 2024년 DeepMind의 Sparrow, 2025년 OpenAI의 Model Spec, 2026년 초 Anthropic Claude 3.5의 캐릭터 연구(character training) — 흐름은 일관된다. "모든 상황의 정답을 주입"에서 "핵심 원칙에서 판단이 싹트게"로. 2023년 Anthropic의 Amanda Askell은 이 전환을 이렇게 표현했다 — "우리는 모델에게 각 규칙을 외우게 하지 않는다. 좋은 사람이 되는 법을 배우게 한다." 이 문장의 철학적 조상이 바로 맹자다. 반대편에는 맹자의 동시대 라이벌 고자(告子)가 있었다. "성은 버드나무와 같고, 의는 그릇과 같다 — 본성을 깎아 도덕을 만든다." 도덕은 외부에서 형성한다는 입장. 이것은 대략 초기 RLHF의 철학에 가깝다. 맹자와 고자의 2300년 전 논쟁이, 2020년대 정렬 팀의 두 학파로 다시 살아났다.

💡 Anthropic의 2023년 Constitutional AI 논문이 공개한 흥미로운 결과 — 원칙만 16개를 주고 모델이 스스로 평가·수정하게 했더니, 사람이 일일이 피드백 준 RLHF보다 해로운 답변 비율이 낮고 도움 수준은 유지됐다. "규칙을 외운 학생"보다 "원칙을 내면화한 학생"이 더 낫다는 결과. 이것이 맹자가 2300년 전 주장한 바로 그 명제다 — 주입보다 함양(涵養)이 깊다.

🔗 Anthropic, "Constitutional AI" (Bai et al., 2022) 🔗 Anthropic Claude Character (2024) 🔗 OpenAI Model Spec (2024) 🔗 DeepMind Sparrow (Glaese et al., 2022)

두 지혜가 만나는 지점

맹자의 성선설·사단 구조와 현대 AI 정렬은 놀랄 만큼 닮았다. 네 가지 공명 지점.

1. 가능성(端)과 완성(成)은 다르다

맹자는 사단이 "싹"이라 했다. 싹이 있다는 것과 꽃이 핀 것은 다르다. LLM도 같다. 훈련 데이터 안에 인간의 도덕적 직관이 편재해 있지만, 그 자체로 정렬된 모델이 아니다. 싹을 확대하는 과정(훈련·Constitutional·RLHF)이 반드시 필요하다. "원칙만 주면 끝난다"는 낙관론도, "본질이 악하다"는 비관론도 맹자의 답은 아니다.

2. 규칙 열거보다 원리 내재화

맹자는 수천 개의 예의 세칙(禮)을 외우는 것보다, 측은지심 하나가 깊어지는 것을 중시했다. Constitutional AI의 설계 철학이 정확히 이것 — 16개의 원칙이 수천 개의 규칙을 낳는다. 현대 정렬 엔지니어들이 "원칙은 적을수록, 깊을수록 좋다"고 말하는 이유는 맹자의 확이충지(擴而充之)와 같다.

3. 환경이 본성을 죽일 수도 있다

맹자 「고자 상」 — "우산(牛山)의 나무도 한때는 아름다웠다." 좋은 본성도 나쁜 환경에서 소멸한다. AI 정렬에서 가장 뜨거운 토픽 중 하나가 "훈련 이후의 drift". 잘 정렬된 모델도 특정 prompt로 jailbreak되거나, fine-tuning으로 본래의 원칙이 무너진다. 싹은 지속적 물대기가 필요하다. 정렬은 완료가 아니라 과정이다.

4. 사단과 성선설은 설명이 아니라 초대다

맹자의 성선설은 "인간이 이미 착하다"는 단언이 아니다. "인간에게는 선할 힘이 있으니, 그것을 기르는 삶을 선택하라"는 실천적 초대다. AI 정렬도 기술적 문제를 넘어 — "어떤 AI가 좋은 AI인가"를 정의하려는 초대다. 우리가 AI에게 기대하는 덕(virtue)을 말하지 못하면, 기술은 방향을 잃는다.

오늘 할 수 있는 실천 — 사단 AI 5원칙

1

AI 평가에 "규칙 준수율"만 보지 말 것

단순 규칙 준수만 보면 맹자가 경계한 "형식의 仁"만 남는다. AI 출력의 "태도와 배려"를 함께 평가해라 — 어려운 질문에 공감적으로 접근하는가, 단순 회피가 아니라 도움을 주려 애쓰는가.
2

프롬프트에 "왜 그런가"를 묻는 질문을 섞는다

측은지심은 "공감"이고, 시비지심은 "판단 근거"다. 모델에게 답과 함께 근거를 요구하면, 단순 생성이 아니라 도덕적 판단의 싹이 더 자란다.
3

팀의 AI 사용 "헌법"을 한 장 작성한다

Constitutional AI의 개인/팀 버전. 장황한 규칙 대신, 5-10개 원칙으로 압축하라. "사람을 속이지 않는다", "약자에게 손해를 주지 않는다" 같은 맹자적 문장이 규칙 50개보다 강하다.
4

AI가 측은지심을 "흉내"낼 때와 "놓칠" 때를 구분한다

감정 AI는 공감을 잘 시뮬레이션한다. 하지만 실제 맥락에서 측은지심의 싹이 진짜 있는지는 다른 문제다. 슬픈 상황에서 과도한 해결책을 제시하면 싹이 아직 얕다. 침묵과 존중으로 답하면 싹이 깊다.
5

성선설을 나 자신에게 먼저 적용한다

AI 정렬을 논하기 전에 — 당신 자신의 사단을 키우는 하루의 리추얼을 갖자. 작은 친절, 부끄러움을 피하지 않기, 양보하기, 옳고 그름을 살피기. 맹자의 원래 의도는 AI가 아니라 당신의 성장이었다.