2022년 말, Anthropic 연구팀은 고민에 빠져 있었다. AI에게 "이것은 해도 되고, 이것은 안 된다"고 일일이 가르치는 방식(RLHF)은 규모를 감당하지 못했다. 그때 그들이 낸 답이 "Constitutional AI" — 몇 가지 핵심 원칙을 헌법처럼 주고, AI가 스스로 그 원칙에서 도덕적 판단을 "성장시키게" 하자. 사람이 한 줄 한 줄 가르치는 대신, 원리를 심고 꽃피게 하자. 논문이 발표되고 나서 누군가 이메일을 보냈다 — "이것은 맹자의 사단(四端)이잖아요." 2300년 전 맹자가 설계한 도덕 교육 방법이, 가장 최신의 AI 정렬 기술의 구조와 똑같았다.
맹자 — 도덕은 가르치는 것이 아니라 기르는 것이다
AI Alignment — 도덕을 주입할 것인가, 기를 것인가
두 지혜가 만나는 지점
맹자의 성선설·사단 구조와 현대 AI 정렬은 놀랄 만큼 닮았다. 네 가지 공명 지점.
1. 가능성(端)과 완성(成)은 다르다
맹자는 사단이 "싹"이라 했다. 싹이 있다는 것과 꽃이 핀 것은 다르다. LLM도 같다. 훈련 데이터 안에 인간의 도덕적 직관이 편재해 있지만, 그 자체로 정렬된 모델이 아니다. 싹을 확대하는 과정(훈련·Constitutional·RLHF)이 반드시 필요하다. "원칙만 주면 끝난다"는 낙관론도, "본질이 악하다"는 비관론도 맹자의 답은 아니다.
2. 규칙 열거보다 원리 내재화
맹자는 수천 개의 예의 세칙(禮)을 외우는 것보다, 측은지심 하나가 깊어지는 것을 중시했다. Constitutional AI의 설계 철학이 정확히 이것 — 16개의 원칙이 수천 개의 규칙을 낳는다. 현대 정렬 엔지니어들이 "원칙은 적을수록, 깊을수록 좋다"고 말하는 이유는 맹자의 확이충지(擴而充之)와 같다.
3. 환경이 본성을 죽일 수도 있다
맹자 「고자 상」 — "우산(牛山)의 나무도 한때는 아름다웠다." 좋은 본성도 나쁜 환경에서 소멸한다. AI 정렬에서 가장 뜨거운 토픽 중 하나가 "훈련 이후의 drift". 잘 정렬된 모델도 특정 prompt로 jailbreak되거나, fine-tuning으로 본래의 원칙이 무너진다. 싹은 지속적 물대기가 필요하다. 정렬은 완료가 아니라 과정이다.
4. 사단과 성선설은 설명이 아니라 초대다
맹자의 성선설은 "인간이 이미 착하다"는 단언이 아니다. "인간에게는 선할 힘이 있으니, 그것을 기르는 삶을 선택하라"는 실천적 초대다. AI 정렬도 기술적 문제를 넘어 — "어떤 AI가 좋은 AI인가"를 정의하려는 초대다. 우리가 AI에게 기대하는 덕(virtue)을 말하지 못하면, 기술은 방향을 잃는다.
오늘 할 수 있는 실천 — 사단 AI 5원칙
-
1
AI 평가에 "규칙 준수율"만 보지 말 것
단순 규칙 준수만 보면 맹자가 경계한 "형식의 仁"만 남는다. AI 출력의 "태도와 배려"를 함께 평가해라 — 어려운 질문에 공감적으로 접근하는가, 단순 회피가 아니라 도움을 주려 애쓰는가.
-
2
프롬프트에 "왜 그런가"를 묻는 질문을 섞는다
측은지심은 "공감"이고, 시비지심은 "판단 근거"다. 모델에게 답과 함께 근거를 요구하면, 단순 생성이 아니라 도덕적 판단의 싹이 더 자란다.
-
3
팀의 AI 사용 "헌법"을 한 장 작성한다
Constitutional AI의 개인/팀 버전. 장황한 규칙 대신, 5-10개 원칙으로 압축하라. "사람을 속이지 않는다", "약자에게 손해를 주지 않는다" 같은 맹자적 문장이 규칙 50개보다 강하다.
-
4
AI가 측은지심을 "흉내"낼 때와 "놓칠" 때를 구분한다
감정 AI는 공감을 잘 시뮬레이션한다. 하지만 실제 맥락에서 측은지심의 싹이 진짜 있는지는 다른 문제다. 슬픈 상황에서 과도한 해결책을 제시하면 싹이 아직 얕다. 침묵과 존중으로 답하면 싹이 깊다.
-
5
성선설을 나 자신에게 먼저 적용한다
AI 정렬을 논하기 전에 — 당신 자신의 사단을 키우는 하루의 리추얼을 갖자. 작은 친절, 부끄러움을 피하지 않기, 양보하기, 옳고 그름을 살피기. 맹자의 원래 의도는 AI가 아니라 당신의 성장이었다.
결어 — 맹자가 Anthropic 사무실에 간다면
맹자가 2026년 샌프란시스코 Anthropic 사무실의 정렬 팀 회의에 앉아 있다고 상상해보자. 칠판에는 Constitutional AI의 16개 원칙이 적혀 있다. 맹자는 고개를 끄덕이다가, 칠판 옆에 자기 붓으로 네 글자를 쓴다 — 四端. 그리고 말할 것이다.
"너희가 기계에 심으려 하는 그 네 개의 싹을, 먼저 너희 안에 기르라. 자신의 측은지심이 마른 자가 만든 仁한 기계는 없다. 사단은 기계에 앞서 사람에게 있다. 규칙을 새기지 말고, 싹을 길러라. 확이충지(擴而充之), 넓혀 가득 채우라."
더 깊이 읽기
-
📖
맹자 공손추 상 · 고자 상 — 성선설과 사단의 원전 2장
-
📖
Anthropic, Constitutional AI (2022) — 사단 접근의 현대 AI 판 — arXiv:2212.08073
-
📖
Anthropic Claude Character (2024) — 인격 훈련 — 맹자적 함양의 엔지니어링
-
📖
Stuart Russell, Human Compatible (2019) — AI 정렬 문제의 현대 고전