주희 × 데이터 과학

오프닝

2026년 한 데이터 과학자가 새 프로젝트를 맡는다. 주니어 시절이라면 바로 모델을 불러 fit을 돌렸을 것이다. 하지만 경력 10년차의 그는 다르게 움직인다. 먼저 데이터를 열어 한 행씩 본다. describe()를 돌린다. 히스토그램을 그린다. 이상치 몇 개를 붙들고 한 시간을 보낸다. 동료가 "왜 모델 안 돌려요?"라고 묻자 그는 답한다 — "데이터가 뭘 말하려는지 먼저 들어야죠." 13세기 주희가 『대학』의 한 구절을 풀며 평생을 바친 방법이 정확히 이것이다 — 格物致知(격물치지). 사물을 하나하나 궁구하라. 그러면 이치가 드러난다.

주희 — 앎은 하나하나의 관찰에서 자란다

주희(朱熹, 1130-1200)는 송나라의 대학자다. 북송(北宋) 유학자들(주돈이·정호·정이)의 사상을 종합해 "성리학(性理學)"을 완성했고, 이후 700년간 동아시아 사상의 표준이 됐다. 그의 공헌 중 가장 실용적인 것이 『대학장구(大學章句)』 — 『대학』의 팔조목 중 "격물(格物)"을 해석하는 방식이었다. 『대학』 원문은 "致知在格物(앎에 이르는 것은 격물에 있다)"라고만 말한다. 주희는 이 한 줄에 생애의 해석을 바쳤다. 그의 정의 — "格은 이른다(至)는 뜻이고, 物은 일과 사물이다. 格物은 사물의 이치를 끝까지 궁구하여 그 극에 이르는 것이다(窮至事物之理, 欲其極處無不到也)." 주희의 방법론은 세 단계다. (1) 개별 사물을 하나씩 관찰한다(今日格一物). (2) 그 사물의 이치(理)를 끝까지 추궁한다. (3) 충분히 누적되면 어느 순간 "활연관통(豁然貫通)" — 전체가 갑자기 꿰뚫린다. 주희의 천재성은 활연관통을 "한 번의 깨달음"이 아니라 "축적의 임계점"으로 본 점이다. 성리학은 귀납적이다. 모든 사물 안에는 "이(理)"라는 보편적 원리가 있고, 충분히 많은 개별을 관찰하면 그 이가 드러난다. 그런데 사물을 대충 보면 아무리 많이 봐도 안 된다. "궁구(窮至)"라는 말이 핵심이다 — 한 사물을 끝까지 파헤쳐야 한다.

💡 주희의 진짜 혁명은 "앎의 방법론"을 처음으로 체계화했다는 점이다. 그전까지 유학은 경전 암송과 수양에 초점이 있었다. 주희는 "세상의 사물을 직접 관찰하라"고 방향을 틀었다. 데이터 중심 사유의 원형이다. 17세기 서양에서 베이컨이 귀납법을 제창했을 때, 주희는 그보다 450년 먼저 같은 구조를 세웠다. 동아시아 근대 과학사를 다시 쓰게 만드는 지점이다.

📚 주희 『대학장구(大學章句)』 📚 『주자어류(朱子語類)』 📚 왕양명 『전습록』

데이터 과학 — 모델보다 먼저 데이터를 들어라

현대 데이터 과학의 성숙한 실무자들이 공유하는 한 가지 원칙이 있다 — "Model first"가 아니라 "Data first"다. Kaggle 그랜드마스터들의 인터뷰를 모아 보면 공통된 관찰이 나온다. 상위 10%와 상위 1%를 가르는 것은 모델 선택이 아니라 EDA(Exploratory Data Analysis)의 깊이다. 2019년 Wes McKinney(pandas 창시자)는 말했다 — "데이터를 들여다보는 데 쓴 시간의 제곱근만큼 프로젝트의 질이 좋아진다." 현대 머신러닝 파이프라인의 표준 흐름은 이렇다. (1) 데이터 수집 → (2) 탐색적 분석(EDA) → (3) 특성 공학(feature engineering) → (4) 모델 선택 → (5) 훈련 → (6) 검증 → (7) 해석(interpretability) → (8) 다시 1로. 전체 시간의 60-70%는 1-3단계에 들어간다. 구글의 유명한 ML 엔지니어링 가이드 "Rules of Machine Learning"(Zinkevich, 2018)의 규칙 #14는 "Launch with the dumbest model first" — 먼저 가장 단순한 모델부터 시작하라. 왜? 데이터를 이해하려고. 규칙 #3은 "Don't be afraid to launch a product without ML" — 때로는 모델이 필요 없다. 더 혁신적인 흐름이 2023-2026년에 왔다. Anthropic의 "Interpretability" 연구팀은 Claude의 내부를 "격물"한다. 하나의 뉴런이 무엇을 "알고 있는지"를 한 번에 하나씩 파헤친다. 2024년의 "Scaling Monosemanticity" 논문은 Claude 3 Sonnet에서 수천만 개의 특성을 개별적으로 식별했다. 정확히 주희가 말한 격물이다 — 모델 전체를 한 번에 이해하려 하지 말고, 하나의 사물부터 끝까지 파헤쳐라.

💡 구글 브레인의 전설적 엔지니어 Jeff Dean은 2017년 강연에서 말했다 — "나는 훈련을 돌리기 전에 항상 데이터의 첫 100개 행을 직접 읽는다. 자동화된 통계로는 절대 안 잡히는 패턴이 거기 있다." 이것은 주희의 "今日格一物"의 현대 번역이다. 하루에 한 사물, 끝까지.

🔗 Google "Rules of Machine Learning" (Zinkevich, 2018) 🔗 Anthropic, "Scaling Monosemanticity" (2024) 🔗 Wes McKinney, "Python for Data Analysis" (3rd ed., 2022) 🔗 Chris Olah et al., Distill.pub Interpretability Series

두 지혜가 만나는 지점

주희의 격물치지는 13세기의 데이터 과학 방법론이었다. 800년 뒤 현대 DS가 그 구조를 재발견한다. 네 가지 공명.

1. 하나의 사물을 끝까지

주희의 "궁지(窮至)"는 "끝까지 파헤침"이다. EDA에서도 같다. 평균과 중앙값만 보는 것은 격물이 아니다. 분포를 그리고, 이상치를 쪼개고, 상관을 돌리고, 결측 패턴을 읽고, 도메인 지식과 대조한다. 한 변수를 완전히 이해하면 그것 하나로 전체 모델의 방향이 잡힌다.

2. 축적이 활연관통으로 이어진다

주희의 "금일격일물, 명일격일물" — 매일 한 사물. 이것이 누적되면 어느 순간 전체가 꿰뚫린다. 신입 DS와 시니어 DS의 결정적 차이다. 시니어는 수백 개 프로젝트의 EDA가 누적되어 있고, 새 데이터셋을 열면 10분 안에 "아, 이 데이터는 이렇구나"가 온다. 활연관통이다. 지름길은 없다. 매일 한 사물뿐이다.

3. 사물 없는 깨달음은 공허하다

주희는 왕양명과 달리 — "먼저 마음에 묻지 말고, 먼저 사물에 묻으라"고 했다. 데이터 사이언스에서도 경계해야 할 함정이 "가설 우선주의". 가설을 먼저 세우고 데이터에서 증거만 찾는 것. 주희는 반대로 — 먼저 데이터가 말하게 하고, 가설은 그 뒤에 나오게 하라고 했다. 이것이 진짜 EDA의 태도다.

4. 해석가능성(interpretability)은 현대의 격물

블랙박스 모델 시대에 다시 일어난 가장 중요한 흐름이 해석가능성이다. "모델이 왜 이 결정을 했는가"를 하나의 뉴런·하나의 특성 단위로 파헤친다. 이것은 주희가 경전의 한 글자 한 글자에 각주를 달며 일생을 바친 작업과 구조적으로 같다. 전체를 이해하려면 개별을 놓치지 않아야 한다.

오늘 할 수 있는 실천 — 격물치지 5원칙

1

모델을 열기 전에 데이터를 100행 읽는다

Jeff Dean의 격물. 엑셀이든 notebook이든, 먼저 눈으로 읽어라. 자동 통계가 놓치는 "느낌"이 거기 있다. 10분이면 된다.
2

하루에 변수 하나씩 완전히 이해한다

주희의 금일격일물. 프로젝트 초반에 매일 하나의 컬럼/특성을 택해 분포·결측·상관·도메인 의미까지 끝까지 파헤쳐 기록한다. 1주일 뒤 전체 그림이 달라진다.
3

발견을 노트로 누적한다

주자어류는 주희 제자들이 그의 일상 대화를 기록한 것이다. 당신도 본인의 "데이터어류"를 남겨라. 프로젝트별 notebook 끝에 "이번에 배운 것" 3줄을 남기면, 1년 뒤 누적된 활연관통이 온다.
4

가설보다 관찰을 먼저

새 데이터셋에서 처음 30분은 가설 없이 데이터가 말하게 해라. 가설을 미리 걸면 보이지 않는 신호를 놓친다. 먼저 보고, 다음에 생각하라.
5

해석가능성을 모델링의 일부로 본다

"좋은 성능"만으로 끝내지 마라. SHAP, attention 시각화, 특성 중요도, 혹은 단순 ablation — 모델 내부를 한 번 더 격물해야 진짜 이해다. Anthropic의 interpretability가 아니라도, 주희의 태도는 매 프로젝트에 적용 가능하다.

결어 — 주희가 Jupyter 노트북을 본다면

주희가 2026년 한 데이터 과학자의 옆에 서서 Jupyter 노트북을 본다고 상상해보자. 그는 첫 셀부터 천천히 따라간다. import, read_csv, describe(), value_counts(). 매 셀마다 고개를 끄덕이다가, 마지막에 RandomForest 한 줄로 끝난 노트북을 보며 표정이 달라진다. 그리고 부드럽게 말할 것이다.