AI 위키 자료를 어떻게 정리하나요? (2026) — Karpathy distill 패턴으로 2,470개를 76 페이지로 압축한 5가지 원칙
본문 바로가기
Programming

AI 위키 자료를 어떻게 정리하나요? (2026) — Karpathy distill 패턴으로 2,470개를 76 페이지로 압축한 5가지 원칙

by 찬(Chan) 2026. 6. 23.
반응형

이 글에서 배우는 것: LLM 위키를 만들다 보면 raw 자료가 빠르게 1,000개를 넘어갑니다. 모든 자료를 페이지로 만들면 위키가 raw의 복사본이 되어 검색·연결 가치가 사라집니다. 본인은 raw 자료 2,470개를 위키 76 페이지로 32배 압축해 운영하고 있으며, 평균 페이지당 5~10개 자료를 통합하고 5개 태그 한도와 lifecycle·tier 명시 규칙을 강제합니다. 이 글은 그 압축에 사용한 5가지 원칙·메타 인덱스 패턴·가치 토픽 승격 점수표·실패 사례 4건을 정리한 1차 자료입니다. Andrej Karpathy가 제안한 raw → distill → wiki 패턴의 한국어 실전 적용 사례이며, Claude Code·Codex CLI·Gemini CLI 모두에 공통 적용 가능합니다. 본인 vault 6라운드 ingest 분포(약 126개 직접 distill + 2,344개 메타 커버)도 그대로 공개합니다.

📚 이 글은 LLM 위키 만들기 완벽 가이드 (2026)후속 4편입니다.


요약 (Quick Answer)

항목 결과
압축비 2,470 → 76 (32배)
페이지당 raw 통합 5~10개
ingest 1회당 페이지 10~15개
페이지당 태그 한도 5개
메타 인덱스 패턴 대규모 카테고리 (100+)
ingest 총 라운드 6회

3줄 결론:

  1. 모든 raw 자료를 페이지로 만들면 위키가 raw의 복사본이 됩니다.
  2. 5~10개씩 통합하고, 100개 이상 카테고리는 메타 인덱스 + 가치 토픽 승격으로 처리하세요.
  3. lifecycle·tier·provenance를 frontmatter에 명시해 나중 정비 우선순위를 잡습니다.

distillation이란?

distillation은 raw 자료를 단순 요약하는 것이 아니라 여러 자료에서 공통된 핵심을 뽑아 하나의 페이지로 통합하는 과정입니다.

distillation의 핵심은 압축비가 아니라 연결 밀도입니다. raw 자료 1,000개에서 페이지 100개를 만들었더라도 페이지 간 wikilink가 0이면 그저 폴더에 불과합니다. 본인 vault의 76 페이지는 평균 5~10개 wikilink로 연결되어 있어 매니지먼트 페이지에서 AI 페이지로, AI 페이지에서 학습법 페이지로 자연스럽게 흐릅니다. 즉 distillation은 "줄이기"가 아니라 "엮기" 입니다. 페이지 수를 늘리는 대신 한 페이지 안에 여러 자료의 공통점을 통합하고, 그 페이지를 다른 페이지와 wikilink로 엮어 의미 그래프를 만듭니다. Karpathy의 원래 패턴이 raw → distill → wiki 세 층 구조인 이유가 여기에 있습니다 — 마지막 wiki 층은 graph(그래프)여야 하며, 단순한 documents folder(폴더)여서는 안 됩니다.

작업 결과
요약 (summary) 자료 1개 → 페이지 1개 (같은 분량)
distillation 자료 N개 → 페이지 1개 (압축 + 통합)

본인 위키 평균은 자료 32개당 페이지 1개입니다. 매니지먼트 페이지 하나는 5~10개 raw 자료의 핵심을 통합한 결과입니다.


distillation 5가지 원칙

1. 페이지당 raw 자료 5~10개 통합 — 가장 중요

한 페이지는 5~10개의 raw 자료를 sources로 인용합니다. 자료가 1개뿐인 페이지는 만들지 않습니다.

sources:
  - "raw/articles/2. 팀-회사 생활/#원온원-2024-08-22.md"
  - "raw/articles/2. 팀-회사 생활/#1-1 #진행 #팁-2024-09-15.md"
  - "raw/articles/2. 팀-회사 생활/#매니저 #1-1-2024-10-03.md"

자료 1개짜리 페이지는 결국 그 자료의 복사본이 됩니다. 위키의 가치가 없습니다.

2. 페이지당 5개 태그 한도

태그가 많을수록 좋아 보이지만 실제로는 검색 노이즈가 됩니다. 5개 한도를 강제하면 본인이 어떤 도메인을 정의했는지 명확해집니다.

3. ingest 1회당 10~15 페이지

한 번에 100 페이지를 만들려고 하면 AI도 사용자도 지칩니다. 카테고리 단위로 10~15 페이지씩 처리합니다.

4. lifecycle·tier로 가치 명시

페이지마다 frontmatter에 lifecycle과 tier를 명시합니다.

필드 의미
lifecycle draft / reviewed / verified / disputed / archived 검수 단계
tier core / supporting / peripheral 위키 중요도

이 분류로 나중에 어떤 페이지를 우선 정비할지 결정합니다.

5. 모순은 숨기지 않고 명시

자료끼리 의견이 다를 때 한쪽을 선택해 덮어쓰지 않고 둘 다 보존합니다.

contradicts: A 자료는 X라 말하고 B 자료는 Y라 말함.

이 마커가 "위키가 신뢰할 만한가"의 기준입니다.


본인 vault 6라운드 ingest 분포

라운드별로 카테고리를 나눠 처리한 결과:

라운드 처리 카테고리 raw 파일 결과 페이지
1차 AI 카테고리 16 15 신규
2차 AI 카테고리 (추가) 11 7 신규·2 갱신
3차 매니지먼트·여행·자격증 47 13 신규
4차 개발 카테고리 샘플 10 10 신규
5차 글쓰기·집안 (신규 카테고리) 36 3 신규
6차 Notes 핵심 6 5 신규·1 갱신
합계   126 직접 distill 76 페이지

나머지 약 2,344개 raw 자료는 메타 인덱스로만 커버했습니다.


메타 인덱스 패턴 — 대규모 카테고리 처리

raw 카테고리에 자료가 100개 이상이면 개별 distill은 비현실적입니다. 다음 패턴을 씁니다.

메타 인덱스 패턴은 raw 자료가 한 카테고리에 100개 이상 쌓였을 때 적용합니다. 본인 vault에는 생활팁 119개·notes 613개·회사노트 524개·개발카테고리 706개 같은 대규모 카테고리가 4개 있었는데, 모두 개별 distill을 포기하고 메타 1페이지로만 처리했습니다. 메타 인덱스 페이지는 카테고리 안의 raw 파일을 5~9개 도메인 클러스터로 분류하고, 각 클러스터의 raw 파일 경로 3

5개를 예시로 명시한 뒤, **가장 가치 있는 1

3개 토픽만 정식 페이지로 승격**시킵니다. 이 패턴 덕분에 본인은 약 2,344개 raw 자료를 메타로만 커버하면서도 검색 시점에는 raw 자료를 직접 찾을 수 있게 유지했습니다. 메타 인덱스는 "정리하지 않은 자료"가 아니라 "정리 비용 대비 가치가 낮다고 의도적으로 분류된 자료"입니다.

Step 1. 카테고리 메타 1 페이지 작성

title: 생활팁 메타 인덱스
sources:
  - "raw/articles/생활팁/"
summary: 119개 파일의 메타. 도메인 클러스터 9개. 개별 distill 부적합.

본문에는 파일 군집 9개(건강·요리·청소·법률·뇌 테스트 등)를 분류하고, 개별 파일은 raw에서 직접 확인하라고 명시합니다.

Step 2. 가치 토픽만 별도 페이지로 승격

전체를 정리하려 하지 말고, 이 카테고리 중에서 가장 가치 있는 1~3개만 정식 페이지로 만듭니다.

메타 인덱스 raw 파일 정식 승격 페이지
생활팁-메타 119 여행-팁 (1개)
notes-메타 613 ai-시대-학습법·정보처리기술사-시험-준비 (2개)
회사-노트-메타 524 0개 (모두 visibility/internal로 메타만)
3-개발-카테고리-메타 706 tier-architecture·mlops-스택 등 10개

Step 3. 메타 → 정식 페이지 wikilink로 연결

메타 인덱스 페이지 안에 정식 페이지로 가는 [[wikilink]]를 두어 흐름을 만듭니다.


가치 토픽 승격 점수표

메타에 머무를 자료 vs 정식 페이지가 될 자료를 어떻게 구분할까요?

신호 가중치
다른 자료 3개 이상이 같은 주제 (공현) +3
본인이 자주 다시 찾는 주제 +3
다른 위키 페이지에서 참조될 가능성 높음 +2
외부에 공유 가치 있음 +1
1년 후에도 유효할 내용 +1

합계 5점 이상이면 정식 페이지로 승격, 미만이면 메타에만 둡니다.

예시 비교:

  • "막걸리 만드는 법" → 자료 1개, 다시 찾을 일 없음 → 메타에만
  • "1-1 미팅 운영" → 자료 8개 + 자주 참조 + 다른 페이지 연결 가능 → 정식 페이지로 승격

실패 사례 4건

실패 1. 모든 자료를 페이지로 만들려 시도

처음 ingest 때 본인은 자료 1개당 페이지 1개를 만들었습니다.

  • 페이지 800개·검색 노이즈 폭증
  • wikilink가 거의 없음 (고아 페이지 다수)
  • 위키 자체가 raw의 복사본

해결: 전체 archive 후 재시작. 5~10개 통합 원칙 강제.

실패 2. PII 자료를 본문에 distill

집안 폴더의 가족 PDF·계좌 정보를 본문 페이지로 만들었습니다.

해결: visibility/pii 태그 강제, 본문에는 메타만 두고 raw 파일을 직접 보도록 안내.

실패 3. PDF 카테고리를 한 번에 distill

PDF 위주 카테고리(raw/articles/1. 집안/)를 한 번에 distill하려다 AI가 PDF 내용을 제대로 이해 못 했습니다.

해결: PDF는 페이지 단위로 수동 추출하거나 메타 인덱스 패턴만 적용.

실패 4. 한국어 자료를 영어로 distill

언어 정책 없이 ingest하니 70%가 영어 페이지로 변환됐습니다.

해결: CLAUDE.md에 언어 정책 4줄 추가 (이전 글 참조).


자주 발생하는 문제

문제 1. AI가 통합 distill을 잘 못 한다

한 번에 자료 10개를 던지면 AI도 헷갈립니다. 3~5개씩 묶어 페이지를 만들고, 같은 페이지를 다음 ingest에서 추가 자료로 보강하는 점진적 방식이 안정적입니다.

문제 2. 페이지가 너무 길어진다

페이지당 500~1,500자가 적정입니다. 그보다 길면 두 페이지로 분할 + synthesis 페이지로 연결을 고려하세요.

문제 3. 메타 인덱스 페이지가 너무 추상적이다

가장 흔한 실수: "이 카테고리는 119개 파일이 있습니다"로 끝나는 메타. 도메인 클러스터를 최소 5개로 나누고, 각 클러스터당 raw 파일 예시 3개를 명시하세요.

문제 4. raw 자료를 삭제하고 싶다

절대 안 됩니다. 위키는 raw의 distillation이고 sources 인용에 raw 경로가 들어있습니다. raw 삭제 = 위키 검증 불가.


자주 묻는 질문 (FAQ)

Q. 자료가 100개뿐인데도 이 패턴이 필요한가요?
A. 부분적으로 필요합니다. 100개라면 직접 distill이 가능하지만, 태그 5개 한도lifecycle·tier 명시는 처음부터 적용하는 것이 좋습니다.

Q. 정식 페이지 76개는 너무 적은 거 아닌가요?
A. 아니요. 위키의 가치는 페이지 수가 아니라 wikilink 밀도입니다. 본인 vault는 평균 페이지당 5~10 wikilink로 그래프가 풍부합니다. 1,000 페이지에 wikilink 0인 위키보다 76 페이지에 wikilink 500개인 위키가 훨씬 가치 있습니다.

Q. AI가 알아서 통합 distill 해주나요?
A. CLAUDE.md에 통합 원칙을 명시하면 따릅니다. ## Page rules에 다음을 추가하세요: 페이지당 raw 자료 5~10개를 통합한다. 1개짜리 페이지는 만들지 않는다.

Q. 모순 마커를 자주 쓰면 위키가 흔들리지 않나요?
A. 오히려 반대입니다. 모순을 숨긴 위키는 외부 자료의 평균값일 뿐이고, 모순을 명시한 위키는 사고의 도구가 됩니다.

Q. lifecycle·tier를 모든 페이지에 강제해야 하나요?
A. 처음엔 lifecycle: draft + tier: supporting 디폴트로 시작하고, 분기 1회 /wiki-lint로 정비하면 됩니다.

Q. 페이지가 너무 많아지면 한도를 두는 게 가능한가요?
A. 네. CLAUDE.md에 wiki 페이지 총 한도: 150 같은 규칙을 두면 AI가 새 페이지 만들기 전 기존 페이지 통합을 우선 시도합니다.


부록 — distillation 일일 워크플로우

본인이 운영하는 주간 사이클:

  • 매일: raw/articles에 새 자료 저장 (1~2분)
  • 주 1회: /wiki-ingest 실행 (5~10분)
  • 월 1회: /wiki-lint + /cross-linker (10분)
  • 분기 1회: /wiki-synthesize + tier 재배치 (30분)

주당 약 15~20분입니다.


후속 글 예고

  • /wiki-synthesize로 두 개념 교차 분석 페이지 만들기 (2026) — 본인 vault에서 5개 synthesis가 자동 도출된 과정

728x90
반응형
BIG
Buy me a coffeeBuy me a coffee

댓글