Tech Blog
HWP · HWPX · 공문서 AI · MCP · 한국 문서 자동화

kordoc이 보여준 한국 문서 AI의 마지막 1마일

광진구 공무원이 만든 오픈소스 kordoc을 통해 HWP, HWPX, 공문서, MCP가 왜 한국형 AI 업무 자동화의 핵심 인프라인지 분석합니다.

핵심 요약: 한국에서 AI가 실제 업무에 들어가려면 영어권 SaaS 문서만 읽어서는 부족하다. 공문서, HWP, HWPX, 복잡한 표, 신구대조, 양식 채우기, 내부망 문서까지 다뤄야 한다. kordoc은 이 문제를 정면으로 다루는 오픈소스다. 광진구 공무원이 만든 이 프로젝트는 한국형 AI 에이전트가 현장의 문서를 읽고, 비교하고, 생성하고, 다시 공문서 형식으로 남길 수 있게 만드는 중요한 기반이다.

한국 AI 도입의 병목은 모델이 아니라 문서다

기업과 공공기관이 AI를 도입할 때 가장 먼저 떠올리는 질문은 보통 “어떤 모델을 쓸 것인가”다. GPT, Claude, Gemini, Llama, EXAONE, SOLAR 같은 모델 이름이 먼저 논의된다. 하지만 실제 업무에 들어가면 병목은 다른 곳에서 나타난다.

현장의 자료가 AI가 읽기 쉬운 형태로 존재하지 않는다. 특히 한국 조직에서는 이 문제가 더 크다. 문서는 PDF, HWP, HWPX, HWPML, XLSX, DOCX로 흩어져 있고, 표는 병합되어 있으며, 서식은 복잡하고, 공문서에는 정해진 항목부호와 여백이 있다. 회의록과 보고서는 사람이 보기에는 익숙하지만 AI가 바로 이해하기에는 불친절하다.

AI가 업무를 돕기 위해서는 먼저 조직의 문서를 읽을 수 있어야 한다. 정확히는, 단순 텍스트 추출이 아니라 문서의 구조, 표, 항목, 변경점, 양식, 출처를 잃지 않고 읽어야 한다.

kordoc은 무엇인가

kordocHWP3, HWP, HWPX, HWPML, PDF, XLS, XLSX, DOCX를 Markdown으로 변환하고, 문서 비교와 양식 자동 채우기, Markdown → HWPX 생성, MCP 기반 AI 에이전트 연동까지 제공하는 오픈소스 프로젝트다.

README의 첫 문장은 강하다.

모두 파싱해버리겠다.

대한민국에서 둘째가라면 서러울 문서지옥. 거기서 7년 버틴 공무원이 만들었습니다.

이 프로젝트가 흥미로운 이유는 단순히 지원 포맷과 기능이 많아서가 아니다. 한국 공공·행정 문서 환경을 실제로 겪은 사람이 만든 도구라는 점이 중요하다. 문서 자동화의 품질은 포맷 스펙만으로 결정되지 않는다. 실제 현장에서 어떤 문서가 오가고, 어떤 표가 깨지고, 어떤 양식이 반복되며, 사람이 어느 지점에서 시간을 쓰는지 이해해야 한다.

kordoc이 다루는 문제

kordoc이 다루는 문제는 크게 네 가지다.

1. 한국 문서를 AI가 읽을 수 있게 만든다

지원 포맷은 한국 조직에서 실제로 만나는 문서 포맷과 가깝다.

  • HWP 3.x / HWP 5.x
  • HWPX
  • HWPML
  • PDF
  • XLS / XLSX
  • DOCX

이 포맷들을 Markdown으로 변환하면 LLM이 읽고 요약하고 비교하고 재작성할 수 있는 기본 재료가 생긴다. 한국형 RAG, 내부 지식 어시스턴트, 공문서 검토 Agent를 만들 때 가장 먼저 필요한 단계다.

2. 표와 양식을 보존한다

공공 문서와 기업 문서에서 가장 자주 깨지는 것은 표다. 선 없는 PDF 표, 병합 셀, 중첩 테이블, HWP/HWPX 표 구조는 일반적인 텍스트 추출기로는 제대로 복원하기 어렵다.

kordoc은 복잡한 표를 Markdown 또는 HTML table 구조로 복원하고, HWPX 양식에 값을 자동으로 채우는 기능을 제공한다. 이건 단순 편의 기능이 아니라 업무 자동화의 신뢰성과 직접 연결된다. 표가 깨지면 AI 답변도 틀어지고, 비교도 틀어지고, 최종 문서도 사람이 다시 손봐야 한다.

3. 신구대조와 문서 비교를 자동화한다

공공과 기업 업무에서 문서의 변경점을 확인하는 일은 매우 많다. 조례, 계약서, 제안서, 지침, 보고서, 회의자료는 버전이 바뀔 때마다 무엇이 달라졌는지 확인해야 한다.

kordoc은 HWP ↔ HWPX 크로스 포맷 비교, 블록 단위 diff, 표 셀 단위 diff를 지향한다. 이 기능은 법무, 공공사업, 정책 문서, 제안서 관리에서 바로 의미가 있다.

4. AI 에이전트와 MCP로 연결된다

kordoc의 중요한 지점은 CLI에서 끝나지 않는다는 것이다. README 기준으로 Claude Desktop, Cursor, Claude Code, Windsurf, VS Code, Gemini CLI, Zed 등과 MCP 기반으로 연결할 수 있다.

즉 AI 에이전트가 문서를 직접 파싱하고, 표를 읽고, 양식을 채우고, 문서를 생성할 수 있는 도구를 얻게 된다.

npx -y kordoc setup

# CLI 사용
npx kordoc <파일>

이 구조는 한국형 AI Agent에서 중요하다. 에이전트가 “문서를 읽어줘”라고 답변만 하는 수준을 넘어, 실제 파일을 열고, 구조화하고, 비교하고, 다시 문서로 남기는 방향으로 이동하기 때문이다.

왜 BrandsMore 관점에서 중요한가

BrandsMore가 보는 AI 도입의 핵심은 “모델을 붙이는 것”이 아니라 AI가 업무 안에서 작동하는 구조를 만드는 것이다. kordoc은 이 관점에서 세 가지 의미가 있다.

KnowledgeMore: 문서를 지식으로 바꾸는 기반

KnowledgeMore는 조직 문서와 지식을 AI가 참고할 수 있는 구조로 바꾼다. 이때 HWP/HWPX/PDF/DOCX를 안정적으로 Markdown/JSON 구조로 바꾸는 레이어가 필요하다.

kordoc은 한국 문서 환경에서 이 역할을 맡을 수 있는 강력한 후보 중 하나다. 특히 공공기관, 협회, 교육기관, 중견기업처럼 HWP 자산이 많은 조직에서는 문서 변환이 RAG 품질의 출발점이 된다.

AgentMore: 공문서 업무를 실행 단위로 바꾸는 도구

AgentMore에서 AI Agent는 단순히 답변하지 않는다. 문서를 읽고, 비교하고, 초안을 만들고, 사람이 승인할 수 있는 형태로 결과를 남긴다.

kordoc의 MCP 연동은 이 흐름과 맞닿아 있다. 예를 들어 Agent가 다음 작업을 수행할 수 있다.

  • 기존 HWP 문서를 Markdown으로 변환
  • 이전 버전과 최신 버전의 변경점 비교
  • 보고서 초안을 Markdown으로 작성
  • 공문서 프리셋으로 HWPX 생성
  • 사람 검토 후 최종 문서로 저장

이것은 “AI가 문장을 써준다”보다 훨씬 실무적인 자동화다.

Private AI Operations: 내부망 문서 환경의 현실적 선택지

중견기업 이상 조직이나 공공기관은 모든 문서를 외부 API로 보낼 수 없다. 내부망, 감사 로그, 접근 권한, 문서 반출 제한, 개인정보 보호 요구가 있다.

kordoc 같은 로컬 문서 처리 도구는 Private AI 운영 구조에서 중요하다. 문서를 내부 환경에서 먼저 구조화하고, 필요한 경우 로컬 LLM 또는 온프레미스 RAG와 연결할 수 있기 때문이다.

kordoc이 보여주는 한국형 AI 인프라의 방향

kordoc은 “한국 문서를 잘 읽는 파서” 이상의 의미가 있다. 이 프로젝트는 한국 AI 인프라가 어디에서 차별화되어야 하는지 보여준다.

문제일반 AI 도구의 한계kordoc이 보여주는 방향
HWP/HWPX 문서텍스트 추출 또는 업로드 단계에서 깨짐한국 문서 포맷을 직접 파싱
복잡한 표셀 병합, 중첩 구조, 선 없는 표 처리 약함표 구조 복원과 셀 단위 비교
공문서 서식Markdown에서 끝나고 최종 문서로 못 돌아감Markdown → HWPX, 공문서 프리셋
AI 에이전트 연동문서를 사람이 변환해 넣어야 함MCP로 에이전트가 직접 문서 도구 호출
내부망/보안외부 API 업로드 의존로컬 실행과 Private AI 구조에 적합

도입 시 주의할 점

kordoc이 흥미롭다고 해서 모든 기업이 바로 프로덕션에 넣으면 되는 것은 아니다. 실제 도입에는 몇 가지 검증이 필요하다.

  • 문서 샘플 검증: 우리 조직의 HWP, HWPX, PDF, XLSX 샘플에서 표와 문단이 얼마나 잘 보존되는지 확인해야 한다.
  • 권한·로그 설계: AI 에이전트가 어떤 문서를 읽고 생성할 수 있는지 권한을 제한해야 한다.
  • 출력 품질 평가: Markdown 변환 결과가 RAG 검색과 요약 품질에 어떤 영향을 주는지 평가셋으로 봐야 한다.
  • 공문서 생성 검수: HWPX 생성 결과가 실제 제출·공유 가능한 수준인지 사람 검토 기준을 둬야 한다.
  • MCP 도구 권한: 에이전트가 문서 생성·패치까지 수행한다면 승인 단계와 실행 로그가 필요하다.

결론: 한국형 AI의 경쟁력은 현장 문서에서 시작된다

kordoc은 작은 도구처럼 보일 수 있지만, 실제로는 한국 AI 도입의 중요한 질문을 건드린다.

AI가 한국 조직에서 일하려면, 한국 조직의 문서를 읽고 다룰 수 있어야 한다.

HWP와 공문서, 복잡한 표와 양식, 신구대조와 내부망 문서는 글로벌 AI 제품이 기본값으로 잘 처리해주지 않는다. 이 빈틈을 메우는 도구가 있어야 한국형 AI Agent와 Private AI가 현실적인 업무 시스템으로 들어갈 수 있다.

kordoc의 가치는 그래서 기술적이다. 동시에 매우 현장적이다. 공무원이 직접 겪은 문서지옥에서 나온 오픈소스가 한국 기업과 공공기관의 AI 전환에서 중요한 기반이 될 수 있다는 점에서, 이 프로젝트는 주목할 만하다.

한국 문서 환경에 맞는 AI 구조가 필요하다면

HWP/HWPX, 공문서, 내부망, 권한·로그 기준까지 포함해 실제 운영 가능한 KnowledgeMore / AgentMore 구조를 함께 설계합니다.

AI 적용 진단 요청