AI AgentAgentic ArchitectureLangGraphMulti-Agent에이전트 설계

17개 에이전트 아키텍처 카탈로그를 엔터프라이즈 관점에서 다시 읽기

LangGraph 기반 17개 에이전트 아키텍처를 모은 braincrew-lab/all-agentic-architectures 저장소를 엔터프라이즈 도입 관점에서 분석합니다. Reflection, ReAct, PEV, Dry-Run, Metacognitive — 어떤 패턴이 우리 회사에 맞는가.

김성진· 브랜즈모어 CEO··12분 읽기

핵심 요약

  • all-agentic-architectures는 braincrew-lab가 공개한 오픈소스 학습 카탈로그로, 17개 이상의 모던 에이전트 아키텍처를 LangChain·LangGraph 기반 노트북으로 구현해 둔 저장소다.
  • 단순 LLM 호출에서 시작해 Reflection → ReAct → Planning → Multi-Agent → PEV → Dry-Run → Metacognitive까지, 프로덕션 에이전트가 거쳐야 할 설계 단계를 한 줄에 늘어놓는다.
  • 엔터프라이즈 도입에서 진짜 가치는 "어떤 모델을 쓸까"가 아니라 "어떤 아키텍처를 쓸까" 라는 질문으로 무게중심이 이동한 점에 있다.
  • 17개 패턴은 (1) 단일 에이전트 강화, (2) 다중 에이전트 협업, (3) 장기 메모리·심층 추론, (4) 안전·신뢰성 의 네 묶음으로 다시 정렬된다 — 도입 단계와 도메인 위험도에 따라 선택지가 달라진다.
  • 학습용 노트북과 프로덕션 시스템 사이에는 하네스, 평가, 보안 경계라는 세 개의 큰 간극이 남는다. 카탈로그는 출발점이지 도착점이 아니다.

all-agentic-architectures란 무엇인가

braincrew-lab/all-agentic-architectures는 17개 이상의 최신 에이전트 아키텍처를 한 저장소에 모아둔 오픈소스 학습 자료다. 저자는 자신의 프로젝트를 *"현대 에이전트 설계의 마스터클래스"*라고 부른다 — 단순 데모가 아니라, 이론을 즉시 실행 가능한 코드로 옮긴 살아있는 교과서를 표방한다.

각 패턴은 독립된 Jupyter 노트북으로 구현돼 있고, 대부분의 노트북은 LLM-as-a-Judge 평가 패턴을 함께 포함해 에이전트의 성능을 정량적으로 측정한다. 개념이 재미로 끝나지 않고 "실제로 잘 동작하는가" 를 측정하는 습관을 같이 가르친다는 점이 차별적이다.

저장소가 강조하는 5가지 원칙은 다음과 같다.

  1. 이론에서 코드로 — 각 아키텍처를 끝까지 실행 가능한 노트북으로 구현
  2. 점진적 학습 경로 — 기초 패턴 → 다중 에이전트 → 자기 인식 시스템 순서로 누적
  3. 평가 우선 — 만들기뿐 아니라 측정까지 함께
  4. 현실 시나리오 — 금융 분석, 코딩, 소셜 미디어 운영, 의료 트리아지 등 실무 도메인 예제
  5. 일관된 프레임워크 — LangGraph를 핵심 오케스트레이터로 통일

왜 "패턴 카탈로그"가 지금 필요한가

2024–2025년의 에이전트 논의는 대부분 모델 위에서 머물렀다. GPT-4o, Claude, Gemini — 어떤 모델이 더 똑똑한가, 컨텍스트가 더 긴가에 관심이 쏠렸다.

그러나 이전 글(에이전트 하네스 엔지니어링: 2025년은 에이전트, 2026년은 하네스의 해)에서 다뤘듯이, 같은 모델을 써도 하네스 설계에 따라 작업 완료율이 40%p까지 차이가 난다. 모델 성능이 비등해질수록 에이전트의 결과물은 "어떤 패턴 위에 모델을 얹었는가" 에 의해 결정된다.

all-agentic-architectures가 의미 있는 이유는 이 17개 패턴이 에이전트 설계의 공용 어휘가 되어 가고 있기 때문이다. 기업의 프로덕트 매니저, 엔지니어, 보안 담당자가 같은 단어로 대화하지 못하면, 도입 논의는 매번 처음부터 다시 시작된다.

Reflection, ReAct, PEV, Blackboard, Meta-Controller, Dry-Run Harness, Reflexive Metacognitive — 이 단어들이 "우리 회사에 맞는 패턴은 무엇인가" 라는 정상적인 의사결정을 가능하게 한다.

17개 패턴 한눈에 보기

#패턴핵심 컨셉주된 활용
01Reflection단일 패스 대신 자기 비평 → 수정 루프로 품질을 끌어올림고품질 코드 생성, 복잡한 요약
02Tool Use외부 API/함수 호출로 지식 컷오프 한계를 깸실시간 리서치, 사내 봇
03ReAct추론(Thought)과 행동(Action)을 동적으로 인터리브멀티홉 Q&A, 웹 탐색
04Planning실행 전에 상세 계획을 먼저 수립보고서 자동 생성, 프로젝트 관리
05Multi-Agent전문 분업 에이전트들이 팀으로 협업소프트웨어 개발 파이프라인, 창의적 브레인스토밍
06PEV (Plan-Execute-Verify)매 행동마다 검증자(Verifier) 가 결과를 점검고위험 자동화, 금융, 불안정 도구 사용
07Blackboard공유 메모리(블랙보드) 위에서 기회주의적으로 협업복잡한 진단, 다학제 분석
08Episodic + Semantic Memory벡터DB(에피소드) + 그래프DB(사실) 의 이중 기억장기 개인 비서, 개인화 튜터
09Tree of Thoughts여러 추론 경로를 트리로 탐색·가지치기논리 퍼즐, 제약 조건 계획
10Mental Loop내부 시뮬레이터에서 행동 결과를 미리 예측로보틱스, 금융 트레이딩
11Meta-Controller작업을 분석해 적절한 전문 에이전트로 라우팅멀티 서비스 AI 플랫폼
12Graph (World-Model)지식을 엔티티·관계 그래프로 저장, 멀티홉 추론기업 인텔리전스, 고급 리서치
13Ensemble여러 에이전트의 의견을 집계 에이전트가 종합고위험 의사결정 지원, 팩트체킹
14Dry-Run Harness실제 실행 전에 드라이런 + 사람 승인프로덕션 에이전트 배포
15RLHF (Self-Improvement)편집자 에이전트의 피드백으로 지속 개선고품질 콘텐츠 생성
16Cellular Automata분산 그리드 에이전트의 창발적 전역 행동공간 추론, 물류
17Reflexive Metacognitive자기 능력 모델로 행동/도구/사람-에스컬레이션 결정의료·법률·금융 같은 고위험 자문

저장소의 학습 경로는 이 패턴들을 누적적으로 쌓도록 설계되어 있다. Reflection으로 출력 품질을 끌어올린 뒤, Tool Use로 외부 세계와 연결하고, ReAct로 둘을 통합하고, Planning으로 구조를 부여하는 식이다.

엔터프라이즈 관점에서 4개 묶음으로 재정렬

학습 순서는 학습자에게 친절하지만, 도입을 검토하는 기업에게 더 유용한 분류는 "어떤 문제를 풀려고 하느냐" 다. 우리는 17개를 다음 네 묶음으로 다시 정렬한다.

묶음 1 — 단일 에이전트 강화 (Reflection · Tool Use · ReAct · Planning)

가장 먼저 도입을 검토하는 묶음이다. 단일 워커 에이전트의 품질을 끌어올리는 패턴이며, 사내 RAG·요약·자동 답변 봇의 성능 천장을 한 단계 올린다.

  • 사내 문서 답변 봇이 "그럴듯하지만 틀리는" 문제 → Reflection
  • 답변에 최신 데이터·내부 시스템 데이터가 필요 → Tool Use
  • 사용자 질의가 멀티홉 추론을 요구 → ReAct
  • 결과물이 보고서 형식이라 재현성이 중요 → Planning

이 묶음은 모델 교체 없이도 즉시 효과가 보이는 영역이다.

묶음 2 — 다중 에이전트 협업 (Multi-Agent · Meta-Controller · Blackboard · Ensemble)

조직의 워크플로우를 모사하기 시작하는 단계다. 하나의 에이전트가 모든 일을 잘하는 것이 아니라, 역할을 나누고 라우팅하는 구조다.

패턴어울리는 상황
Multi-Agent작업을 명확히 분업할 수 있을 때 (작성자 – 검토자 – 편집자)
Meta-Controller사용자 질의가 도메인이 다양할 때 (HR · 법무 · 기술 지원)
Blackboard진단·분석처럼 누가 언제 끼어들지 모르는 워크플로우
Ensemble단일 답변에 책임이 무거울 때 (감사 · 법무 검토)

여기서부터는 오케스트레이션 비용응답 지연이 빠르게 늘어난다. "더 많이 = 더 좋다" 의 함정에 빠지기 쉬우므로, 실제 측정이 필수다.

묶음 3 — 장기 메모리·심층 추론 (Episodic+Semantic · Graph · ToT)

시간 축지식 그래프 축을 추가하는 패턴이다. 일회성 질의응답이 아니라 누적되는 관계를 다룬다.

  • 고객별 히스토리·선호를 누적하는 영업/CS 에이전트 → Episodic + Semantic Memory
  • 조직 내 인물·프로젝트·문서가 얽힌 멀티홉 질의 → Graph World-Model
  • 제약 조건이 많은 일정 계획·구성 최적화 → Tree of Thoughts

브랜즈모어가 운영해 온 Enterprise RAG는 본질적으로 벡터DB 기반의 Episodic 메모리에 가깝다. 여기에 온톨로지·지식 그래프를 결합하면 묶음 3의 패턴을 자연스럽게 흡수한다 — 우리가 Ontolnx AI에서 추구하는 방향이기도 하다.

묶음 4 — 안전·신뢰성 (PEV · Mental Loop · Dry-Run · RLHF · Metacognitive)

고위험·고책임 도메인에서 에이전트를 운영하기 위한 가드레일 묶음이다. 데모와 프로덕션을 가르는 가장 큰 갈림길은 사실 모델이 아니라 이 영역이다.

패턴안전 메커니즘
PEV매 단계 결과를 검증자가 자동 점검, 실패 시 동적 복구
Mental Loop실제 실행 전에 시뮬레이터에서 결과 예측
Dry-Run Harness제안된 행동을 먼저 시뮬레이션하고 사람 승인 후 실행
RLHF편집자 피드백으로 출력을 지속 개선
Reflexive Metacognitive에이전트가 자기 한계를 인식해 사람에게 에스컬레이션

의료·법무·금융처럼 잘못된 한 줄이 사고를 만드는 도메인은 묶음 4에서 출발해야 한다. "일단 ReAct로 만들고 나중에 안전 붙이자" 는 접근은 거의 항상 실패한다.

학습 노트북과 프로덕션 사이의 세 가지 간극

저장소가 훌륭한 출발점인 것은 분명하지만, 노트북을 그대로 프로덕션에 옮기면 곧바로 부딪히는 벽이 있다. 우리는 다음 세 가지 간극을 가장 자주 본다.

① 하네스 — 모델 외의 모든 것

에이전트 하네스 엔지니어링 글에서 다뤘듯이, 시스템 프롬프트, 도구 정의, 샌드박스, 피드백 루프, 메모리 관리 등 모델 외의 모든 것이 하네스다. 노트북은 이 영역을 데모 수준에서만 다룬다. 프로덕션은 재현 가능한 빌드, 버전 관리되는 프롬프트, 도구 호출 감사 로그, 멱등성까지 요구한다.

② 평가 — LLM-as-a-Judge를 넘어

저장소가 LLM-as-a-Judge를 기본으로 포함한 것은 매우 칭찬할 만하다. 그러나 프로덕션 환경에서는 한 단계 더 필요하다.

  • 회귀 테스트셋: 패치마다 자동 재실행되는 골드 케이스
  • 사용자 피드백 회수: 실제 사용자의 thumbs-up/down을 점수로 환원
  • A/B 운영: 새 패턴을 트래픽 일부에만 배포해 비교
  • 비용·지연 SLO: 정확도와 운영 비용의 균형 추적

평가는 만든 후가 아니라 만드는 동안의 활동이 되어야 한다.

③ 보안 경계 — 에이전트의 권한은 어디까지인가

특히 묶음 1·2의 Tool Use·Multi-Agent는 에이전트에게 외부 시스템 권한을 주는 행위다. 이 권한이 어떻게 위임되고, 무엇이 감사되며, 잘못된 호출이 어디서 차단되는지 — 노트북은 이 부분을 거의 다루지 않는다.

OpenClaw 생태계의 악성 스킬 1,184개 탐지 사건이나 k-skill의 자격증명 명시 정책이 보여주듯, 이 영역은 사후가 아닌 설계 단계의 결정이다.

브랜즈모어의 시각

브랜즈모어는 Enterprise RAG와 AI 에이전트 도입을 함께 설계하는 파트너로서, 이 카탈로그를 다음 세 관점에서 활용한다.

① 도입 단계와 패턴의 매핑

기업의 AI 에이전트 도입은 보통 다음 4단계를 밟는다. 각 단계에 어울리는 패턴이 다르다.

[1단계] 사내 문서 검색 봇         →  Reflection + Tool Use
[2단계] 도메인별 답변 봇          →  ReAct + Meta-Controller
[3단계] 워크플로우 자동화          →  Planning + Multi-Agent + PEV
[4단계] 의사결정 지원 (감사·법무)  →  Ensemble + Dry-Run + Metacognitive

성급하게 4단계로 점프하면 신뢰가 무너진다. 1단계에서 측정 체계 없이 출발하면 4단계로 갈 길이 막힌다.

② RAG는 메모리 레이어, 아키텍처는 추론 레이어

저장소가 다루는 것은 추론 레이어다. 브랜즈모어가 구축해 온 Enterprise RAG는 그 아래의 지식·메모리 레이어다. 두 레이어는 경쟁이 아니라 스택의 다른 층이며, 제대로 된 엔터프라이즈 에이전트는 둘을 함께 보유한다.

  • 메모리 레이어: Hybrid RAG, Episodic + Semantic, Graph World-Model
  • 추론 레이어: Reflection, ReAct, Planning, Multi-Agent
  • 안전 레이어: PEV, Dry-Run, Metacognitive

③ 패턴은 어휘이지 처방전이 아니다

17개 패턴은 선택지의 어휘다. 어떤 상황에 어떤 패턴이 맞는지는 도메인·위험도·운영 비용의 함수이며, 한 회사 안에서도 부서마다 답이 다를 수 있다. 패턴 카탈로그를 외운 뒤에 실제로 필요한 것은 "우리 워크플로우의 위험 분포를 그린 다음, 적절한 패턴을 골라 조립하는 능력" 이다.

마치며

all-agentic-architectures가 던지는 메시지는 분명하다. 에이전트 설계는 더 이상 모델 선택이 아니라 패턴 선택이다. 17개 패턴은 그 선택을 위한 공용 어휘를 제공하고, LangGraph는 그 어휘를 코드로 옮기는 표준 도구가 되어가고 있다.

2026년의 엔터프라이즈 AI는 모델 — RAG 인프라 — 에이전트 패턴 — 안전 경계 의 4단 스택 위에서 운영된다. 카탈로그는 이 중 세 번째 칸에 들어갈 도구상자를 한 번에 보여준다. 남은 일은 우리 회사의 워크플로우 위험 지도를 그리고, 그 위에 어떤 패턴을 어떤 순서로 얹을지 결정하는 것이다.

브랜즈모어는 이 결정의 실행 파트너로서, 지식 인프라(RAG) — 추론 패턴(Reflection · ReAct · Multi-Agent) — 안전 가드레일(PEV · Dry-Run · Metacognitive) 을 도메인별로 조립해 운영한다.


참고: braincrew-lab/all-agentic-architectures GitHub 저장소. 이 글은 2026년 5월 기준 공개 정보를 바탕으로 작성되었으며, 오픈소스 카탈로그의 패턴 구성과 노트북은 지속적으로 갱신됩니다. 자세한 에이전트·RAG 도입 전략 상담은 브랜즈모어 AI 어시스턴트를 통해 확인하실 수 있습니다.