인프라

에비던스 게이트

Evidence Gate

AI 에이전트가 코드와 테스트를 모두 작성하는 환경에서, 품질 기준을 에이전트에게 노출하지 않고 서버 측에서만 평가하는 파이프라인 게이트. AI가 통과 기준을 역으로 최적화하지 못하도록 막는 풀스택 거버넌스 메커니즘이다.

왜 필요한가

AI 에이전트가 코드를 작성하고, 테스트를 작성하고, 심지어 인프라까지 운영하는 환경에서는 기존 품질 게이트가 근본적으로 취약해진다. 테스트 커버리지 80% 이상이라는 기준이 파이프라인에 보이는 순간, LLM은 그 기준을 충족하는 쪽으로 테스트를 생성하지, 실제 품질을 높이는 쪽으로 코드를 개선하지 않는다. 기준 자체가 최적화 타깃이 되어버리는 것이다.

블라인드 게이트: 핵심 메커니즘

에비던스 게이트의 핵심은 블라인드 게이트(Blind Gate)다. 평가 기준을 파이프라인, 저장소, AI 에이전트 어디에도 노출하지 않고 서버 측에서만 보관한다. 에이전트는 코드와 테스트를 제출하면 pass 또는 fail만 돌려받는다. 어떤 기준으로 평가됐는지는 알 수 없다. 이렇게 하면 AI가 기준을 보고 역으로 맞추는 전략 자체가 불가능해진다.

실제로 어떻게 쓰이는지 보면, Claude Code 같은 도구로 AI가 PR을 자동 생성하는 파이프라인에서 에비던스 게이트를 중간 검문소로 배치한다. AI가 작성한 코드가 게이트를 통과해야만 다음 단계(스테이징 배포, 머지)로 넘어갈 수 있다. 게이트는 증거(evidence)를 기록하고, 그 기록이 다운스트림 감사 추적에 남는다.

풀스택 거버넌스와의 연결

에비던스 게이트는 코드 품질 검사에만 머물지 않는다. 샌드박스 격리 수준이 정책에 맞는지, 인퍼런스 라우팅 예산이 설정됐는지, 청사진(blueprint)이 올바른 구성을 따르는지까지 검증하는 정책 레이어로 확장된다. fail-closed 원칙 — 판단 불가 시 기본적으로 차단 — 을 채택해 불확실한 상황에서 파이프라인이 멈추도록 설계한다.

주의할 점

블라인드 게이트는 에이전트의 게이밍은 막지만, 기준 자체가 잘못 설계됐을 때의 오탐/미탐은 막지 못한다. 기준을 설계하고 유지하는 책임은 사람에게 남는다. 또한 기준이 완전히 불투명하면 개발자도 왜 실패했는지 디버깅하기 어려워지므로, 실패 이유를 어느 수준까지 공개할지 세밀하게 조율해야 한다.

#품질 게이트#AI 거버넌스#CI/CD#에이전트 파이프라인

← AI Wiki에서 더 보기

updated at 2026-07-03