작업 기록

Agent Interpretation Eval 공개 준비

에이전트가 고정된 문맥, 규칙 묶음, 질문 세트를 어떻게 해석하는지 점검하는 작은 평가 harness를 공개 배포 후보로 정리하기 위한 continuation 기록입니다.

Completion Snapshot

Status
준비 중
Project slug
agent-interpretation-eval
Source
private working repository, commit 5c43d08
Record date
2026-05-14

현재 구현은 평가 논리와 실행 runner를 완전히 일반화한 상태가 아니라, 공통 answer contract 위에 manual 경로와 Codex CLI 자동 실행 경로를 얹은 개발 중 reference harness입니다. 공개 배포는 내부 case와 작업 문맥을 제외한 clean export를 전제로 합니다.

Current Decisions

확정

이름

공개 후보 이름은 agent-interpretation-eval입니다. 도구의 초점은 단순 single run이 아니라 에이전트의 문맥/규칙 해석 결과를 점검하는 데 있습니다.

확정

공개 범위

공개 후보는 기존 작업 폴더의 평가 harness 부분입니다. 내부 rule case, 작업 보드, 운영 기록, private Harness 문맥은 export 대상에서 제외합니다.

주의

Runner 상태

--runner는 아직 Codex, Claude 등 provider별 CLI 차이를 고려한 adapter abstraction으로 정리되지 않았습니다. 현재 자동 실행 구현은 Codex CLI command shape에 직접 의존합니다.

다음

배포 순서

먼저 이 formal record를 private record repo에 남기고, 이후 공개용 repo를 clean export 형태로 준비합니다. public publish 승격은 별도 확인 뒤 진행합니다.

Implemented Slice

Verification Evidence

Source commit 5c43d08 생성 전 다음 확인을 통과했습니다.

Remaining Work

  1. 공개용 repository skeleton을 만들고 single-run-eval 내용을 root 구조로 clean export합니다.
  2. 내부 case와 private 작업 문맥을 제외하고 example-basic 중심 quickstart를 유지합니다.
  3. README를 reference harness로 재작성하고, Codex는 optional runner adapter라고 명시합니다.
  4. Runner adapter boundary를 설계합니다. Codex, Claude 등은 cwd, sandbox/permission, stdin, final output capture 방식이 다르므로 별도 adapter로 분리해야 합니다.
  5. Python version, platform support, license, generated output policy를 공개용 문서에 명시합니다.

Risk / Next Action

현재 상태는 public-ready package가 아니라 public export 준비 전 checkpoint입니다. 다음 작업자는 private source에서 공개 범위를 다시 확인한 뒤, record에 남긴 제외 범위를 지켜 clean export를 수행해야 합니다.