이름
공개 후보 이름은 agent-interpretation-eval입니다. 도구의 초점은 단순 single run이 아니라 에이전트의 문맥/규칙 해석 결과를 점검하는 데 있습니다.
작업 기록
에이전트가 고정된 문맥, 규칙 묶음, 질문 세트를 어떻게 해석하는지 점검하는 작은 평가 harness를 공개 배포 후보로 정리하기 위한 continuation 기록입니다.
현재 구현은 평가 논리와 실행 runner를 완전히 일반화한 상태가 아니라, 공통 answer contract 위에 manual 경로와 Codex CLI 자동 실행 경로를 얹은 개발 중 reference harness입니다. 공개 배포는 내부 case와 작업 문맥을 제외한 clean export를 전제로 합니다.
공개 후보 이름은 agent-interpretation-eval입니다. 도구의 초점은 단순 single run이 아니라 에이전트의 문맥/규칙 해석 결과를 점검하는 데 있습니다.
공개 후보는 기존 작업 폴더의 평가 harness 부분입니다. 내부 rule case, 작업 보드, 운영 기록, private Harness 문맥은 export 대상에서 제외합니다.
--runner는 아직 Codex, Claude 등 provider별 CLI 차이를 고려한 adapter abstraction으로 정리되지 않았습니다. 현재 자동 실행 구현은 Codex CLI command shape에 직접 의존합니다.
먼저 이 formal record를 private record repo에 남기고, 이후 공개용 repo를 clean export 형태로 준비합니다. public publish 승격은 별도 확인 뒤 진행합니다.
index.html을 생성합니다.repeat-summary.json과 repeat-summary.html에 상태, rate, field/value/confidence/invalid reason 집계를 남깁니다.Source commit 5c43d08 생성 전 다음 확인을 통과했습니다.
validate-fixtures.pytest-package-run.pytest-run-case.pytest-run-repeats.pytest-score-run.pytest-render-report.pygit diff --checksingle-run-eval 내용을 root 구조로 clean export합니다.example-basic 중심 quickstart를 유지합니다.현재 상태는 public-ready package가 아니라 public export 준비 전 checkpoint입니다. 다음 작업자는 private source에서 공개 범위를 다시 확인한 뒤, record에 남긴 제외 범위를 지켜 clean export를 수행해야 합니다.