작업 기록

Agent Interpretation Eval 공개 준비

에이전트가 고정된 문맥, 규칙 묶음, 질문 세트를 어떻게 해석하는지 점검하는 작은 평가 harness를 공개 배포 후보로 정리하기 위한 continuation 기록입니다.

Completion Snapshot

Status: 준비 중
Project slug: agent-interpretation-eval
Source: private working repository, commit 5c43d08
Record date: 2026-05-14

현재 구현은 평가 논리와 실행 runner를 완전히 일반화한 상태가 아니라, 공통 answer contract 위에 manual 경로와 Codex CLI 자동 실행 경로를 얹은 개발 중 reference harness입니다. 공개 배포는 내부 case와 작업 문맥을 제외한 clean export를 전제로 합니다.

Current Decisions

확정

이름

공개 후보 이름은 agent-interpretation-eval입니다. 도구의 초점은 단순 single run이 아니라 에이전트의 문맥/규칙 해석 결과를 점검하는 데 있습니다.

확정

공개 범위

공개 후보는 기존 작업 폴더의 평가 harness 부분입니다. 내부 rule case, 작업 보드, 운영 기록, private Harness 문맥은 export 대상에서 제외합니다.

주의

Runner 상태

--runner는 아직 Codex, Claude 등 provider별 CLI 차이를 고려한 adapter abstraction으로 정리되지 않았습니다. 현재 자동 실행 구현은 Codex CLI command shape에 직접 의존합니다.

배포 순서

먼저 이 formal record를 private record repo에 남기고, 이후 공개용 repo를 clean export 형태로 준비합니다. public publish 승격은 별도 확인 뒤 진행합니다.

Implemented Slice

Checked-in case definition에서 runner-visible package를 생성합니다.
Expected answers는 scorer-only로 유지하고 package에는 포함하지 않습니다.
Runner output은 strict JSONL answer contract를 따릅니다.
Malformed output도 invalid evaluation evidence로 보존합니다.
Single run report와 HTML inspection page를 생성합니다.
Selected cases에 대해 run root index.html을 생성합니다.
Repeat 실행은 repeat-summary.json과 repeat-summary.html에 상태, rate, field/value/confidence/invalid reason 집계를 남깁니다.

Verification Evidence

Source commit 5c43d08 생성 전 다음 확인을 통과했습니다.

validate-fixtures.py
test-package-run.py
test-run-case.py
test-run-repeats.py
test-score-run.py
test-render-report.py
git diff --check

Remaining Work

공개용 repository skeleton을 만들고 single-run-eval 내용을 root 구조로 clean export합니다.
내부 case와 private 작업 문맥을 제외하고 example-basic 중심 quickstart를 유지합니다.
README를 reference harness로 재작성하고, Codex는 optional runner adapter라고 명시합니다.
Runner adapter boundary를 설계합니다. Codex, Claude 등은 cwd, sandbox/permission, stdin, final output capture 방식이 다르므로 별도 adapter로 분리해야 합니다.
Python version, platform support, license, generated output policy를 공개용 문서에 명시합니다.

Risk / Next Action

현재 상태는 public-ready package가 아니라 public export 준비 전 checkpoint입니다. 다음 작업자는 private source에서 공개 범위를 다시 확인한 뒤, record에 남긴 제외 범위를 지켜 clean export를 수행해야 합니다.