Studio Document Recognition

本页用于管理单证识别相关的运行队列、人工复核与异常样本，而不是配置底层解析器实现。

页面作用

查看识别任务的当前处理状态
发现失败、低置信度或需要人工确认的样本
查看某个 run 的完整字段列表、当前审核状态与单字段 revision timeline
进入复核流程，缩短异常样本处理时间
历史列表会跳过损坏的历史行并继续渲染，避免单条脏数据把整页打成 500
对于部分历史 Fusion runs，agent_id 可能为空；列表仍会显示，但某些依赖 agent 上下文的跳转能力可能退化
Studio 在本任务中继续保持字段只读；这里不会新增第二个字段编辑入口

谁会使用这个页面

识别运营人员
负责样本复核的实施或业务团队
需要确认识别链路是否稳定的管理员

所需权限

读取页面需要 document_recognition.read
修改可选 Fusion runtime registry 需要 document_recognition.write，写入会进入后台审计

典型操作流程

先看队列是否存在堆积或失败上升
如需让某个 Fusion agent 成为可用识别运行器，点击页面顶部 Refresh queue 旁的 Add runtime，在弹窗中按 agent name、description 或 agent_id 搜索并添加
在 Recognition queue tab 过滤出异常任务或待复核任务
点击队列行进入 Run detail tab，确认识别结果与原始输入
在详情 tab 的 inspector 查看完整字段列表、revision summary 和单字段 timeline
如需真正修订字段，跳回 Outlook Index 使用 canonical field-review PATCH 路径处理
对已经完成复核的 runs，可批量选择并点击 Add reviewed to eval dataset，加入 task_type=document_recognition 的评测数据集

加入评测集

Document Recognition 页面支持把 reviewed runs 直接提升为评测样本：

只有 review_status=reviewed 的 runs 会被提交；未 reviewed 的选择会被跳过并提示。
目标数据集必须是未冻结的 task_type=document_recognition evaluation dataset。
后端会复制源文档资产，并把人工复核后的字段值、页码与 bbox 诊断写入评测 item。
冻结数据集后，evaluation run 会面向已注册的 document-recognition runtime agent 执行。

设置可用 Fusion runtime

Document Recognition 可用的 Fusion agent，不是从普通页面开关里自动推导出来的，而是来自单独的 runtime registry。

在 Studio 的 Document Recognition 页面顶部，点击 Add runtime
在弹出的 Add to Document Recognition dialog 中，按名称、描述或 agent_id 搜索目标 Fusion agent
在候选列表中确认名称与描述后点击 Add
页面不会要求输入管理员密码；后端只校验已登录管理员是否具备 document_recognition.write
已登记的 agent 会出现在 Selectable Fusion runtimes tab，可直接移除

底层持久化键为 document_recognition.selectable_fusion_agent_ids。名称和描述来自 Fusion agent 本身，agent_id 只作为辅助元数据和稳定内部引用。这个页面只控制“是否允许它成为 document-recognition runtime”，不会为 Fusion Agent 创建或设置密码。只有已存在且 agent_type = fusion 的 agent ID 才能登记成功。

工作区 tabs 与刷新反馈

页面主工作区现在分为三个 tab：

Selectable Fusion runtimes：查看已登记的 runtime agent，并通过 Refresh registry 单独刷新 registry 数据。
Recognition queue：查看、过滤、批量选择 recognition runs，并把 reviewed runs 加入评测数据集。
Run detail · <filename>：查看当前选中 run 的 summary、asset access、issue watchlist、完整字段 inspector 和 revision timeline。

切换 tab 不会清空 filters、bulk selection、selected run 或 field inspector 状态。Refresh queue、Refresh registry、Refresh detail 都直接绑定 React Query 的真实 fetching 状态；请求进行中按钮会禁用并显示旋转 refresh 图标，避免重复触发。

排查建议

失败任务突然增多

先看失败是否集中在同一种来源、同一种文档类型或同一时间段，再判断是输入质量问题、外部依赖问题，还是规则回归。

识别成功但字段质量差

这通常不是队列问题，而是样本质量、字段定义或解析策略问题。需要结合具体任务详情继续看。

字段 Inspector

详情抽屉会展示选中 run 的全部 field_reviews，不再只截取前几个字段
inspector 不依赖 Outlook MANAGE 布局，因此即使某些字段在工作台表单里被隐藏，这里仍可见
每个字段会显示 revision_count、是否已偏离 baseline、最近修订时间和展示型 reviewer identity 快照
选中字段后，页面会按需拉取该字段的 revision timeline
对于没有 ledger 的历史旧 run，页面会显示 baseline 快照并标记 未记录历史
该 inspector 只读；Studio 不会发起字段 PATCH