从追踪到训练:智能体运行如何转化为学习数据

发布日期:2026-06-26 10:00:30   浏览量 :6
发布日期:2026-06-26 10:00:30  
6

从追踪到训练:智能体运行如何转化为学习数据

每一次智能体运行都是一个数据点。大多数框架将其丢弃。

WasmAgent 保留它——由合规引擎评估,按结果排名,并导出为类型化的 ComplianceEvalRecord(合规评估记录),可直接用于监督微调或有偏好优化训练。无需人工标注。

三种修复模式

import { ComplianceRun } from "@wasmagent/compliance";

const run = new ComplianceRun({
  mode: "full_pcl",   // "direct" | "prompt_retry" | "full_pcl"
  taskSpec: {
    instruction: "Write a summary in exactly 3 bullet points.",
    constraints: [{ type: "format", rule: "bullet_count", value: 3 }],
  },
});

const result = await run.execute(agent, input);
// result.complianceEvalRecord → typed, versioned, schema-validated

direct(直接模式)——单次执行,记录通过/失败。

prompt_retry(提示重试模式)——使用重述的提示词重试一次。

full_pcl(完整过程闭环模式)——完整修复循环:执行 → 评估 → 修补/重新生成 → 重新评估 → 记录整个追踪轨迹。

数据揭示的结果

IFEval × Qwen2.5-1.5B-Q4(3 个随机种子 × 50 个样本):

模式 通过率 标准差
prompt_retry 46.0% ±2.0pp
full_pcl 54.7% ±1.2pp

提升 8.7 个百分点。方差降低(±2.0 → ±1.2)对于生产环境的可靠性至关重要。

复现方法:bun packages/compliance/benchmarks/ifeval/run.ts --limit=50 --seed=42

修复追踪轨迹即训练数据

full_pcl 修复失败的输出时,RepairPlanner(修复规划器)会记录每次尝试:

// Inside ComplianceEvalRecord
attempts: [
  { strategy:

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
Copyright © 2025-2027 ToB产业网址导航 公安备案 浙公网安备33010602013138号 浙ICP备16025413号-9
支持 反馈 关注 数据