驾驭工程 101 — 智能体人工智能(Agentic AI)地毯下的秘密
在上一篇文章中,我们讨论了“从纯大型语言模型(LLM)到智能体人工智能(Agentic AI)”的七层架构。
这次让我们看看每一层内部是如何工作的——以及哪些地方可能出错。
当我们使用 Claude Code、Cursor 或 Hermes 时,我们看到的人工智能(AI)是按步骤工作的:
思考 → 调用工具 → 查看结果 → 继续思考 → 调用工具 → 完成
我们看不到的是途中所有可能出错的地方——并且有人(或代码)在不断处理这些错误。
这就是驾驭工程(Harness Engineering)——一门构建包裹大型语言模型(LLM)的“框架”的学科,它管理一切,使智能体能够在不完美的现实世界中真正运作。
1. 循环(The Loop)—— 驾驭工程的核心
这是每个智能体运行的循环:
while not done and budget_ok:
response = llm.chat(messages, tools)
if response.has_tool_calls():
for tool in response.tool_calls:
result = execute_tool(tool)
messages.append(result)
else:
return response.text
乍一看,这就像一个普通的 while 循环——但这里是一切可能出错的地方。
真实案例:当人工智能(AI)认为工具调用成功……但实际上并没有
有一次,我让 Hermes 在 LED 网站(泰国强制执行局的资产拍卖网站)上寻找公寓。
人工智能(AI)的计划是:进入网站 → 填写表单 → 点击提交 → 阅读结果。
人工智能(AI)调用了工具 browser_click(ref="submit_button") —— 工具返回“已点击”。
人工智能(AI)很高兴——“搞定!得到结果了”——然后试图从一个并未真正加载出来的页面读取结果。
发生了什么? 工具返回“已点击”,但网页尚未完成提交——JavaScript 仍在运行,文档对象模型(DOM)尚未更改,验证码(CAPTCHA)尚未验证。
驾驭工程必须处理: 在 browser_click 之后,必须有 browser_snapshot 来确认网页确实发生了更改——如果页面未更改,则必须重试或改变策略。
这就是驾驭工程所做的——它不会立即相信工具调用,而是进行验证。
2. 令牌预算(Token Budget)—— 就像控制钱包里的钱
每次人工智能(AI)调用工具时,上下文窗口都会变长,因为需要存储:
[用户消息] → [助手工具调用] → [工具结果] → [助手工具调用] → [工具结果] → ...
如果人工智能(AI)运行 50 轮——上下文可能长达 10 万+ 令牌(tokens)。
问题:
- 💰 花钱——Claude Sonnet 输入价格为每百万令牌 3 美元 = 如果使用 10 万令牌,每次应用程序接口(API)调用就是 0.30 美元
- 🧠 大型语言模型(LLM)迷失方向
免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。