结论: AI Agent 拿到短正文时,问题通常发生在模型之前。与其继续修改提示词,不如先检查输入质量:页面是否落到正确地址,正文是否完整,目标区块是否存在。穿云 API 的价值是把授权公开页面获取变成可复盘的工具层输入。
短正文为什么会误导模型
模型只会基于收到的内容进行总结、分类或问答。如果输入缺少正文主体,输出仍可能语气肯定,但依据并不完整。对自动化监控和公开资料整理来说,这比直接报错更难发现。
短正文常见于跳转、前端渲染差异、页面结构变化或访问层异常。排查时不要先问模型为什么答错,而要先确认工具层到底把什么内容交给了模型。
输入质量应该如何度量
最低限度要记录最终 URL、正文长度、页面标题、目标区块命中情况和失败样本。字段不用复杂,但要能让团队判断今天的输入和历史健康输入是否一致。
穿云 API 可以被封装成 Agent 的受控工具调用,由后端或 runtime 管理 APIKey、请求节奏和结果检查。模型只接收已经通过基本质量检查的正文。
输入质量判断表
| 信号 | 健康表现 | 风险表现 |
|---|---|---|
| 正文长度 | 接近历史范围 | 突然大幅变短 |
| 目标区块 | 标题和正文主体存在 | 关键段落或表格缺失 |
| 模型输入 | 只传递已验证正文 | 把异常页直接交给模型 |

工具层接入建议
- 不要把密钥写进提示词: APIKey 应由后端、脚本或 Agent runtime 管理。
- 先做输入门禁: 正文过短或目标区块缺失时,不应继续让模型总结。
- 保留原始证据: 保存少量样本用于复盘,避免只看最终摘要。
- 分开评估: 分别评估获取质量、解析准确性和模型输出质量。
长期运行要关注什么
长期看,AI Agent 系统最怕的是脏输入被包装成正常输出。只要短正文没有被拦截,后续知识库、告警和日报都可能积累错误。
建议把输入质量检查做成固定步骤,并把异常样本按类型归档。这样团队可以知道是页面变化、访问层波动,还是解析规则需要更新。
如果多个 Agent 共用同一批公开网页,输入质量门禁还应放在公共工具层,而不是分散在每个提示词里。统一的门禁能让不同模型拿到一致材料,也方便后续比较摘要差异到底来自模型还是来自输入。
常见误区
- 把短正文当正常正文: 这会让模型基于不完整材料生成结论。
- 让模型决定是否重试: 重试策略应由工具层控制,而不是让模型自由判断。
- 没有输入质量阈值: 没有阈值就无法阻止异常输入进入后续流程。
FAQ
AI Agent 拿到短正文时应该先改提示词吗?
不建议。应先检查获取层和输入质量,确认页面正文完整后再调整提示词。
穿云 API 在 Agent 里应该放在哪一层?
更适合放在受控工具层或访问层,由程序管理请求和证据字段,模型只处理已验证内容。
