结论: RAG 知识库更新公开网页时,如果经常拿到 Cloudflare 挑战页或短正文,应把穿云 API 放在检索入口。只有通过访问校验的正文,才应该进入切分、向量化和问答链路。
AI 场景需求
RAG 系统依赖稳定、可追溯的来源文本。访问层如果不稳定,后续切分、向量化和回答引用都会受到影响。
对持续更新的公开资料库来说,页面是否成功读取,比模型回答是否流畅更基础。
工作流程
| 阶段 | 输入 | 输出 |
| 检索 | URL、频率、地区 | 状态和原始响应 |
| 校验 | 正文长度、字段和最终 URL | 可用正文或错误样本 |
| 入库 | 清洗后的正文 | 切分文本和来源记录 |
| 回答 | 检索片段 | 带来源的结果 |

落地建议
- 把 APIKey 放在服务端环境变量。
- 给每个来源页面保存最后成功时间。
- 异常页面不要进入向量库。
- 对高价值来源设置人工复核。
风险边界
RAG 更新只能处理授权公开资料。访问层稳定并不代表可以忽略来源许可、版权边界或目标站规则。
常见问题
RAG 入库前为什么要做访问校验?
因为错误页进入向量库后,会污染检索结果和回答依据。
穿云 APIKey 应该给模型吗?
不应该。模型调用受控检索工具即可,密钥应由服务端环境管理。
失败页面要不要保存?
可以保存少量脱敏样本用于排查,但不应进入知识库正文。
