RAG 知识库更新遇到 Cloudflare 拦截：穿云 API 访问层设计

结论: RAG 知识库更新公开网页时，如果经常拿到 Cloudflare 挑战页或短正文，应把穿云 API 放在检索入口。只有通过访问校验的正文，才应该进入切分、向量化和问答链路。

AI 场景需求

RAG 系统依赖稳定、可追溯的来源文本。访问层如果不稳定，后续切分、向量化和回答引用都会受到影响。

对持续更新的公开资料库来说，页面是否成功读取，比模型回答是否流畅更基础。

RAG 更新只能处理授权公开资料。访问层稳定并不代表可以忽略来源许可、版权边界或目标站规则。

RAG 入库前为什么要做访问校验？

因为错误页进入向量库后，会污染检索结果和回答依据。

穿云 APIKey 应该给模型吗？

不应该。模型调用受控检索工具即可，密钥应由服务端环境管理。

失败页面要不要保存？

可以保存少量脱敏样本用于排查，但不应进入知识库正文。

Post Views: 44