RAG 与企业知识工程

01 0.5 天

先定义知识边界

本步 3 个知识点

学习目标

知道哪些知识应该进库，哪些不应该交给模型猜。

先记这一句话

RAG 的第一步不是向量库，而是知识范围和答案责任。

知识点清单与业务判断 先会用，再理解

1. 知识范围

知识点讲解确定系统回答哪些问题，不回答哪些问题。

知识点详解

核心定义与工作原理

核心概念「知识范围」：确定系统回答哪些问题，不回答哪些问题。

放到本步里理解这一点属于「先定义知识边界」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，知识范围才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看知识是否可信、是否能被检索到、引用是否清楚、模型是否允许不知道就拒答。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“确定系统回答哪些问题，不回答哪些问题。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张知识库建设清单，包含资料范围、切片方式、检索策略、引用规则和评测集。

一句话总结：本模块的核心是让 AI 先找到可靠资料，再基于资料回答，而不是凭印象编答案。对「知识范围」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

范围越清楚，评测和治理越容易。

2. 资料可信度

知识点讲解文档来源、更新时间、负责人会影响答案可靠性。

知识点详解

核心定义与工作原理

核心概念「资料可信度」：文档来源、更新时间、负责人会影响答案可靠性。

放到本步里理解这一点属于「先定义知识边界」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，资料可信度才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看知识是否可信、是否能被检索到、引用是否清楚、模型是否允许不知道就拒答。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“文档来源、更新时间、负责人会影响答案可靠性。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张知识库建设清单，包含资料范围、切片方式、检索策略、引用规则和评测集。

一句话总结：本模块的核心是让 AI 先找到可靠资料，再基于资料回答，而不是凭印象编答案。对「资料可信度」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

过期资料不能和正式制度混在一起。

3. 拒答边界

知识点讲解没有资料支持时应拒答或转人工。

知识点详解

核心定义与工作原理

核心概念「拒答边界」：没有资料支持时应拒答或转人工。

放到本步里理解这一点属于「先定义知识边界」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，拒答边界才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看知识是否可信、是否能被检索到、引用是否清楚、模型是否允许不知道就拒答。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“没有资料支持时应拒答或转人工。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张知识库建设清单，包含资料范围、切片方式、检索策略、引用规则和评测集。

一句话总结：本模块的核心是让 AI 先找到可靠资料，再基于资料回答，而不是凭印象编答案。对「拒答边界」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

高风险问题不要让模型自由发挥。

学习产出

一个带评测报告的部门知识助手

10 分钟练习

列出一个知识助手应该回答和不该回答的 10 类问题。

老师怎么判断你学会了

提交作业交一张知识范围表。

合格能写清回答边界。
优秀能标注资料负责人和更新时间。
没通过把所有文件都丢进去，不设边界。

02 1 天

切片、向量与检索

本步 3 个知识点

学习目标

理解为什么资料进库后仍可能找不到正确内容。

先记这一句话

RAG 不是存进去就行，切片和检索质量决定模型看到什么。

知识点清单与业务判断 先会用，再理解

1. 切片 Chunk

知识点讲解把长文档拆成适合检索的小块。

知识点详解

核心定义与工作原理

核心概念「切片 Chunk」：把长文档拆成适合检索的小块。

放到本步里理解这一点属于「切片、向量与检索」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，切片 Chunk 才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看知识是否可信、是否能被检索到、引用是否清楚、模型是否允许不知道就拒答。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“把长文档拆成适合检索的小块。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张知识库建设清单，包含资料范围、切片方式、检索策略、引用规则和评测集。

一句话总结：本模块的核心是让 AI 先找到可靠资料，再基于资料回答，而不是凭印象编答案。对「切片 Chunk」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

切片太大噪声多，太小上下文不完整。

2. 向量检索

知识点讲解用语义相似度找相关片段。

知识点详解

核心定义与工作原理

核心概念「向量检索」：用语义相似度找相关片段。

放到本步里理解这一点属于「切片、向量与检索」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，向量检索才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看知识是否可信、是否能被检索到、引用是否清楚、模型是否允许不知道就拒答。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“用语义相似度找相关片段。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张知识库建设清单，包含资料范围、切片方式、检索策略、引用规则和评测集。

一句话总结：本模块的核心是让 AI 先找到可靠资料，再基于资料回答，而不是凭印象编答案。对「向量检索」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

适合同义表达，不保证一定找全。

3. 关键词检索

知识点讲解用精确词匹配找内容。

知识点详解

核心定义与工作原理

核心概念「关键词检索」：用精确词匹配找内容。

放到本步里理解这一点属于「切片、向量与检索」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，关键词检索才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看知识是否可信、是否能被检索到、引用是否清楚、模型是否允许不知道就拒答。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“用精确词匹配找内容。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张知识库建设清单，包含资料范围、切片方式、检索策略、引用规则和评测集。

一句话总结：本模块的核心是让 AI 先找到可靠资料，再基于资料回答，而不是凭印象编答案。对「关键词检索」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

适合制度编号、专有名词和数字。

学习产出

一个带评测报告的部门知识助手

10 分钟练习

拿一份制度文档，设计切片规则和检索关键词。

老师怎么判断你学会了

提交作业交一份切片与检索策略说明。

合格能说明切片大小取舍。
优秀能组合向量和关键词检索。
没通过只说用了向量库，但不知道召回了什么。

03 1 天

Rerank、引用与答案生成

本步 3 个知识点

学习目标

能让答案有来源、可追踪、可复核。

先记这一句话

好的 RAG 答案必须知道自己依据了哪段资料。

知识点清单与业务判断 先会用，再理解

1. Rerank

知识点讲解对初步检索结果重新排序，提高相关片段位置。

知识点详解

核心定义与工作原理

核心概念「Rerank」：对初步检索结果重新排序，提高相关片段位置。

放到本步里理解这一点属于「Rerank、引用与答案生成」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，Rerank 才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看知识是否可信、是否能被检索到、引用是否清楚、模型是否允许不知道就拒答。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“对初步检索结果重新排序，提高相关片段位置。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张知识库建设清单，包含资料范围、切片方式、检索策略、引用规则和评测集。

一句话总结：本模块的核心是让 AI 先找到可靠资料，再基于资料回答，而不是凭印象编答案。对「Rerank」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

当相似内容多时要考虑 rerank。

2. 引用

知识点讲解答案附上来源片段或链接。

知识点详解

核心定义与工作原理

核心概念「引用」：答案附上来源片段或链接。

放到本步里理解这一点属于「Rerank、引用与答案生成」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，引用才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看知识是否可信、是否能被检索到、引用是否清楚、模型是否允许不知道就拒答。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“答案附上来源片段或链接。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张知识库建设清单，包含资料范围、切片方式、检索策略、引用规则和评测集。

一句话总结：本模块的核心是让 AI 先找到可靠资料，再基于资料回答，而不是凭印象编答案。对「引用」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

制度、政策、技术文档回答必须可追溯。

3. 生成约束

知识点讲解要求模型只基于资料回答，资料不足就说明不足。

知识点详解

核心定义与工作原理

核心概念「生成约束」：要求模型只基于资料回答，资料不足就说明不足。

放到本步里理解这一点属于「Rerank、引用与答案生成」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，生成约束才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看知识是否可信、是否能被检索到、引用是否清楚、模型是否允许不知道就拒答。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“要求模型只基于资料回答，资料不足就说明不足。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张知识库建设清单，包含资料范围、切片方式、检索策略、引用规则和评测集。

一句话总结：本模块的核心是让 AI 先找到可靠资料，再基于资料回答，而不是凭印象编答案。对「生成约束」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

减少幻觉，方便人工复核。

学习产出

一个带评测报告的部门知识助手

10 分钟练习

为一个问答场景设计答案格式：结论、依据、引用、不确定点。

老师怎么判断你学会了

提交作业交一份 RAG 回答模板。

合格答案有来源。
优秀能处理资料冲突和资料不足。
没通过回答很流畅但没有引用。

04 1-2 天

评测、失败案例与更新机制

本步 3 个知识点

学习目标

能证明知识助手不是 Demo，而是可持续系统。

先记这一句话

RAG 上线后要持续看找没找到、答没答对、资料有没有过期。

知识点清单与业务判断 先会用，再理解

1. 评测集

知识点讲解用真实问题和标准答案测试系统。

知识点详解

核心定义与工作原理

核心概念「评测集」：用真实问题和标准答案测试系统。

放到本步里理解这一点属于「评测、失败案例与更新机制」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，评测集才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看知识是否可信、是否能被检索到、引用是否清楚、模型是否允许不知道就拒答。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“用真实问题和标准答案测试系统。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张知识库建设清单，包含资料范围、切片方式、检索策略、引用规则和评测集。

一句话总结：本模块的核心是让 AI 先找到可靠资料，再基于资料回答，而不是凭印象编答案。对「评测集」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

至少覆盖高频、边界和容易错的问题。

2. 失败样本

知识点讲解记录没检索到、检索错、生成错和资料过期。

知识点详解

核心定义与工作原理

核心概念「失败样本」：记录没检索到、检索错、生成错和资料过期。

放到本步里理解这一点属于「评测、失败案例与更新机制」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，失败样本才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看知识是否可信、是否能被检索到、引用是否清楚、模型是否允许不知道就拒答。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“记录没检索到、检索错、生成错和资料过期。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张知识库建设清单，包含资料范围、切片方式、检索策略、引用规则和评测集。

一句话总结：本模块的核心是让 AI 先找到可靠资料，再基于资料回答，而不是凭印象编答案。对「失败样本」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

失败样本是下一轮优化来源。

3. 更新机制

知识点讲解文档变更后要同步索引和版本。

知识点详解

核心定义与工作原理

核心概念「更新机制」：文档变更后要同步索引和版本。

放到本步里理解这一点属于「评测、失败案例与更新机制」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，更新机制才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看知识是否可信、是否能被检索到、引用是否清楚、模型是否允许不知道就拒答。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“文档变更后要同步索引和版本。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张知识库建设清单，包含资料范围、切片方式、检索策略、引用规则和评测集。

一句话总结：本模块的核心是让 AI 先找到可靠资料，再基于资料回答，而不是凭印象编答案。对「更新机制」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

知识库需要负责人和更新频率。

学习产出

一个带评测报告的部门知识助手

10 分钟练习

收集 20 个真实问题，标标准答案和来源文档。

老师怎么判断你学会了

提交作业交一份 RAG 评测报告。

合格能给出召回和回答准确率。
优秀能根据失败样本提出优化计划。
没通过只有演示，没有评测和更新机制。

RAG 与企业知识工程

老师带学方式

本模块学习步骤

先定义知识边界

1. 知识范围

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

2. 资料可信度

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

3. 拒答边界

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

切片、向量与检索

1. 切片 Chunk

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

2. 向量检索

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

3. 关键词检索

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

Rerank、引用与答案生成

1. Rerank

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

2. 引用

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

3. 生成约束

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

评测、失败案例与更新机制

1. 评测集

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

2. 失败样本

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

3. 更新机制

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物