AI 基础认知与机器学习

01 0.5 天

先学会判断：什么问题才适合用 AI

本步 4 个知识点

学习目标

能判断一个需求是否值得用 AI，而不是看到 AI 热就硬套。

先记这一句话

AI 适合“有历史数据、有明确答案、规则难写、结果可验证”的问题。

不适合直接做 AI

“让 AI 判断这个需求好不好。”目标太虚，没有历史答案，也没有验收标准。先做评审表更合适。

更适合用 AI

“根据历史工单标题、描述、处理记录，预测新工单分派小组。”有数据、有答案、规则难穷举，也能验证。

知识点清单与业务判断 先会用，再理解

1. AI vs 传统规则

知识点讲解规则靠人写清楚，机器学习从样本里归纳规律。规则稳定时优先规则，规则难穷举且样本充足时再考虑 AI。

知识点详解

核心定义与范式区别

传统规则 Rule-Based“规则靠人写清楚”：人类专家把业务逻辑、法律法规等转化为明确的 if-then-else 条件语句，机器只负责绝对执行。例如：“如果发票金额 > 5000 元且无主管签字，则拒绝审批”。

机器学习 Machine Learning“从样本里归纳规律”：人类不再提供绝对的对错标准，而是给机器海量历史数据和目标，让算法自己归纳隐藏在数据背后的复杂公式 y = f(x)。它适合人类“只能意会不能言传”的场景，如辨别猫狗、语音识别。

选型逻辑与核心边界

1. 规则稳定时优先规则。实际工程里，能用规则解决的，永远优先用规则。

高确定性与强解释性：非黑即白，一旦出错极易定位排查；AI 则更像黑盒，难以解释。
低成本与零冷启动：几行代码即可搞定，不需要收集数据、购买算力训练模型，上线即 100% 生效。
典型场景：个税计算、法定退休年龄、电商满减优惠券。

2. 规则难穷举且样本充足时再考虑 AI。只有同时满足两个条件，才是 AI 大显身手的时候。

规则难穷举：业务极度复杂、情况瞬息万变，人类脑力无法写全所有 if-then；硬写会导致规则互相冲突、系统臃肿崩溃，例如垃圾邮件拦截、反欺诈风控。
样本充足：机器学习必须有数据喂养。如果没有高质量、成规模的历史样本，AI 容易过拟合或欠拟合，无法准确归纳规律。

一句话总结：不要用高射炮轰蚊子。业务初期或逻辑清晰时，写死规则是最经济、高效且可控的方案；只有当规则多到人类无法穷举，且手里有足够的数据资产支撑时，AI 才是那把对的钥匙。

业务判断方法

先问：规则能否人工写清楚？规则是否经常变？是否有足够样本？错判能否衡量？

2. 输入与输出

知识点讲解机器学习任务要能表达成“根据输入 X，预测输出 Y”。X 是预测时能拿到的信息，Y 是业务真正想判断的结果。

知识点详解

核心定义与工作原理

核心概念「输入与输出」：输入 X 是模型在判断时能看到的证据，输出 Y 是业务真正要预测或生成的结果。

放到本步里理解这一点属于「先学会判断：什么问题才适合用 AI」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，输入与输出才能变成可落地的 AI 能力。
什么时候要谨慎：不要把“想提升体验”这类愿望当输出，输出必须能被检查，例如是否流失、是否违规、预计耗时。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“机器学习任务要能表达成“根据输入 X，预测输出 Y”。X 是预测时能拿到的信息，Y 是业务真正想判断的结果。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「输入与输出」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

把需求改写成一句话。X 拿不到或 Y 说不清，就先别建模。

3. 标签 Label

知识点讲解标签是监督学习的标准答案，来自历史结果或人工标注。标签混乱，模型就会学习混乱目标。

知识点详解

核心定义与工作原理

核心概念「标签 Label」：标签是监督学习里的标准答案，告诉模型什么样的历史样本算成功、失败、风险或目标结果。

放到本步里理解这一点属于「先学会判断：什么问题才适合用 AI」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，标签 Label 才能变成可落地的 AI 能力。
什么时候要谨慎：标签口径不一致时，模型会学到混乱标准；先统一业务定义，再谈训练。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“标签是监督学习的标准答案，来自历史结果或人工标注。标签混乱，模型就会学习混乱目标。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「标签 Label」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

检查历史数据是否有可靠答案、口径是否一致、是否和业务目标一致。

4. 可学习模式

知识点讲解模型只能学习数据里反复出现的规律，不能凭空理解业务意图。样本少、规律变、关键因素不可见时效果差。

知识点详解

核心定义与工作原理

核心概念「可学习模式」：可学习模式是数据里反复出现、未来仍可能延续的规律。

放到本步里理解这一点属于「先学会判断：什么问题才适合用 AI」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，可学习模式才能变成可落地的 AI 能力。
什么时候要谨慎：如果关键因素没有被记录，或者规律一直变化，模型再复杂也只能猜。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“模型只能学习数据里反复出现的规律，不能凭空理解业务意图。样本少、规律变、关键因素不可见时效果差。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「可学习模式」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

看样本是否足够、相似输入是否常对应相似输出、上线环境是否接近历史。

学习产出

一页《团队 AI 场景筛选标准》

10 分钟练习

拿一个真实想法，填 4 行：有没有历史数据？标准答案是什么？为什么规则难写？上线后用什么指标验证？

老师怎么判断你学会了

提交作业交一页判断表：数据、答案、规则难点、验证指标、错了怎么兜底。

合格能给出“适合 / 不适合 / 先补数据”的结论，并说明 2 个以上理由。
优秀能指出最大风险、验证指标和人工兜底方式，别人看完可以直接进入评审。
没通过只说“可以用 AI 试试”，但说不清数据、答案、指标或错误成本。

02 1 天

识别问题类型：分类、回归、聚类、排序

本步 5 个知识点

学习目标

能把 AI 想法归类，并说明它需要什么数据和如何验收。

先记这一句话

先把需求改写成“根据 X，预测 Y”。Y 是类别，多半是分类；Y 是数字，多半是回归；Y 说不清，就先别建模。

知识点清单与业务判断 先会用，再理解

1. 监督学习

知识点讲解用带答案的历史样本训练模型，分类和回归通常属于监督学习。

知识点详解

核心定义与工作原理

核心概念「监督学习」：监督学习用带答案的样本学习输入到输出的映射。

放到本步里理解这一点属于「识别问题类型：分类、回归、聚类、排序」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，监督学习才能变成可落地的 AI 能力。
什么时候要谨慎：适合审批、预测、分类、评分等历史结果明确的任务。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“用带答案的历史样本训练模型，分类和回归通常属于监督学习。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「监督学习」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

问历史数据里是否有可复用答案；没有答案就先补标签或改成探索分析。

2. 无监督学习

知识点讲解没有标准答案，目标是发现结构、相似群体或异常模式。

知识点详解

核心定义与工作原理

核心概念「无监督学习」：无监督学习没有标准答案，重点是发现相似群体、结构、异常或潜在模式。

放到本步里理解这一点属于「识别问题类型：分类、回归、聚类、排序」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，无监督学习才能变成可落地的 AI 能力。
什么时候要谨慎：适合探索用户分群、异常检测、相似内容归类，不适合直接承诺“正确答案”。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“没有标准答案，目标是发现结构、相似群体或异常模式。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「无监督学习」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

确认业务是否接受“辅助发现”，并定义后续如何验证收益。

3. 分类

知识点讲解预测有限类别，比如是否流失、是否违规、属于哪种工单。

知识点详解

核心定义与工作原理

核心概念「分类」：分类是把对象分到离散类别里，例如通过/拒绝、高风险/低风险。

放到本步里理解这一点属于「识别问题类型：分类、回归、聚类、排序」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，分类才能变成可落地的 AI 能力。
什么时候要谨慎：先确认类别之间是否互斥、错误成本是否不同，再决定阈值和验收指标。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“预测有限类别，比如是否流失、是否违规、属于哪种工单。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「分类」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

确认类别边界是否清晰、每类样本是否足够、错分成本是否可接受。

4. 回归

知识点讲解预测连续数值，比如销量、金额、时长和等待时间。

知识点详解

核心定义与工作原理

核心概念「回归」：回归预测连续数值，例如价格、时长、概率、销量。

放到本步里理解这一点属于「识别问题类型：分类、回归、聚类、排序」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，回归才能变成可落地的 AI 能力。
什么时候要谨慎：重点不是只看平均误差，还要看大错是否会影响业务决策。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“预测连续数值，比如销量、金额、时长和等待时间。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「回归」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

先定义可接受误差范围，误差大小要能对应业务影响。

5. 聚类与排序

知识点讲解聚类找相似对象，排序按价值或相关性排列。

知识点详解

核心定义与工作原理

核心概念「聚类与排序」：聚类找相似群体，排序决定先看谁、先处理谁、先推荐谁。

放到本步里理解这一点属于「识别问题类型：分类、回归、聚类、排序」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，聚类与排序才能变成可落地的 AI 能力。
什么时候要谨慎：排序通常更贴近业务动作，因为资源有限时必须决定优先级。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“聚类找相似对象，排序按价值或相关性排列。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「聚类与排序」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

聚类要问“谁会用分群”，排序要问“排前带来什么收益”。

学习产出

一页《团队 AI 场景筛选标准》

10 分钟练习

写下 3 个 AI 想法，每个改成“根据 X，预测 Y”。Y 写不出来就标记为目标不清。

老师怎么判断你学会了

提交作业交 3 个 AI 想法的问题类型表，包含 X、Y、类型和验收方式。

合格能正确区分分类、回归、聚类、排序，并写出每个任务的 Y。
优秀能指出目标不清、标签不足或暂不适合建模的想法，并给出改法。
没通过只按技术名词分类，但说不清模型最终要预测什么。

03 1-2 天

理解数据与特征：模型学的是数据里的信号

本步 6 个知识点

学习目标

能审核数据是否支持 AI 项目，识别字段风险和数据泄漏。

先记这一句话

模型只能学习它看得见、拿得到、口径稳定的数据。

知识点清单与业务判断 先会用，再理解

1. 样本

知识点讲解样本是一条可学习的历史记录，要有明确粒度和时间点。

知识点详解

核心定义与工作原理

核心概念「样本」：样本是一条可学习的历史记录，包含当时能看到的信息和后续结果。

放到本步里理解这一点属于「理解数据与特征：模型学的是数据里的信号」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，样本才能变成可落地的 AI 能力。
什么时候要谨慎：样本要代表未来会遇到的对象，否则模型只是记住过去的局部经验。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“样本是一条可学习的历史记录，要有明确粒度和时间点。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「样本」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

先定义一行数据代表什么，粒度混乱会让指标失真。

2. 特征 Feature

知识点讲解特征是模型预测时能看到的信息，不是业务愿望。

知识点详解

核心定义与工作原理

核心概念「特征 Feature」：特征是模型用来判断的线索，例如用户行为、设备状态、文本长度、历史次数。

放到本步里理解这一点属于「理解数据与特征：模型学的是数据里的信号」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，特征 Feature 才能变成可落地的 AI 能力。
什么时候要谨慎：好特征来自业务理解，不只是把数据库字段全丢给模型。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“特征是模型预测时能看到的信息，不是业务愿望。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「特征 Feature」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

逐个字段问：上线时拿得到吗？含义稳定吗？更新频率够吗？

3. 数值特征

知识点讲解金额、次数、时长、比例等数字要关注量纲、极端值和缺失值。

知识点详解

核心定义与工作原理

核心概念「数值特征」：金额、次数、时长、比例等数字要关注量纲、极端值和缺失值。

放到本步里理解这一点属于「理解数据与特征：模型学的是数据里的信号」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，数值特征才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看数据是否存在、目标是否可验证、错误成本是否能承受、上线后是否有人监控。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“金额、次数、时长、比例等数字要关注量纲、极端值和缺失值。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「数值特征」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

异常数字要判断是真业务还是埋点错误。

4. 类别特征

知识点讲解地区、渠道、等级等离散值要关注枚举口径和低频类别。

知识点详解

核心定义与工作原理

核心概念「类别特征」：地区、渠道、等级等离散值要关注枚举口径和低频类别。

放到本步里理解这一点属于「理解数据与特征：模型学的是数据里的信号」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，类别特征才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看数据是否存在、目标是否可验证、错误成本是否能承受、上线后是否有人监控。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“地区、渠道、等级等离散值要关注枚举口径和低频类别。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「类别特征」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

看是否有统一字典、是否经常改名、是否大量“其他”。

5. 数据清洗

知识点讲解清洗处理缺失、重复、异常和口径不一致。

知识点详解

核心定义与工作原理

核心概念「数据清洗」：清洗处理缺失、重复、异常和口径不一致。

放到本步里理解这一点属于「理解数据与特征：模型学的是数据里的信号」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，数据清洗才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看数据是否存在、目标是否可验证、错误成本是否能承受、上线后是否有人监控。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“清洗处理缺失、重复、异常和口径不一致。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「数据清洗」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

要求说明缺失值、重复、异常值怎么处理。

6. 数据泄漏

知识点讲解训练时看到了上线预测时不可能知道的信息，离线会虚高。

知识点详解

核心定义与工作原理

核心概念「数据泄漏」：数据泄漏是训练时用了预测时不可能拿到的信息。

放到本步里理解这一点属于「理解数据与特征：模型学的是数据里的信号」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，数据泄漏才能变成可落地的 AI 能力。
什么时候要谨慎：它会让离线指标虚高，上线后效果突然崩掉，是 AI 项目里最常见的隐形坑。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“训练时看到了上线预测时不可能知道的信息，离线会虚高。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「数据泄漏」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

按时间线检查字段预测当下是否已经存在。

学习产出

一页《团队 AI 场景筛选标准》

10 分钟练习

列 5 个可能字段，逐个标记预测当下能否拿到、口径是否稳定、会不会偷看结果。

老师怎么判断你学会了

提交作业交一张字段清单，标注字段类型、可用性、缺失/异常风险和泄漏风险。

合格能识别哪些字段上线时拿不到，哪些字段需要清洗或确认口径。
优秀能发现至少 1 个泄漏风险，并提出替代字段或数据建设动作。
没通过只罗列字段，不判断预测当下是否可用，也不检查是否偷看答案。

04 1 天

理解训练过程：参数、损失函数和调参

本步 5 个知识点

学习目标

能用非算法语言解释模型怎么学习，并识别训练目标和业务目标的差异。

先记这一句话

训练就是让模型不断少犯训练目标里的错误，但训练目标不一定等于业务目标。

知识点清单与业务判断 先会用，再理解

1. 模型参数

知识点讲解参数是模型从数据中学到的内部数值，训练就是不断调整参数。

知识点详解

核心定义与工作原理

核心概念「模型参数」：参数是模型从数据中学到的内部数值，训练就是不断调整参数。

放到本步里理解这一点属于「理解训练过程：参数、损失函数和调参」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，模型参数才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看数据是否存在、目标是否可验证、错误成本是否能承受、上线后是否有人监控。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“参数是模型从数据中学到的内部数值，训练就是不断调整参数。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「模型参数」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

不要只问用了什么模型，还要问训练数据覆盖了哪些场景。

2. 损失函数

知识点讲解损失函数把预测错得多严重变成可优化的数字。

知识点详解

核心定义与工作原理

核心概念「损失函数」：损失函数把预测错得多严重变成可优化的数字。

放到本步里理解这一点属于「理解训练过程：参数、损失函数和调参」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，损失函数才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看数据是否存在、目标是否可验证、错误成本是否能承受、上线后是否有人监控。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“损失函数把预测错得多严重变成可优化的数字。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「损失函数」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

问模型优化目标是否真的等于业务目标。

3. 梯度下降

知识点讲解梯度下降沿着让损失变小的方向调整参数。

知识点详解

核心定义与工作原理

核心概念「梯度下降」：梯度下降沿着让损失变小的方向调整参数。

放到本步里理解这一点属于「理解训练过程：参数、损失函数和调参」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，梯度下降才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看数据是否存在、目标是否可验证、错误成本是否能承受、上线后是否有人监控。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“梯度下降沿着让损失变小的方向调整参数。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「梯度下降」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

训练不稳定时要追问数据、学习率、样本分布和目标定义。

4. 超参数

知识点讲解超参数是训练前配置，会影响速度、拟合程度和稳定性。

知识点详解

核心定义与工作原理

核心概念「超参数」：超参数是训练前配置，会影响速度、拟合程度和稳定性。

放到本步里理解这一点属于「理解训练过程：参数、损失函数和调参」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，超参数才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看数据是否存在、目标是否可验证、错误成本是否能承受、上线后是否有人监控。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“超参数是训练前配置，会影响速度、拟合程度和稳定性。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「超参数」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

把调参理解成准确率、成本和稳定性之间的取舍。

5. 可解释性

知识点讲解解释不是所有模型都天然具备，但业务评审需要理解关键影响因素。

知识点详解

核心定义与工作原理

核心概念「可解释性」：解释不是所有模型都天然具备，但业务评审需要理解关键影响因素。

放到本步里理解这一点属于「理解训练过程：参数、损失函数和调参」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，可解释性才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看数据是否存在、目标是否可验证、错误成本是否能承受、上线后是否有人监控。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“解释不是所有模型都天然具备，但业务评审需要理解关键影响因素。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「可解释性」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

要求重要特征、典型案例和错误样本，而不是只接受分数。

学习产出

一页《团队 AI 场景筛选标准》

10 分钟练习

用 3 句话解释训练：模型看到什么、错在哪里、怎么变好。不要写公式。

老师怎么判断你学会了

提交作业交一段面向产品/业务的训练解释，并列出训练目标和业务目标可能不一致的地方。

合格能不用公式解释训练、损失和参数调整的关系。
优秀能说明“损失下降不等于业务变好”，并举一个业务例子。
没通过只背术语，无法讲给产品或业务听。

05 1 天

掌握训练 / 验证 / 测试：别让模型背答案

本步 6 个知识点

学习目标

能判断模型评估是否可信，识别过拟合、泄漏和分布变化风险。

先记这一句话

模型真正的价值，看它在没见过的数据上表现如何。

知识点清单与业务判断 先会用，再理解

1. 训练集

知识点讲解用于学习参数，决定模型见过哪些模式。

知识点详解

核心定义与工作原理

核心概念「训练集」：训练集负责让模型学习规律。

放到本步里理解这一点属于「掌握训练 / 验证 / 测试：别让模型背答案」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，训练集才能变成可落地的 AI 能力。
什么时候要谨慎：训练集不能混入测试集信息，否则评测会失真。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“用于学习参数，决定模型见过哪些模式。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「训练集」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

问训练集是否覆盖核心人群、渠道、时间段和异常场景。

2. 验证集

知识点讲解用于选模型、调参和比较方案。

知识点详解

核心定义与工作原理

核心概念「验证集」：验证集用于调参和选择方案。

放到本步里理解这一点属于「掌握训练 / 验证 / 测试：别让模型背答案」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，验证集才能变成可落地的 AI 能力。
什么时候要谨慎：它像模拟考试，可以用来改进，但不能当最终成绩。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“用于选模型、调参和比较方案。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「验证集」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

要求说明验证集如何切分，避免反复刷分。

3. 测试集

知识点讲解用于最终估计面对新数据的表现，不应参与训练和调参。

知识点详解

核心定义与工作原理

核心概念「测试集」：测试集用于最终验收。

放到本步里理解这一点属于「掌握训练 / 验证 / 测试：别让模型背答案」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，测试集才能变成可落地的 AI 能力。
什么时候要谨慎：测试集要尽量模拟未来真实流量，不能反复拿来调模型。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“用于最终估计面对新数据的表现，不应参与训练和调参。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「测试集」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

问测试集有没有被提前看过。

4. 泛化能力

知识点讲解模型在新样本上仍能保持效果的能力。

知识点详解

核心定义与工作原理

核心概念「泛化能力」：泛化能力是模型面对新样本仍然有效的能力。

放到本步里理解这一点属于「掌握训练 / 验证 / 测试：别让模型背答案」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，泛化能力才能变成可落地的 AI 能力。
什么时候要谨慎：业务真正买单的是泛化，不是训练集上的漂亮分数。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“模型在新样本上仍能保持效果的能力。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「泛化能力」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

看新时间段、新渠道、新人群上的表现。

5. 过拟合

知识点讲解模型记住了训练噪声，新数据表现变差。

知识点详解

核心定义与工作原理

核心概念「过拟合」：过拟合是模型记住了训练样本细节，却没有学到可迁移规律。

放到本步里理解这一点属于「掌握训练 / 验证 / 测试：别让模型背答案」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，过拟合才能变成可落地的 AI 能力。
什么时候要谨慎：表现为训练效果很好，线上或测试集效果明显下降。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“模型记住了训练噪声，新数据表现变差。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「过拟合」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

比较训练、验证、测试指标差距。

6. 数据分布变化

知识点讲解上线后的用户、渠道、规则和训练期不同，规律可能失效。

知识点详解

核心定义与工作原理

核心概念「数据分布变化」：上线后的用户、渠道、规则和训练期不同，规律可能失效。

放到本步里理解这一点属于「掌握训练 / 验证 / 测试：别让模型背答案」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，数据分布变化才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看数据是否存在、目标是否可验证、错误成本是否能承受、上线后是否有人监控。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“上线后的用户、渠道、规则和训练期不同，规律可能失效。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「数据分布变化」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

业务变化越大，越需要灰度、监控和回滚。

学习产出

一页《团队 AI 场景筛选标准》

10 分钟练习

画出一个场景的训练集、验证集、测试集切分方式，优先按时间切。

老师怎么判断你学会了

提交作业交一份数据切分方案，并写出为什么这样切。

合格能说明训练、验证、测试各自用途，并保证测试集不参与调参。
优秀能按时间切分，主动检查泄漏和上线后分布变化。
没通过用同一批数据反复训练、调参、汇报效果。

06 1-2 天

学会评估指标：准确率、召回率、精确率、F1、AUC

本步 6 个知识点

学习目标

能根据业务错判成本选择指标，而不是只汇报准确率。

先记这一句话

指标不是越高越好，而是要匹配业务最怕哪种错。

知识点清单与业务判断 先会用，再理解

1. 混淆矩阵

知识点讲解把预测结果分成真阳性、假阳性、真阴性、假阴性。

知识点详解

核心定义与工作原理

核心概念「混淆矩阵」：混淆矩阵把预测结果拆成真阳性、假阳性、真阴性、假阴性。

放到本步里理解这一点属于「学会评估指标：准确率、召回率、精确率、F1、AUC」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，混淆矩阵才能变成可落地的 AI 能力。
什么时候要谨慎：它让你看到错误类型，而不是只看一个笼统分数。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“把预测结果分成真阳性、假阳性、真阴性、假阴性。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「混淆矩阵」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

先把四格翻译成业务后果。

2. Accuracy

知识点讲解预测正确比例，适合类别均衡、错误成本接近的场景。

知识点详解

核心定义与工作原理

核心概念「Accuracy」：Accuracy 是预测正确的比例。

放到本步里理解这一点属于「学会评估指标：准确率、召回率、精确率、F1、AUC」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，Accuracy 才能变成可落地的 AI 能力。
什么时候要谨慎：类别极不均衡时它会骗人，例如 99% 正常样本下全判正常也有很高准确率。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“预测正确比例，适合类别均衡、错误成本接近的场景。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「Accuracy」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

类别极不均衡时不要只看准确率。

3. Precision

知识点讲解报出来的正例里有多少是真的。

知识点详解

核心定义与工作原理

核心概念「Precision」：Precision 看模型报出的正例里有多少是真的。

放到本步里理解这一点属于「学会评估指标：准确率、召回率、精确率、F1、AUC」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，Precision 才能变成可落地的 AI 能力。
什么时候要谨慎：适合误报成本高的场景，例如错误封禁、错误拒绝审批。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“报出来的正例里有多少是真的。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「Precision」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

人工处理成本高、误报伤体验时优先。

4. Recall

知识点讲解真实正例里有多少被找出来。

知识点详解

核心定义与工作原理

核心概念「Recall」：Recall 看真实正例里有多少被模型找出来。

放到本步里理解这一点属于「学会评估指标：准确率、召回率、精确率、F1、AUC」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，Recall 才能变成可落地的 AI 能力。
什么时候要谨慎：适合漏报成本高的场景，例如风险拦截、故障告警、疾病筛查。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“真实正例里有多少被找出来。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「Recall」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

漏判成本高的安全、风控、故障场景优先。

5. F1 与 AUC

知识点讲解F1 平衡精确率和召回率，AUC 看整体区分能力。

知识点详解

核心定义与工作原理

核心概念「F1 与 AUC」：F1 平衡 Precision 和 Recall，AUC 看模型整体区分能力。

放到本步里理解这一点属于「学会评估指标：准确率、召回率、精确率、F1、AUC」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，F1 与 AUC 才能变成可落地的 AI 能力。
什么时候要谨慎：它们适合比较模型，但最终仍要回到业务阈值和动作成本。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“F1 平衡精确率和召回率，AUC 看整体区分能力。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「F1 与 AUC」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

未定阈值看 AUC，定动作后回到业务成本。

6. 阈值

知识点讲解分数多高才触发动作，决定精确率和召回率平衡。

知识点详解

核心定义与工作原理

核心概念「阈值」：阈值决定模型分数达到多少才触发动作。

放到本步里理解这一点属于「学会评估指标：准确率、召回率、精确率、F1、AUC」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，阈值才能变成可落地的 AI 能力。
什么时候要谨慎：阈值不是技术细节，而是业务风险开关。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“分数多高才触发动作，决定精确率和召回率平衡。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「阈值」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

按动作成本设计阈值，最好多档处理。

学习产出

一页《团队 AI 场景筛选标准》

10 分钟练习

拿一个场景写两种错：漏判会怎样？误判会怎样？然后选主指标。

老师怎么判断你学会了

提交作业交一张指标选择表：漏判成本、误判成本、主指标、辅助指标、阈值策略。

合格能根据错判成本选择召回率、精确率、F1 或 AUC。
优秀能说明阈值调整如何影响业务动作，并设计至少 2 档策略。
没通过只汇报准确率，无法解释漏判和误判的业务后果。

07 1 天

把模型落到业务：上线、监控、人工兜底

本步 6 个知识点

学习目标

能把模型方案转成可上线、可监控、可回滚、有人兜底的机制。

先记这一句话

AI 上线不是结束，而是开始负责结果。

知识点清单与业务判断 先会用，再理解

1. 上线门槛

知识点讲解生产前必须达到的离线指标、业务指标、稳定性和风险要求。

知识点详解

核心定义与工作原理

核心概念「上线门槛」：生产前必须达到的离线指标、业务指标、稳定性和风险要求。

放到本步里理解这一点属于「把模型落到业务：上线、监控、人工兜底」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，上线门槛才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看数据是否存在、目标是否可验证、错误成本是否能承受、上线后是否有人监控。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“生产前必须达到的离线指标、业务指标、稳定性和风险要求。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「上线门槛」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

把“效果不错”改成具体门槛。

2. 线上监控

知识点讲解监控输入、输出、错误率、人工改判率、延迟和业务指标。

知识点详解

核心定义与工作原理

核心概念「线上监控」：监控输入、输出、错误率、人工改判率、延迟和业务指标。

放到本步里理解这一点属于「把模型落到业务：上线、监控、人工兜底」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，线上监控才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看数据是否存在、目标是否可验证、错误成本是否能承受、上线后是否有人监控。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“监控输入、输出、错误率、人工改判率、延迟和业务指标。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「线上监控」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

为核心指标设报警阈值和负责人。

3. 人工兜底

知识点讲解处理高风险、低置信度或模型无法判断的样本。

知识点详解

核心定义与工作原理

核心概念「人工兜底」：处理高风险、低置信度或模型无法判断的样本。

放到本步里理解这一点属于「把模型落到业务：上线、监控、人工兜底」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，人工兜底才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看数据是否存在、目标是否可验证、错误成本是否能承受、上线后是否有人监控。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“处理高风险、低置信度或模型无法判断的样本。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「人工兜底」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

明确哪些场景必须人审，反馈如何回流。

4. 模型漂移

知识点讲解上线后数据或业务规律变化，过去模式不再适用。

知识点详解

核心定义与工作原理

核心概念「模型漂移」：上线后数据或业务规律变化，过去模式不再适用。

放到本步里理解这一点属于「把模型落到业务：上线、监控、人工兜底」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，模型漂移才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看数据是否存在、目标是否可验证、错误成本是否能承受、上线后是否有人监控。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“上线后数据或业务规律变化，过去模式不再适用。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「模型漂移」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

大促、改版、策略调整后安排复盘和再训练。

5. 公平性

知识点讲解模型可能对某些人群产生不公平影响。

知识点详解

核心定义与工作原理

核心概念「公平性」：模型可能对某些人群产生不公平影响。

放到本步里理解这一点属于「把模型落到业务：上线、监控、人工兜底」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，公平性才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看数据是否存在、目标是否可验证、错误成本是否能承受、上线后是否有人监控。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“模型可能对某些人群产生不公平影响。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「公平性」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

按关键人群拆指标，检查误伤和漏判。

6. 可解释性

知识点讲解帮助业务理解模型为什么这样判断。

知识点详解

核心定义与工作原理

核心概念「可解释性」：帮助业务理解模型为什么这样判断。

放到本步里理解这一点属于「把模型落到业务：上线、监控、人工兜底」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，可解释性才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看数据是否存在、目标是否可验证、错误成本是否能承受、上线后是否有人监控。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“帮助业务理解模型为什么这样判断。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一张“适合 / 不适合用 AI”的判断表，写清输入、输出、数据、指标和风险。

一句话总结：本模块的核心不是会背模型名，而是能把业务问题翻译成可训练、可验证、可上线的判断题。对「可解释性」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

高风险决策需要重要特征、案例解释和复核路径。

学习产出

一页《团队 AI 场景筛选标准》

10 分钟练习

给一个 AI 场景写 5 个上线问题：指标、监控、负责人、回滚、复盘。

老师怎么判断你学会了

提交作业交一页上线检查表：门槛、监控、报警、人审、回滚、复盘频率。

合格能列出上线前门槛、上线后监控和出问题后的负责人。
优秀能考虑漂移、公平性、可解释性和反馈回流，形成闭环。
没通过只说“效果不错可以上线”，没有监控、报警、人审或回滚方案。

AI 基础认知与机器学习

老师带学方式

本模块学习步骤

先学会判断：什么问题才适合用 AI

1. AI vs 传统规则

核心定义与范式区别

选型逻辑与核心边界

2. 输入与输出

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

3. 标签 Label

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

4. 可学习模式

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

识别问题类型：分类、回归、聚类、排序

1. 监督学习

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

2. 无监督学习

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

3. 分类

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

4. 回归

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

5. 聚类与排序

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

理解数据与特征：模型学的是数据里的信号

1. 样本

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

2. 特征 Feature

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

3. 数值特征

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

4. 类别特征

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

5. 数据清洗

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

6. 数据泄漏

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

理解训练过程：参数、损失函数和调参

1. 模型参数

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

2. 损失函数

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

3. 梯度下降

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

4. 超参数

核心定义与工作原理