识别问题类型:分类、回归、聚类、排序
本步 5 个知识点
学习目标
能把 AI 想法归类,并说明它需要什么数据和如何验收。
先记这一句话
先把需求改写成“根据 X,预测 Y”。Y 是类别,多半是分类;Y 是数字,多半是回归;Y 说不清,就先别建模。
知识点清单与业务判断
先会用,再理解
1. 监督学习
知识点讲解用带答案的历史样本训练模型,分类和回归通常属于监督学习。
知识点详解
核心定义与工作原理
核心概念「监督学习」:监督学习用带答案的样本学习输入到输出的映射。
放到本步里理解这一点属于「识别问题类型:分类、回归、聚类、排序」里的基础判断单元。你学习它,不是为了背术语,而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。
业务判断方法与适用边界
先问三个问题:第一,这个概念对应的业务对象是什么?第二,当前流程里有没有数据、规则或样本能支撑判断?第三,判断错了会带来什么成本?
- 什么时候该用:当业务目标清楚、输入材料可获得、输出结果能被检查时,监督学习 才能变成可落地的 AI 能力。
- 什么时候要谨慎:适合审批、预测、分类、评分等历史结果明确的任务。
- 怎么证明学会:你能用自己的业务举 1 个正例和 1 个反例,并说明为什么这个场景适合或不适合使用它。
常见误区与落地产物
容易踩坑只记住“用带答案的历史样本训练模型,分类和回归通常属于监督学习。”,但没有把它翻译成业务判断标准。真正有用的学习,是能把概念落到数据、流程、指标、风险和责任人上。
学完要产出一张“适合 / 不适合用 AI”的判断表,写清输入、输出、数据、指标和风险。
一句话总结:本模块的核心不是会背模型名,而是能把业务问题翻译成可训练、可验证、可上线的判断题。 对「监督学习」来说,最低要求是:能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。
业务判断方法
问历史数据里是否有可复用答案;没有答案就先补标签或改成探索分析。
2. 无监督学习
知识点讲解没有标准答案,目标是发现结构、相似群体或异常模式。
知识点详解
核心定义与工作原理
核心概念「无监督学习」:无监督学习没有标准答案,重点是发现相似群体、结构、异常或潜在模式。
放到本步里理解这一点属于「识别问题类型:分类、回归、聚类、排序」里的基础判断单元。你学习它,不是为了背术语,而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。
业务判断方法与适用边界
先问三个问题:第一,这个概念对应的业务对象是什么?第二,当前流程里有没有数据、规则或样本能支撑判断?第三,判断错了会带来什么成本?
- 什么时候该用:当业务目标清楚、输入材料可获得、输出结果能被检查时,无监督学习 才能变成可落地的 AI 能力。
- 什么时候要谨慎:适合探索用户分群、异常检测、相似内容归类,不适合直接承诺“正确答案”。
- 怎么证明学会:你能用自己的业务举 1 个正例和 1 个反例,并说明为什么这个场景适合或不适合使用它。
常见误区与落地产物
容易踩坑只记住“没有标准答案,目标是发现结构、相似群体或异常模式。”,但没有把它翻译成业务判断标准。真正有用的学习,是能把概念落到数据、流程、指标、风险和责任人上。
学完要产出一张“适合 / 不适合用 AI”的判断表,写清输入、输出、数据、指标和风险。
一句话总结:本模块的核心不是会背模型名,而是能把业务问题翻译成可训练、可验证、可上线的判断题。 对「无监督学习」来说,最低要求是:能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。
业务判断方法
确认业务是否接受“辅助发现”,并定义后续如何验证收益。
3. 分类
知识点讲解预测有限类别,比如是否流失、是否违规、属于哪种工单。
知识点详解
核心定义与工作原理
核心概念「分类」:分类是把对象分到离散类别里,例如通过/拒绝、高风险/低风险。
放到本步里理解这一点属于「识别问题类型:分类、回归、聚类、排序」里的基础判断单元。你学习它,不是为了背术语,而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。
业务判断方法与适用边界
先问三个问题:第一,这个概念对应的业务对象是什么?第二,当前流程里有没有数据、规则或样本能支撑判断?第三,判断错了会带来什么成本?
- 什么时候该用:当业务目标清楚、输入材料可获得、输出结果能被检查时,分类 才能变成可落地的 AI 能力。
- 什么时候要谨慎:先确认类别之间是否互斥、错误成本是否不同,再决定阈值和验收指标。
- 怎么证明学会:你能用自己的业务举 1 个正例和 1 个反例,并说明为什么这个场景适合或不适合使用它。
常见误区与落地产物
容易踩坑只记住“预测有限类别,比如是否流失、是否违规、属于哪种工单。”,但没有把它翻译成业务判断标准。真正有用的学习,是能把概念落到数据、流程、指标、风险和责任人上。
学完要产出一张“适合 / 不适合用 AI”的判断表,写清输入、输出、数据、指标和风险。
一句话总结:本模块的核心不是会背模型名,而是能把业务问题翻译成可训练、可验证、可上线的判断题。 对「分类」来说,最低要求是:能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。
业务判断方法
确认类别边界是否清晰、每类样本是否足够、错分成本是否可接受。
4. 回归
知识点讲解预测连续数值,比如销量、金额、时长和等待时间。
知识点详解
核心定义与工作原理
核心概念「回归」:回归预测连续数值,例如价格、时长、概率、销量。
放到本步里理解这一点属于「识别问题类型:分类、回归、聚类、排序」里的基础判断单元。你学习它,不是为了背术语,而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。
业务判断方法与适用边界
先问三个问题:第一,这个概念对应的业务对象是什么?第二,当前流程里有没有数据、规则或样本能支撑判断?第三,判断错了会带来什么成本?
- 什么时候该用:当业务目标清楚、输入材料可获得、输出结果能被检查时,回归 才能变成可落地的 AI 能力。
- 什么时候要谨慎:重点不是只看平均误差,还要看大错是否会影响业务决策。
- 怎么证明学会:你能用自己的业务举 1 个正例和 1 个反例,并说明为什么这个场景适合或不适合使用它。
常见误区与落地产物
容易踩坑只记住“预测连续数值,比如销量、金额、时长和等待时间。”,但没有把它翻译成业务判断标准。真正有用的学习,是能把概念落到数据、流程、指标、风险和责任人上。
学完要产出一张“适合 / 不适合用 AI”的判断表,写清输入、输出、数据、指标和风险。
一句话总结:本模块的核心不是会背模型名,而是能把业务问题翻译成可训练、可验证、可上线的判断题。 对「回归」来说,最低要求是:能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。
业务判断方法
先定义可接受误差范围,误差大小要能对应业务影响。
5. 聚类与排序
知识点讲解聚类找相似对象,排序按价值或相关性排列。
知识点详解
核心定义与工作原理
核心概念「聚类与排序」:聚类找相似群体,排序决定先看谁、先处理谁、先推荐谁。
放到本步里理解这一点属于「识别问题类型:分类、回归、聚类、排序」里的基础判断单元。你学习它,不是为了背术语,而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。
业务判断方法与适用边界
先问三个问题:第一,这个概念对应的业务对象是什么?第二,当前流程里有没有数据、规则或样本能支撑判断?第三,判断错了会带来什么成本?
- 什么时候该用:当业务目标清楚、输入材料可获得、输出结果能被检查时,聚类与排序 才能变成可落地的 AI 能力。
- 什么时候要谨慎:排序通常更贴近业务动作,因为资源有限时必须决定优先级。
- 怎么证明学会:你能用自己的业务举 1 个正例和 1 个反例,并说明为什么这个场景适合或不适合使用它。
常见误区与落地产物
容易踩坑只记住“聚类找相似对象,排序按价值或相关性排列。”,但没有把它翻译成业务判断标准。真正有用的学习,是能把概念落到数据、流程、指标、风险和责任人上。
学完要产出一张“适合 / 不适合用 AI”的判断表,写清输入、输出、数据、指标和风险。
一句话总结:本模块的核心不是会背模型名,而是能把业务问题翻译成可训练、可验证、可上线的判断题。 对「聚类与排序」来说,最低要求是:能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。
业务判断方法
聚类要问“谁会用分群”,排序要问“排前带来什么收益”。
10 分钟练习
写下 3 个 AI 想法,每个改成“根据 X,预测 Y”。Y 写不出来就标记为目标不清。
老师怎么判断你学会了
提交作业交 3 个 AI 想法的问题类型表,包含 X、Y、类型和验收方式。
- 合格能正确区分分类、回归、聚类、排序,并写出每个任务的 Y。
- 优秀能指出目标不清、标签不足或暂不适合建模的想法,并给出改法。
- 没通过只按技术名词分类,但说不清模型最终要预测什么。