AI 晋升学习模块

Module 06

评测、LLMOps 与成本优化

晋升看重的不是 Demo,而是稳定、便宜、可持续。

老师带学方式

你不需要一次全懂

先记一句话,再做 10 分钟练习,最后交一个小作业。老师只看你能不能把知识用到真实业务判断里。

每一步按 4 个动作学
  1. 先背一句话,建立判断框架。
  2. 看知识点,但只抓业务判断方法。
  3. 做 10 分钟练习,套到你的场景。
  4. 按“合格 / 优秀 / 没通过”检查作业。

Lessons

本模块学习步骤

每张卡都是一个小模块,建议一天只学 1-2 张,学完必须交作业,否则就算只看了一遍。

01 1 天

建立评测集

本步 3 个知识点
学习目标

能用真实样本测试 AI 应用,而不是只看演示。

先记这一句话

没有评测集,就没有可复现的质量判断。

知识点清单与业务判断 先会用,再理解

1. 真实样本

知识点讲解评测题应来自真实业务问题。

知识点详解
核心定义与工作原理

核心概念「真实样本」:评测题应来自真实业务问题。

放到本步里理解这一点属于「建立评测集」里的基础判断单元。你学习它,不是为了背术语,而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题:第一,这个概念对应的业务对象是什么?第二,当前流程里有没有数据、规则或样本能支撑判断?第三,判断错了会带来什么成本?

  • 什么时候该用:当业务目标清楚、输入材料可获得、输出结果能被检查时,真实样本 才能变成可落地的 AI 能力。
  • 什么时候要谨慎:边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
  • 怎么证明学会:你能用自己的业务举 1 个正例和 1 个反例,并说明为什么这个场景适合或不适合使用它。
常见误区与落地产物

容易踩坑只记住“评测题应来自真实业务问题。”,但没有把它翻译成业务判断标准。真正有用的学习,是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板,包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结:本模块的核心是用证据管理 AI,而不是用主观体验判断 AI。 对「真实样本」来说,最低要求是:能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。
业务判断方法

不要只挑模型容易答的问题。

2. 标准答案

知识点讲解要有期望输出或评分规则。

知识点详解
核心定义与工作原理

核心概念「标准答案」:要有期望输出或评分规则。

放到本步里理解这一点属于「建立评测集」里的基础判断单元。你学习它,不是为了背术语,而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题:第一,这个概念对应的业务对象是什么?第二,当前流程里有没有数据、规则或样本能支撑判断?第三,判断错了会带来什么成本?

  • 什么时候该用:当业务目标清楚、输入材料可获得、输出结果能被检查时,标准答案 才能变成可落地的 AI 能力。
  • 什么时候要谨慎:边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
  • 怎么证明学会:你能用自己的业务举 1 个正例和 1 个反例,并说明为什么这个场景适合或不适合使用它。
常见误区与落地产物

容易踩坑只记住“要有期望输出或评分规则。”,但没有把它翻译成业务判断标准。真正有用的学习,是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板,包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结:本模块的核心是用证据管理 AI,而不是用主观体验判断 AI。 对「标准答案」来说,最低要求是:能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。
业务判断方法

开放题也要有判分维度。

3. 样本分层

知识点讲解覆盖高频、边界、风险和失败样本。

知识点详解
核心定义与工作原理

核心概念「样本分层」:覆盖高频、边界、风险和失败样本。

放到本步里理解这一点属于「建立评测集」里的基础判断单元。你学习它,不是为了背术语,而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题:第一,这个概念对应的业务对象是什么?第二,当前流程里有没有数据、规则或样本能支撑判断?第三,判断错了会带来什么成本?

  • 什么时候该用:当业务目标清楚、输入材料可获得、输出结果能被检查时,样本分层 才能变成可落地的 AI 能力。
  • 什么时候要谨慎:边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
  • 怎么证明学会:你能用自己的业务举 1 个正例和 1 个反例,并说明为什么这个场景适合或不适合使用它。
常见误区与落地产物

容易踩坑只记住“覆盖高频、边界、风险和失败样本。”,但没有把它翻译成业务判断标准。真正有用的学习,是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板,包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结:本模块的核心是用证据管理 AI,而不是用主观体验判断 AI。 对「样本分层」来说,最低要求是:能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。
业务判断方法

只测平均问题会掩盖风险。

学习产出

一份 AI 应用评测报告

10 分钟练习

收集 20 条真实任务,写期望输出和评分规则。

老师怎么判断你学会了

提交作业交一份评测集表格。

  • 合格样本真实且有标准。
  • 优秀覆盖边界和失败样本。
  • 没通过只凭主观体验说好用。
02 1 天

定义质量、成本和延迟指标

本步 3 个知识点
学习目标

能同时评估效果、费用和用户体验。

先记这一句话

AI 应用不是答对就行,还要快、稳、便宜。

知识点清单与业务判断 先会用,再理解

1. 正确性

知识点讲解回答是否符合事实、规则和任务要求。

知识点详解
核心定义与工作原理

核心概念「正确性」:回答是否符合事实、规则和任务要求。

放到本步里理解这一点属于「定义质量、成本和延迟指标」里的基础判断单元。你学习它,不是为了背术语,而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题:第一,这个概念对应的业务对象是什么?第二,当前流程里有没有数据、规则或样本能支撑判断?第三,判断错了会带来什么成本?

  • 什么时候该用:当业务目标清楚、输入材料可获得、输出结果能被检查时,正确性 才能变成可落地的 AI 能力。
  • 什么时候要谨慎:边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
  • 怎么证明学会:你能用自己的业务举 1 个正例和 1 个反例,并说明为什么这个场景适合或不适合使用它。
常见误区与落地产物

容易踩坑只记住“回答是否符合事实、规则和任务要求。”,但没有把它翻译成业务判断标准。真正有用的学习,是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板,包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结:本模块的核心是用证据管理 AI,而不是用主观体验判断 AI。 对「正确性」来说,最低要求是:能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。
业务判断方法

不同任务要有不同评分维度。

2. 成本

知识点讲解token、调用次数、检索和工具调用都会产生费用。

知识点详解
核心定义与工作原理

核心概念「成本」:token、调用次数、检索和工具调用都会产生费用。

放到本步里理解这一点属于「定义质量、成本和延迟指标」里的基础判断单元。你学习它,不是为了背术语,而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题:第一,这个概念对应的业务对象是什么?第二,当前流程里有没有数据、规则或样本能支撑判断?第三,判断错了会带来什么成本?

  • 什么时候该用:当业务目标清楚、输入材料可获得、输出结果能被检查时,成本 才能变成可落地的 AI 能力。
  • 什么时候要谨慎:边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
  • 怎么证明学会:你能用自己的业务举 1 个正例和 1 个反例,并说明为什么这个场景适合或不适合使用它。
常见误区与落地产物

容易踩坑只记住“token、调用次数、检索和工具调用都会产生费用。”,但没有把它翻译成业务判断标准。真正有用的学习,是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板,包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结:本模块的核心是用证据管理 AI,而不是用主观体验判断 AI。 对「成本」来说,最低要求是:能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。
业务判断方法

要算单次成本和月度规模成本。

3. 延迟

知识点讲解用户等待时间影响采用率。

知识点详解
核心定义与工作原理

核心概念「延迟」:用户等待时间影响采用率。

放到本步里理解这一点属于「定义质量、成本和延迟指标」里的基础判断单元。你学习它,不是为了背术语,而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题:第一,这个概念对应的业务对象是什么?第二,当前流程里有没有数据、规则或样本能支撑判断?第三,判断错了会带来什么成本?

  • 什么时候该用:当业务目标清楚、输入材料可获得、输出结果能被检查时,延迟 才能变成可落地的 AI 能力。
  • 什么时候要谨慎:边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
  • 怎么证明学会:你能用自己的业务举 1 个正例和 1 个反例,并说明为什么这个场景适合或不适合使用它。
常见误区与落地产物

容易踩坑只记住“用户等待时间影响采用率。”,但没有把它翻译成业务判断标准。真正有用的学习,是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板,包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结:本模块的核心是用证据管理 AI,而不是用主观体验判断 AI。 对「延迟」来说,最低要求是:能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。
业务判断方法

长流程要设计进度提示或异步处理。

学习产出

一份 AI 应用评测报告

10 分钟练习

为一个 AI 应用列 5 个质量指标和 3 个成本指标。

老师怎么判断你学会了

提交作业交一张指标表。

  • 合格能同时看质量、成本、延迟。
  • 优秀能写出上线门槛。
  • 没通过只看模型回答是否漂亮。
03 1 天

日志、失败样本与迭代闭环

本步 3 个知识点
学习目标

能从失败中持续提升系统。

先记这一句话

失败样本不是尴尬记录,而是下一版路线图。

知识点清单与业务判断 先会用,再理解

1. 日志

知识点讲解记录输入、输出、检索片段、工具调用和错误。

知识点详解
核心定义与工作原理

核心概念「日志」:记录输入、输出、检索片段、工具调用和错误。

放到本步里理解这一点属于「日志、失败样本与迭代闭环」里的基础判断单元。你学习它,不是为了背术语,而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题:第一,这个概念对应的业务对象是什么?第二,当前流程里有没有数据、规则或样本能支撑判断?第三,判断错了会带来什么成本?

  • 什么时候该用:当业务目标清楚、输入材料可获得、输出结果能被检查时,日志 才能变成可落地的 AI 能力。
  • 什么时候要谨慎:边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
  • 怎么证明学会:你能用自己的业务举 1 个正例和 1 个反例,并说明为什么这个场景适合或不适合使用它。
常见误区与落地产物

容易踩坑只记住“记录输入、输出、检索片段、工具调用和错误。”,但没有把它翻译成业务判断标准。真正有用的学习,是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板,包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结:本模块的核心是用证据管理 AI,而不是用主观体验判断 AI。 对「日志」来说,最低要求是:能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。
业务判断方法

日志要脱敏,不能泄露隐私。

2. 失败分类

知识点讲解把失败分成检索错、理解错、格式错、工具错等。

知识点详解
核心定义与工作原理

核心概念「失败分类」:把失败分成检索错、理解错、格式错、工具错等。

放到本步里理解这一点属于「日志、失败样本与迭代闭环」里的基础判断单元。你学习它,不是为了背术语,而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题:第一,这个概念对应的业务对象是什么?第二,当前流程里有没有数据、规则或样本能支撑判断?第三,判断错了会带来什么成本?

  • 什么时候该用:当业务目标清楚、输入材料可获得、输出结果能被检查时,失败分类 才能变成可落地的 AI 能力。
  • 什么时候要谨慎:边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
  • 怎么证明学会:你能用自己的业务举 1 个正例和 1 个反例,并说明为什么这个场景适合或不适合使用它。
常见误区与落地产物

容易踩坑只记住“把失败分成检索错、理解错、格式错、工具错等。”,但没有把它翻译成业务判断标准。真正有用的学习,是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板,包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结:本模块的核心是用证据管理 AI,而不是用主观体验判断 AI。 对「失败分类」来说,最低要求是:能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。
业务判断方法

分类后才能对症优化。

3. 版本记录

知识点讲解记录每次 prompt、模型、检索策略变化。

知识点详解
核心定义与工作原理

核心概念「版本记录」:记录每次 prompt、模型、检索策略变化。

放到本步里理解这一点属于「日志、失败样本与迭代闭环」里的基础判断单元。你学习它,不是为了背术语,而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题:第一,这个概念对应的业务对象是什么?第二,当前流程里有没有数据、规则或样本能支撑判断?第三,判断错了会带来什么成本?

  • 什么时候该用:当业务目标清楚、输入材料可获得、输出结果能被检查时,版本记录 才能变成可落地的 AI 能力。
  • 什么时候要谨慎:边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
  • 怎么证明学会:你能用自己的业务举 1 个正例和 1 个反例,并说明为什么这个场景适合或不适合使用它。
常见误区与落地产物

容易踩坑只记住“记录每次 prompt、模型、检索策略变化。”,但没有把它翻译成业务判断标准。真正有用的学习,是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板,包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结:本模块的核心是用证据管理 AI,而不是用主观体验判断 AI。 对「版本记录」来说,最低要求是:能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。
业务判断方法

没有版本记录就无法复盘。

学习产出

一份 AI 应用评测报告

10 分钟练习

把 10 个失败案例分成类型,并写改进动作。

老师怎么判断你学会了

提交作业交一份失败样本复盘表。

  • 合格能分类失败原因。
  • 优秀能关联版本变化和指标变化。
  • 没通过失败后只调一句 prompt。
04 1 天

成本优化与上线门槛

本步 3 个知识点
学习目标

能让 AI 应用从试点走向稳定使用。

先记这一句话

优化不是一味省钱,而是在效果、成本和风险之间找平衡。

知识点清单与业务判断 先会用,再理解

1. 模型选择

知识点讲解不同模型成本、速度和能力不同。

知识点详解
核心定义与工作原理

核心概念「模型选择」:不同模型成本、速度和能力不同。

放到本步里理解这一点属于「成本优化与上线门槛」里的基础判断单元。你学习它,不是为了背术语,而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题:第一,这个概念对应的业务对象是什么?第二,当前流程里有没有数据、规则或样本能支撑判断?第三,判断错了会带来什么成本?

  • 什么时候该用:当业务目标清楚、输入材料可获得、输出结果能被检查时,模型选择 才能变成可落地的 AI 能力。
  • 什么时候要谨慎:边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
  • 怎么证明学会:你能用自己的业务举 1 个正例和 1 个反例,并说明为什么这个场景适合或不适合使用它。
常见误区与落地产物

容易踩坑只记住“不同模型成本、速度和能力不同。”,但没有把它翻译成业务判断标准。真正有用的学习,是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板,包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结:本模块的核心是用证据管理 AI,而不是用主观体验判断 AI。 对「模型选择」来说,最低要求是:能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。
业务判断方法

简单任务不一定需要最贵模型。

2. 缓存与批处理

知识点讲解重复问题可缓存,离线任务可批处理。

知识点详解
核心定义与工作原理

核心概念「缓存与批处理」:重复问题可缓存,离线任务可批处理。

放到本步里理解这一点属于「成本优化与上线门槛」里的基础判断单元。你学习它,不是为了背术语,而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题:第一,这个概念对应的业务对象是什么?第二,当前流程里有没有数据、规则或样本能支撑判断?第三,判断错了会带来什么成本?

  • 什么时候该用:当业务目标清楚、输入材料可获得、输出结果能被检查时,缓存与批处理 才能变成可落地的 AI 能力。
  • 什么时候要谨慎:边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
  • 怎么证明学会:你能用自己的业务举 1 个正例和 1 个反例,并说明为什么这个场景适合或不适合使用它。
常见误区与落地产物

容易踩坑只记住“重复问题可缓存,离线任务可批处理。”,但没有把它翻译成业务判断标准。真正有用的学习,是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板,包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结:本模块的核心是用证据管理 AI,而不是用主观体验判断 AI。 对「缓存与批处理」来说,最低要求是:能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。
业务判断方法

高频场景优先优化。

3. 上线门槛

知识点讲解上线前要定义质量、成本、延迟、失败率门槛。

知识点详解
核心定义与工作原理

核心概念「上线门槛」:上线前要定义质量、成本、延迟、失败率门槛。

放到本步里理解这一点属于「成本优化与上线门槛」里的基础判断单元。你学习它,不是为了背术语,而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题:第一,这个概念对应的业务对象是什么?第二,当前流程里有没有数据、规则或样本能支撑判断?第三,判断错了会带来什么成本?

  • 什么时候该用:当业务目标清楚、输入材料可获得、输出结果能被检查时,上线门槛 才能变成可落地的 AI 能力。
  • 什么时候要谨慎:边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
  • 怎么证明学会:你能用自己的业务举 1 个正例和 1 个反例,并说明为什么这个场景适合或不适合使用它。
常见误区与落地产物

容易踩坑只记住“上线前要定义质量、成本、延迟、失败率门槛。”,但没有把它翻译成业务判断标准。真正有用的学习,是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板,包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结:本模块的核心是用证据管理 AI,而不是用主观体验判断 AI。 对「上线门槛」来说,最低要求是:能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。
业务判断方法

门槛让团队敢用,也知道何时回滚。

学习产出

一份 AI 应用评测报告

10 分钟练习

设计一个 AI 应用的上线门槛和成本优化方案。

老师怎么判断你学会了

提交作业交一份上线评审页。

  • 合格能写出质量、成本、延迟门槛。
  • 优秀能提出至少 2 个成本优化动作。
  • 没通过Demo 能跑就上线。
系统资料

这些资料用于深挖原理。先完成本页作业,再去看资料,效率会高很多。