评测、LLMOps 与成本优化

01 1 天

建立评测集

本步 3 个知识点

学习目标

能用真实样本测试 AI 应用，而不是只看演示。

先记这一句话

没有评测集，就没有可复现的质量判断。

知识点清单与业务判断 先会用，再理解

1. 真实样本

知识点讲解评测题应来自真实业务问题。

知识点详解

核心定义与工作原理

核心概念「真实样本」：评测题应来自真实业务问题。

放到本步里理解这一点属于「建立评测集」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，真实样本才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“评测题应来自真实业务问题。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板，包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结：本模块的核心是用证据管理 AI，而不是用主观体验判断 AI。对「真实样本」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

不要只挑模型容易答的问题。

2. 标准答案

知识点讲解要有期望输出或评分规则。

知识点详解

核心定义与工作原理

核心概念「标准答案」：要有期望输出或评分规则。

放到本步里理解这一点属于「建立评测集」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，标准答案才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“要有期望输出或评分规则。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板，包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结：本模块的核心是用证据管理 AI，而不是用主观体验判断 AI。对「标准答案」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

开放题也要有判分维度。

3. 样本分层

知识点讲解覆盖高频、边界、风险和失败样本。

知识点详解

核心定义与工作原理

核心概念「样本分层」：覆盖高频、边界、风险和失败样本。

放到本步里理解这一点属于「建立评测集」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，样本分层才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“覆盖高频、边界、风险和失败样本。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板，包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结：本模块的核心是用证据管理 AI，而不是用主观体验判断 AI。对「样本分层」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

只测平均问题会掩盖风险。

学习产出

一份 AI 应用评测报告

10 分钟练习

收集 20 条真实任务，写期望输出和评分规则。

老师怎么判断你学会了

提交作业交一份评测集表格。

合格样本真实且有标准。
优秀覆盖边界和失败样本。
没通过只凭主观体验说好用。

02 1 天

定义质量、成本和延迟指标

本步 3 个知识点

学习目标

能同时评估效果、费用和用户体验。

先记这一句话

AI 应用不是答对就行，还要快、稳、便宜。

知识点清单与业务判断 先会用，再理解

1. 正确性

知识点讲解回答是否符合事实、规则和任务要求。

知识点详解

核心定义与工作原理

核心概念「正确性」：回答是否符合事实、规则和任务要求。

放到本步里理解这一点属于「定义质量、成本和延迟指标」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，正确性才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“回答是否符合事实、规则和任务要求。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板，包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结：本模块的核心是用证据管理 AI，而不是用主观体验判断 AI。对「正确性」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

不同任务要有不同评分维度。

2. 成本

知识点讲解token、调用次数、检索和工具调用都会产生费用。

知识点详解

核心定义与工作原理

核心概念「成本」：token、调用次数、检索和工具调用都会产生费用。

放到本步里理解这一点属于「定义质量、成本和延迟指标」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，成本才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“token、调用次数、检索和工具调用都会产生费用。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板，包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结：本模块的核心是用证据管理 AI，而不是用主观体验判断 AI。对「成本」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

要算单次成本和月度规模成本。

3. 延迟

知识点讲解用户等待时间影响采用率。

知识点详解

核心定义与工作原理

核心概念「延迟」：用户等待时间影响采用率。

放到本步里理解这一点属于「定义质量、成本和延迟指标」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，延迟才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“用户等待时间影响采用率。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板，包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结：本模块的核心是用证据管理 AI，而不是用主观体验判断 AI。对「延迟」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

长流程要设计进度提示或异步处理。

学习产出

一份 AI 应用评测报告

10 分钟练习

为一个 AI 应用列 5 个质量指标和 3 个成本指标。

老师怎么判断你学会了

提交作业交一张指标表。

合格能同时看质量、成本、延迟。
优秀能写出上线门槛。
没通过只看模型回答是否漂亮。

03 1 天

日志、失败样本与迭代闭环

本步 3 个知识点

学习目标

能从失败中持续提升系统。

先记这一句话

失败样本不是尴尬记录，而是下一版路线图。

知识点清单与业务判断 先会用，再理解

1. 日志

知识点讲解记录输入、输出、检索片段、工具调用和错误。

知识点详解

核心定义与工作原理

核心概念「日志」：记录输入、输出、检索片段、工具调用和错误。

放到本步里理解这一点属于「日志、失败样本与迭代闭环」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，日志才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“记录输入、输出、检索片段、工具调用和错误。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板，包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结：本模块的核心是用证据管理 AI，而不是用主观体验判断 AI。对「日志」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

日志要脱敏，不能泄露隐私。

2. 失败分类

知识点讲解把失败分成检索错、理解错、格式错、工具错等。

知识点详解

核心定义与工作原理

核心概念「失败分类」：把失败分成检索错、理解错、格式错、工具错等。

放到本步里理解这一点属于「日志、失败样本与迭代闭环」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，失败分类才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“把失败分成检索错、理解错、格式错、工具错等。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板，包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结：本模块的核心是用证据管理 AI，而不是用主观体验判断 AI。对「失败分类」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

分类后才能对症优化。

3. 版本记录

知识点讲解记录每次 prompt、模型、检索策略变化。

知识点详解

核心定义与工作原理

核心概念「版本记录」：记录每次 prompt、模型、检索策略变化。

放到本步里理解这一点属于「日志、失败样本与迭代闭环」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，版本记录才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“记录每次 prompt、模型、检索策略变化。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板，包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结：本模块的核心是用证据管理 AI，而不是用主观体验判断 AI。对「版本记录」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

没有版本记录就无法复盘。

学习产出

一份 AI 应用评测报告

10 分钟练习

把 10 个失败案例分成类型，并写改进动作。

老师怎么判断你学会了

提交作业交一份失败样本复盘表。

合格能分类失败原因。
优秀能关联版本变化和指标变化。
没通过失败后只调一句 prompt。

04 1 天

成本优化与上线门槛

本步 3 个知识点

学习目标

能让 AI 应用从试点走向稳定使用。

先记这一句话

优化不是一味省钱，而是在效果、成本和风险之间找平衡。

知识点清单与业务判断 先会用，再理解

1. 模型选择

知识点讲解不同模型成本、速度和能力不同。

知识点详解

核心定义与工作原理

核心概念「模型选择」：不同模型成本、速度和能力不同。

放到本步里理解这一点属于「成本优化与上线门槛」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，模型选择才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“不同模型成本、速度和能力不同。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板，包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结：本模块的核心是用证据管理 AI，而不是用主观体验判断 AI。对「模型选择」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

简单任务不一定需要最贵模型。

2. 缓存与批处理

知识点讲解重复问题可缓存，离线任务可批处理。

知识点详解

核心定义与工作原理

核心概念「缓存与批处理」：重复问题可缓存，离线任务可批处理。

放到本步里理解这一点属于「成本优化与上线门槛」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，缓存与批处理才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“重复问题可缓存，离线任务可批处理。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板，包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结：本模块的核心是用证据管理 AI，而不是用主观体验判断 AI。对「缓存与批处理」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

高频场景优先优化。

3. 上线门槛

知识点讲解上线前要定义质量、成本、延迟、失败率门槛。

知识点详解

核心定义与工作原理

核心概念「上线门槛」：上线前要定义质量、成本、延迟、失败率门槛。

放到本步里理解这一点属于「成本优化与上线门槛」里的基础判断单元。你学习它，不是为了背术语，而是为了在真实项目里知道该问什么、看什么证据、用什么方式验证。

业务判断方法与适用边界

先问三个问题：第一，这个概念对应的业务对象是什么？第二，当前流程里有没有数据、规则或样本能支撑判断？第三，判断错了会带来什么成本？

什么时候该用：当业务目标清楚、输入材料可获得、输出结果能被检查时，上线门槛才能变成可落地的 AI 能力。
什么时候要谨慎：边界要看样本是否真实、指标是否贴近业务、日志是否完整、成本和延迟是否可接受。
怎么证明学会：你能用自己的业务举 1 个正例和 1 个反例，并说明为什么这个场景适合或不适合使用它。

常见误区与落地产物

容易踩坑只记住“上线前要定义质量、成本、延迟、失败率门槛。”，但没有把它翻译成业务判断标准。真正有用的学习，是能把概念落到数据、流程、指标、风险和责任人上。

学完要产出一份评测与运营看板，包含样本集、指标、失败分类、版本记录、成本和延迟。

一句话总结：本模块的核心是用证据管理 AI，而不是用主观体验判断 AI。对「上线门槛」来说，最低要求是：能讲清它解决什么问题、依赖什么条件、不能覆盖什么风险。

业务判断方法

门槛让团队敢用，也知道何时回滚。

学习产出

一份 AI 应用评测报告

10 分钟练习

设计一个 AI 应用的上线门槛和成本优化方案。

老师怎么判断你学会了

提交作业交一份上线评审页。

合格能写出质量、成本、延迟门槛。
优秀能提出至少 2 个成本优化动作。
没通过Demo 能跑就上线。

评测、LLMOps 与成本优化

老师带学方式

本模块学习步骤

建立评测集

1. 真实样本

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

2. 标准答案

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

3. 样本分层

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

定义质量、成本和延迟指标

1. 正确性

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

2. 成本

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

3. 延迟

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

日志、失败样本与迭代闭环

1. 日志

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

2. 失败分类

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

3. 版本记录

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

成本优化与上线门槛

1. 模型选择

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

2. 缓存与批处理

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物

3. 上线门槛

核心定义与工作原理

业务判断方法与适用边界

常见误区与落地产物