大模型微调后的评估指标

标签：模型指标 | 发表时间：2025-03-12 10:08 | 作者：paulwong

出处：http://www.blogjava.net/

大模型微调后的评估指标是衡量模型性能的关键，通常根据任务类型和具体需求选择不同的评估指标。以下是一些常见的评估指标及其适用场景：

1. 分类任务

准确率（Accuracy）：预测正确的样本占总样本的比例。
- 适用场景：类别分布均衡的任务。
精确率（Precision）：预测为正类的样本中，实际为正类的比例。
- 适用场景：关注减少假阳性（False Positive）的任务。
召回率（Recall）：实际为正类的样本中，预测为正类的比例。
- 适用场景：关注减少假阴性（False Negative）的任务。
F1分数（F1 Score）：精确率和召回率的调和平均值。
- 适用场景：类别不平衡或需要平衡精确率和召回率的任务。
ROC-AUC：ROC曲线下的面积，衡量模型区分正负类的能力。
- 适用场景：二分类任务，尤其是类别不平衡的情况。

2. 回归任务

均方误差（MSE, Mean Squared Error）：预测值与真实值之差的平方的平均值。
- 适用场景：对误差较大的样本惩罚更重的任务。
均方根误差（RMSE, Root Mean Squared Error）：MSE的平方根。
- 适用场景：与MSE类似，但更接近原始数据尺度。
平均绝对误差（MAE, Mean Absolute Error）：预测值与真实值之差的绝对值的平均值。
- 适用场景：对异常值不敏感的任务。
R²（决定系数）：模型解释目标变量方差的比例。
- 适用场景：评估模型拟合优度。

3. 生成任务

BLEU（Bilingual Evaluation Understudy）：衡量生成文本与参考文本的n-gram重叠程度。
- 适用场景：机器翻译、文本生成任务。
ROUGE（Recall-Oriented Understudy for Gisting Evaluation）：衡量生成文本与参考文本的重叠程度，侧重于召回率。
- 适用场景：文本摘要、生成任务。
METEOR：综合考虑精确率、召回率和词序的评估指标。
- 适用场景：机器翻译、文本生成任务。
Perplexity（困惑度）：衡量模型预测概率分布的不确定性。
- 适用场景：语言模型评估。

4. 多标签任务

Hamming Loss：预测错误的标签比例。
- 适用场景：多标签分类任务。
Jaccard Similarity：预测标签与真实标签的交集与并集之比。
- 适用场景：多标签分类任务。

5. 排序任务

NDCG（Normalized Discounted Cumulative Gain）：衡量排序结果的相关性。
- 适用场景：推荐系统、信息检索。
MAP（Mean Average Precision）：平均精确率的均值。
- 适用场景：信息检索、推荐系统。

6. 其他指标

训练时间：模型微调所需的时间。
推理速度：模型生成结果的速度。
资源消耗：模型运行所需的计算资源（如GPU内存、CPU使用率）。
鲁棒性：模型对噪声、异常值或对抗样本的抵抗能力。

7. 领域特定指标

医学领域：敏感性（Sensitivity）、特异性（Specificity）、AUC-ROC。
金融领域：收益曲线、夏普比率（Sharpe Ratio）。
计算机视觉：mAP（mean Average Precision）、IoU（Intersection over Union）。

8. 人类评估

人工评分：通过人工评估生成结果的质量（如流畅性、相关性、准确性）。
用户满意度：通过用户反馈评估模型的实际效果。

9. 模型对比

基线对比：与未微调的模型或基线模型进行性能对比。
消融实验：评估微调过程中不同组件（如数据、超参数）对性能的影响。

10. 综合评估

多指标综合：根据任务需求，结合多个指标进行综合评估。
任务特定指标：针对特定任务设计自定义指标。

在实际应用中，选择合适的评估指标需要结合任务目标、数据特点和业务需求，同时注意避免单一指标的局限性。

paulwong 2025-03-12 10:08 发表评论

大模型微调后的评估指标

- - BlogJava-首页技术区

大模型微调后的评估指标是衡量模型性能的关键，通常根据任务类型和具体需求选择不同的评估指标. 以下是一些常见的评估指标及其适用场景：. 准确率（Accuracy）：预测正确的样本占总样本的比例. 适用场景：类别分布均衡的任务. 精确率（Precision）：预测为正类的样本中，实际为正类的比例. 适用场景：关注减少假阳性（False Positive）的任务.

机器学习之类别不平衡问题：模型的评价指标

- - IT瘾-dev

本系列文章主要介绍机器学习中类别不平衡问题的处理，在实际应用中类别不平衡问题是非常常见的，文章主要包括以下部分. (2).不平衡问题的常用指标. (3).从数据集角度处理不平衡问题. (4).从算法角度处理不平衡问题. 本次文章主要是第一部分模型的评价指标，如果对模型的评价指标不了解，那么后续模型的好坏也无从谈起.

模型制作

- 小鱼儿 - 非正常人类研究中心 – Mtime时光网

1.材料：一大袋的一次性筷子（花了60块钱）；5支502胶水；5张粗砂纸；记号笔一只；锋利的美工刀片若干，破剪刀一把. 就是这种屌毛筷子，质量也太他妈的差了点，80%都是弯的 . 随便提一下：我的脚丫子还是蛮性感滴 . 开始动工了!! 先做门框跟房子的底架. 3.不好意思，忘了交代一下了，我是先画图纸的，看到那张纸了没有.

MapReduce编程模型

- - CSDN博客云计算推荐文章

MapReduce是一个Google发明的编程模型，也是一个处理和生成超大规模数据集的算法模型的相关实现. 用户首先创建一个Map函数处理一个基于对的数据集合，输出的中间结果基于对的数据集合，然后再创建一个Reduce函数用来合并所有的具有相同中间Key值的中间Value值.

关于BOM模型

- - CSDN博客编程语言推荐文章

当我们使用浏览器打开一个网页程序时，那么，js系统会自动创建对象，首先创建浏览器对象window,然后再为window对象创建它的子级对象，最后形成一个树状模型，这个就是BOM模型. BOM定义了JavaScript可以进行操作的浏览器的各个功能部件的接口. BOM 主要处理浏览器窗口和框架，不过通常浏览器特定的 JavaScript 扩展都被看做 BOM 的一部分.

linux 系统性能指标

- - 非技术 - ITeye博客

近段时间，再忙着找实习，经常被问到的，关于linux系统性能的指标，比如对于一台linux机器来说，怎么监控它的CPU，内存，负载等情况；怎样算高负载，具体的依据是什么. 等等这类问题，下面就好好总结一下这方面知识吧~. 由于能力有限，可能总结的不是很全面，不是很正确，有错漏的，欢迎大家帮忙指出，谢谢.

web性能测试指标

- - 研发管理 - ITeye博客

Web性能测试的部分概况一般来说，一个Web请求的处理包括以下步骤：. （2）web server接受到请求，进行处理；. （3）web server向DB获取数据；. （4）webserver生成用户的object(页面)，返回给用户. 给客户发送请求开始到最后一个字节的时间称为响应时间（第三步不包括在每次请求处理中）.

redis监控指标 - 简书

- -

Redis Server数据采集. 二、Redis Server监控数据采集. redis存活监控 (redis_alive):redis本地监控agent使用ping，如果指定时间返回PONG表示存活，否则redis不能响应请求，可能阻塞或死亡. 当返回值不为1时，redis挂了，告警. 连接个数 (connected_clients)：客户端连接个数，如果连接数过高，影响redis吞吐量.

用户画像TGI指标

- - 标点符

对于TGI指数，百科是这样解释的——TGI指数，全称Target Group Index，可以反映目标群体在特定研究范围内强势或者弱势. TGI指数计算公式 = 目标群体中具有某一特征的群体所占比例 / 总体中具有相同特征的群体所占比例 * 标准数100. 举个例子，假设一家外语学校里面有家烧烤店，每天晚上男生和女生顾客都是50%，你觉得男生还是女生更倾向于光顾这个烧烤店呢.

对象的消息模型

- loudly - 酷壳 - CoolShell.cn

[ ———— 感谢 Todd 同学投递本文，原文链接 ———— ]. 话题从下面这段C++程序说起，你认为它可以顺利执行吗. 试试的确可以顺利运行输出hello world，奇怪吗. 其实并不奇怪，根据C++对象模型，类的非虚方法并不会存在于对象内存布局中，实际上编译器是把Hello方法转化成了类似这样的全局函数：.

大模型微调后的评估指标

1. 分类任务

2. 回归任务

3. 生成任务

4. 多标签任务

5. 排序任务

6. 其他指标

7. 领域特定指标

8. 人类评估

9. 模型对比

10. 综合评估

相关 [模型指标] 推荐：

大模型微调后的评估指标

机器学习之类别不平衡问题：模型的评价指标

模型制作

MapReduce编程模型

关于BOM模型

linux 系统性能指标

web性能测试指标

redis监控指标 - 简书

用户画像TGI指标

对象的消息模型

相关文章

订阅

大模型微调后的评估指标

1. 分类任务

2. 回归任务

3. 生成任务

4. 多标签任务

5. 排序任务

6. 其他指标

7. 领域特定指标

8. 人类评估

9. 模型对比

10. 综合评估

相关 [模型 指标] 推荐：

相关文章

订阅

相关 [模型指标] 推荐：