OpenCampass大模型测评(大模型实战训练营第六节笔记和作业)

OpenCampass大模型测评(大模型实战训练营第六节笔记和作业)本文探讨了大模型测评的重要性和广泛性 涉及评测任务的多样性 如主观和客观题 提示词工程 以及 OpenCampass 框架

1. 课程笔记

- 评测的重要性

大模型的测评是非常重要的,对于普通用户来说,测评能够让我们更好的了解模型的特色能力和实际效果。对于开发者而言,测评能够让我们监控模型能力的变化,从而指导优化模型生产。对于管理机构而言,测评能够减少大模型带来的社会风险。对于产业界来说,测评可以找到最适合的产业模型。那InternLM其实也是经过不断的测评调整才能达到如此好的效果。

d2c14a8301644c9bb9a99984fe1673a9.png

 

- 评测的任务

包括传统NLP的内容,那大模型所有评测的其实会更多,所有的能力都是可以进行评测的。

a250d8a5508d4d4ebc5a849fadc0c674.png

 - 评测

包括有主观题和客观题,大部分是客观题,因为比较好统计。

主要就是提出一个问题,然后看大模型的回答中是否有其中的内容,假如出现了就认为是答对了。

 

主观评测其实就是让人来判断大模型的回复是否是好的。当然除了人工以外,还能调用一些能力比较强的模型,比如说GPT4来判断的话也是很ok的。

 

除了主观题和客观题, 其实还有通过提示词工程来进行测评。就是说对于同一道题目,假如我换一个提示词的话,模型就回答不上来,那么也代表模型的鲁棒性很差。

 

- 常见的框架

7ed94e8314d24180b86e4f01c85defad.png

- OpenCampass的框架 

学科、语言、知识、理解、推理、安全等等

8dfa155fed594f1e8dffb16189085219.png

- 整体平台框架

1e1e6531976c46cbad8324996176b597.png 

同时支持大量的模型

- 评测流水线测试

我们可以选择的模型包括自己的模型、Huggingface上的开源模型以及API接入的模型。

那评测的数据集我们不仅仅可以用已有的数据集,还可以把自己的评测数据集也放上去。

那在评测过程中,OpenCompass也提供了一些优化的方法,比如说并行处理等方式。

在评测完,也将输出多种的类型和内容。

285cf222ccef4eaa9fbbbdf6bb5ad1f9.png 

 除此之外还有一些多模态、医疗、法律等评测指标。

- 大模型评测领域的挑战

1. 缺少高质量中文评测集

2. 难以准确提取答案

3. 能力维度不足

4. 测试集混入训练集(造成数据污染,结果不准确- 开发测试数据污染工具c)

5. 测试标准各异

6. 人工测试成本高昂

 

 

2. 做作业展示

InternLM-Chat-7B测评结果。

26113eadae5c40d6a2491242699142c4.png

 

今天的文章 OpenCampass大模型测评(大模型实战训练营第六节笔记和作业)分享到此就结束了,感谢您的阅读。
编程小号
上一篇 2024-12-13 07:51
下一篇 2024-12-13 07:46

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/85489.html