OpenCampass大模型测评（大模型实战训练营第六节笔记和作业）

编程基础 • 2024-12-13 07:46 • 阅读 107

1. 课程笔记

- 评测的重要性

大模型的测评是非常重要的，对于普通用户来说，测评能够让我们更好的了解模型的特色能力和实际效果。对于开发者而言，测评能够让我们监控模型能力的变化，从而指导优化模型生产。对于管理机构而言，测评能够减少大模型带来的社会风险。对于产业界来说，测评可以找到最适合的产业模型。那InternLM其实也是经过不断的测评调整才能达到如此好的效果。

- 评测的任务

包括传统NLP的内容，那大模型所有评测的其实会更多，所有的能力都是可以进行评测的。

- 评测

包括有主观题和客观题，大部分是客观题，因为比较好统计。

主要就是提出一个问题，然后看大模型的回答中是否有其中的内容，假如出现了就认为是答对了。

主观评测其实就是让人来判断大模型的回复是否是好的。当然除了人工以外，还能调用一些能力比较强的模型，比如说GPT4来判断的话也是很ok的。

除了主观题和客观题，其实还有通过提示词工程来进行测评。就是说对于同一道题目，假如我换一个提示词的话，模型就回答不上来，那么也代表模型的鲁棒性很差。

- 常见的框架

- OpenCampass的框架

学科、语言、知识、理解、推理、安全等等

- 整体平台框架

同时支持大量的模型

- 评测流水线测试

我们可以选择的模型包括自己的模型、Huggingface上的开源模型以及API接入的模型。

那评测的数据集我们不仅仅可以用已有的数据集，还可以把自己的评测数据集也放上去。

那在评测过程中，OpenCompass也提供了一些优化的方法，比如说并行处理等方式。

在评测完，也将输出多种的类型和内容。

除此之外还有一些多模态、医疗、法律等评测指标。

- 大模型评测领域的挑战

1. 缺少高质量中文评测集

2. 难以准确提取答案

3. 能力维度不足

4. 测试集混入训练集（造成数据污染，结果不准确- 开发测试数据污染工具c）

5. 测试标准各异

6. 人工测试成本高昂

2. 做作业展示

InternLM-Chat-7B测评结果。

今天的文章 OpenCampass大模型测评（大模型实战训练营第六节笔记和作业）分享到此就结束了，感谢您的阅读。

OpenCampass大模型测评（大模型实战训练营第六节笔记和作业）

相关推荐