<aside>
💡 在Lecture6中,主要讲了三个部分:大模型评测的意义,OpenCompass工具介绍和OpenCompass实战。
</aside>
一、为什么要进行模型的评测
<aside>
❓ 为什么要评测
</aside>
- LLM在不同场景中需要不同的评测方式。
- 为了避免对普通用户产生误导,我们需要一个公平的评测方法。
- 开发者可以通过评测了解模型的能力边界,并提升模型的质量。
- 在法律、医疗、社会安全等领域,我们需要一个好的评测方式来确定大模型是否适用于相关场景。

<aside>
❓
</aside>

- **大语言模型:**比如,知识,语言,理解,推理,长文本生成,Agent使用Tools的能力,情感认知,以及垂直领域的专业知识问答等领域。

<aside>
❓ 如何测评大语言模型
</aside>
- 基座模型:在评测的时候要加一些prompt instruct
- 对话模型:通过人类对话的方式进行评测。
评测分为客观评测和主观评测。
- 客观评测:通过正则表达式提取回答,统计正确率(问答、多选、判断等)。
- 主观测评:针对于创作类的题目,用模型来评价模型。比如用GPT4作为裁判,代替人类对模型做出评价。