三种大模型评估方案
- 基准测试(benchmark)评估:
- 通过定义好的具体任务,制作出samples,通常包含原始数据和结果标签。将模型输出和标签结果对比得到评分,即metric(metric也是需要根据任务的特点来定义)
- 人类评估
- 个体手动的做一些评测结果,凭感觉去评价模型效果和差异,也称作vibes-checks
- 通过根据社区反馈来建立大规模的模型排行榜,进行评估,也称作arena,https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard就是一个广为人知的例子
- 让真人对照给定要求,严格的对模型输出结果进行打分。
- 模型评估
- 把输出结果交给另一个质量更高或者在特定任务上做过调优的模型,让模型来对结果进行打分
基准测试方法
通常是自动化的评测
过拟合问题
因为大家都在追求在公开基准上更好的结果,更好的排名,会有意无意的调整训练参数和数据集来最大化测试结果。这会导致模型在基准上有非常好的表现,但在其他泛化任务上表现不佳。
从这个角度上来说,基准测试中的数据就成了模型的“训练集”,而“测试集”就是更广泛的真实世界中的问题,这让模型在基准测试上出现了间接的”过拟合”
除了”间接过拟合“,还存在”直接过拟合“的情况,也就是说大模型的训练数据中出现了基准测试的数据,包括测试数据,因为不少测试数据本身也是公开的。虽然说有的时候是无意混进去的,毕竟现在数据量太大,不好准确判断是不是混入了某些测试数据。针对这个问题,有一些方法提出在数据中加入“金丝雀字符串”(canary string),或者对测试数据进行加密,承认这是缓解的办法,但不能根本上解决。
难以评估“能力”
能力不是具体的任务,我们不能以识别手写数字的方式来定义模型能力高低,在手写数字识别的榜单上,识别率是很容易被理解的,但以评估大模型“数学能力”的标准榜单GSM8K为例,这个数据库包含了很多实际要解决的高中数学问题,涉及的内容丰富,表面上是数学,但数学本身又和实际问题相关,比如说下面这个例子,大模型如果理解时间能力有问题,同样不能回答好这道理。(这可能不是一个很“好“的例子,但能说明问题。)遇到这种情况,我们大模型失败的情况,也无法解释到底是哪方面原因。
Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?
娜塔莉亚在四月份向48位朋友出售了发夹,然后在五月份售出了四月份数量一半的发夹。娜塔莉亚在四月和五月总共卖出了多少发夹?
还有一些大模型能力更难评估,比如说大模型写诗的能力。包括现在大模型通用能力越来越收关注,应该怎么评估通用能力也是一大挑战。
其他问题
- 在多项选择评估中,模型对选项位置非常敏感,存在固定的选择偏差。具体来说,它们倾向于选择特定的选项ID作为答案(例如,“选项A”)。而不是根据对问题的理解做出选择
- 怎么从大模型生成的答案中准确的抽取出最终结果,不同模型生成的结果并不是有统一格式的,即使目前有各种控制模型格式化输出的方法,也很难适配到多种模型,以及老的模型。模型的输出是多样的,但准确抽取模型结果并不容易。有时,模型回答正确了,但没有抽取出来也是不符合预期的。huggingface在这个问题上猜的坑可以看这篇文章:https://huggingface.co/blog/open-llm-leaderboard-drop
人类评估方法
偏向主观
无论是vibes-checks还是arena,都比较主观。经常会被以下情况误导
- 倾向于在主观的内容中寻找自己希望看到的东西
- 不同人的偏好不一样,包括不同的文化背景,教育背景等,人们更偏好那些符合自己观点或者意见的答案,而不是符合事实的答案
- 受第一印象的影响比较大
- 对答案的语气比较敏感,如果回答非常自信,标注者通常会认为内容比较可信,结果是正确的
但是,也有一些尝试突破这些限制的工作:
- 有一些尝试进行严谨的Vibes-checks评估,例如:https://huggingface.co/blog/wolfram/llm-comparison-test-llama-3
- 大量的评分在arena下,能一定程度上减少偏见和误导,比如说前面提到的lmsys
慢而且贵
这一条特指付费请人手工做标注的情况,不用过多解释相信大家都能理解。
付费手工标注的一个好处是你可以请专家一点的人来做,相对能避免一些主观性的问题。但还是太贵
模型评估方法
模型也有偏好
https://arxiv.org/abs/2404.13076的工作表明,模型作为自己的评估者时,更倾向于给自己输出的结果打高分 ,给其他模型输出打稍微低一点的分。

评估结果不稳定

和人类期望不同

Loading Comments...