首页 » 该数据集包含多个模

该数据集包含多个模

Rate this post

 

研究人员对一系列 300 个问题(称为挑战 300 数据集)进行了注释,对来自多个 qa 模型的答案进行了评分,以研究它们何时成功以及何时失败。

我们来看一个具体的例子。假设有这样一个问题:“如何才能改变一颗小行星的轨道,让它直接撞击地球?”

型的输出,每个模型的评分为 0 或 1,具体取决于人工注释者对答案的判断是否正确。例如,gpt3-davinci 和 macaw-11b 的答案为:

改变小行星轨道最有效的

方法是用航天器将其稍微推离轨道。这可以通过用航天 手机号数据库列表 器推动小行星来实现。—— gpt3-davinci 的回答 1

“将航天飞机发射到绕其运行的轨道上” – macaw-11b 的第 2 个回答

注释者对 gpt3-davinci 的答案给予了充分的评价(100%),而 macaw-11b 则没有获得任何评价(0%)。

通过对大量问题的模型答案进行标注,gpt3-davinci 的平均得分为 65%,macaw-11b 的平均得分为 75%。研究结论:macaw-11b 在回答常识性问题方面优于 gpt3-davinci。

研究完成后,人工注释的问题就会出现。

不可避免地,一个新的 qa 模型(称之为 shiny-new-qa)会出现,研究人员希望将其与之前的模型进行比较,以了解它是否更好,以及如果更好,进步多少。有两种选择:研究扩展,即通过在原始输入上标记新的模型输出来扩展原始研究;或者从头开始进行研究。这两种选择都存在 电子邮件线索带领 局限性,因为通常不可能招募原始研究的注释者,这降低了在扩展研究时进行公平且可重复的比较的可能性。选择创建新的研究会放弃之前的注释工作,研究人员需要花费高昂的成本来开展一项新研究,仅仅是为了评估一个模型。

作为人工评估的替

代,基于参考的自动评估是评估 nlg 模型的一种流行方法。

“如果可以自动化,为什么还需要手工劳动呢?”

自动评估需要一次性成本,用于为一组保留的输入收集黄金标准输出(或参考)。然后,通过测量输出与参 是因为它足以让这个问题变得有趣 考的相似程度来评估现有和未来的模型。准确评估文本相似度是一个棘手的课题,但方法主要分为两类:基于模型输出与参考之间词汇重叠度的 n-gram 重叠度测量(bleu、rouge 等)和基于神经网络的测量(bertscore 等),其中训练有素的神经网络评估相似度。基于参考的评估适用于偏差空间有限的 nlg 任务,例如翻译,其中与单个参考的相似度足以评估质量。然而,许多 nlg 任务(例如摘要、对话响应生成等等)都是开放式的,适合单参考比较。

滚动至顶部