《自然语言处理系统功能有效性评估指标计算方法、数据集、评价规范.docx》由会员分享,可在线阅读,更多相关《自然语言处理系统功能有效性评估指标计算方法、数据集、评价规范.docx(8页珍藏版)》请在第壹文秘上搜索。
1、附录A(规范性)自然语言处理系统功能有效性评估指标计算方法A.1自然语言理解功能有效性评估指标计算方法自然语言理解功能有效性的评估应包括但不限于下列内容:1)混淆矩阵:在二分类任务中,混淆矩阵是通过样本的采集和模型分类器的输出结果形成的2X2的矩阵,其中,左上角为真阳样本数(真实值为真,模型预测值为真,TP),左下角为假阳样本数(真实值为假,模型预测值为真,FP,统计学上的第二类错误),右上角为假阴样本数(真实值为真,模型预测值为假,FN,统计学上的第一类错误),右下角为真阴样本数(真实值为假,模型预测值为假,TN),如表A.1。表A.1二分类混淆矩阵真实值预测值PositiveXegativ
2、ePositive真阳TP假阴FNNegative假阳FP真阴TN在多分类任务中,混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。第i行第j列的数值表示第i类数据被预测为第j类的数目。2)3)4)5)6)7)8)准确率:对于给定的数据集,正确分类的样本数占全部样本数的比率。精确率:9)准确率TP+TNTP+FP+TN+FN 100%对于给定的数据集,被预测为正样本的集合中正样本的比率。召回率:对于给定的数据集,精确率=芳 X100%被正确预测的正样本占全部正样本的比率召回率=遥100%真阴率:
3、对于给定的数据集,预测正确的负例样本占所有实际为负例样本的比率。真阴率=品X100%错误接受率:对于给定的数据集,预测错误的负例样本占所有实际为负例样本的比率。错误接受率=高三XlOo%FP+TN错误拒绝率:对于给定的数据集,预测错误的正例样本占所有实际为正例样本的比率。错误拒绝率=磊XloO%TP+FNFl测度:精确率和召回率的调和平均值。Fl测度=2精度X召回率精度+召回率(4)(6)多分类任务下的指标计算:在n分类任务中,根据表2的多分类混淆矩阵得到了所有种类的预测值分布情况,并基于这些数据计算多分类任务的准确率、精确率、召回率、Fl测度等指标,在此基础上,进一步采用宏平均和微平均来评价
4、整个多分类任务的功能有效性。宏平均:对每一个类别分别计算统计指标值,即把每个类别视作二分类情况进行统计,然后再对所有类的结果取算术平均值。如:宏准确率=1 nslTPj+TNiTPi + FPi+TNi+FNi 100%(8)微平均:把所有类别的真阳、真阴、假阳型类相加,计算类别预测的统计指标。如:微准确率一价+而+而+X 100%(9)10) ROC曲线:ROC的横轴是假正率,代表所有负样本中错误预测为正样本的概率。ROC的纵轴是召回率,代表所有正样本中预测正确的概率。每次选取一个不同的正负判定阈值,就可以得到一组假正率和召回率,即ROC曲线上的一点。将正负判定阈值从0到1取不同的值时,可以
5、得到一系列(假阳率,召回率)点。将这些点连接起来,就得到了ROC曲线。ROC曲线的对角线坐标对应于随机猜测,而坐标点(OJ)也即是左上角坐标对应理想模型。曲线越接近左上角代表模型的效果越好。ROC曲线如图A.1所示:OO000204060810False Posve Rite0 8 6 4 2 LQOOO图A.1ROC曲线11)AUC:即为ROC曲线下的面积,AUC越接近于1,分类性能越好。A.2自然语言生成功能有效性评估指标计算方法自然语言生成功能有效性的评估应包括但不限于下列内容:1)BLEU-N:假定人工给出的译文为reference,机器翻译给出的译文为Candidate,C表示Can
6、didate中的单个句子,N-gram指包含N个连续单词的短句,N一般取1至4,CoUnt(n-gram)表示C中n-gram的个数,Countciip(N-gram)表示C的某个N-gram在reference中的截断计数,即如果candidatc中有多个相同的N-gram,只计算一次COUntClip(N-gram)。BLEUNECECandidateSn-gramecCOUntCHP(N-gram)(0)cecandidatesn-gram,c,Count(N-gram,)2)编辑距离:定义IeVab(i,j)表示字符串a中前i个字符和字符串b中前j个字符的编辑距离,贝必与b的编辑距离可
7、由如下公式迭代计算得到,其表示字符a最少经过多少次编辑可以转换为b,这里一次编辑指插入一位字符、删除一位字符或是替换一位字符。max(i,j)mineva,b(i T,j) + 1leva,b(i,j - 1) + 1leVa,b(i - IJ - 1) + Iaiwbjotherwise(11)3) mAP:用C表示机器输出的答案集,A表示正确答案集,U表示所有测试用例,k表示每个案例生成 的答案集中的第k个被检索出的答案句子,In表示案例的正确答案的句子数,n表示被检索出的句子数(答 案集的大小),P(k)表示答案句的真实排名/模型给出的排名,rel(k)表示给出的排序k的句子是不是真实
8、的答案句。AveP(C,A)=k(P(k)rel(k)mAP =min(m,n) ueu AvePuU(12)(13)4) MRR:用Q表示评估集的问题总数,rank1表示对于第i个问题预测的答案集G中,第个正确答案 的序号,若其中不包含正确答案,则氤设置为。mrr=s=(14)5) ROUGE-N:假定人工给出的摘要为reference,机器给出的摘要为Candidate, S表示reference中 的句子,N-gram指包含n个连续单词的短句,CoUntmatCh(N - gram)表示n-gram同时在S与Candidate中出 现的次数,COUnt(N - gram)表示S中N-gr
9、am的总窥,ROGUE-N的计算与BLEU-N类似,区别在于它的分母 是计算reference中的M-gra,而BLEU的分母是计算Candidate中的WgranuROUGE _ N - ESereferenCen-grameSC。UntmMCh(n-gram) Sercference n-grameS Count(n-gram)(15)leva,b(i,j)6) ROUGE-L:参考摘要和机器摘要分别简记为S与C,LCS(C,S)表示C与S的最长公共子序列,B为个较大的参数。n _ LCS(C1S)RLCS -PLCS =LCS(C1S)Ien(C)ROUGE - N(1+P2)rlcsp
10、lcsRLCs +俨 PLCS(16)(17)(18)7) EM:与基本事实答案精确匹配的百分比,用T表示与答案精确匹配的预测数量,N表示测试用例总数。EM=JXlO0%(19)N8) JSA:对话状态中的(domain,slot,value)的准确率。JSA=IX100%(20)N式中:c(domain,slot,value)均正确的样本个数;N总样本数。9) DialogueactFl:对话状态中的(Conununicativefunction,slot-valuepair)的Fl测度。DialogueactFl=2X(21)式中:DP(communicativefunction,slot
11、-valuepair)的精确率;DR(communicativefunction,slot-valuepair)的召回率。10) TFR:对话系统在N次测试中完成任务的次数比率。TFR=IXlo0%(22)NC一一完成任务的次数;N一一总样本数。附录B(资料性)数据集1) THUCNews(话题分类,中文)来源:httpthuctc.thunlp.org数据量:训练集(500,010),开发集(50,010),测试集(10,000)注:使用了清华大学THUCTC。示例:(Label:体育Sentence:黄蜂VS湖人首发:科比带伤战保罗加索尔救赎之战新浪体育讯北京时间4月27日,NBA季后赛首
12、轮洛杉矶湖人主场迎战新奥尔良黄蜂,此前的比赛中,双方战成2-2平,因此本场比赛对于两支球队来说都非常重要,赛前双方也公布了首发阵容:湖人队:费舍尔、科比、阿泰斯特、加索尔、拜纳姆黄蜂队:保罗、贝里内利、阿里扎、兰德里、奥卡福新浪NBA官方微博新浪NBA湖人新闻动态微博新浪NBA专题黄蜂VS湖人图文直播室(新浪体育)2) RAFT(话题分类,英文)来源:https:/huggingface.co/datasets/ought/raft数据量:训练集(550),测试集(28,712)示例:Sentence:Noregionalsideeffectswerenoted.”ID:01.abel:2(n
13、otADE-related)3) ChnSentiCorp(情感分析,中文)来源:https:/ieee-dataport.orgopen-access/Chnsenticorp数据量:积极(3,000),消极(3,000)注1:该数据集未对训练/验证/测试集作分割,建议在模型未采用其训练的情况下全部将其作为测试集。注2:该数据集包含多个子集,此处数据量为其包含6000条数据的子集。示例:Sentence:房间每天都有免费水果赠送,这一点比较好.还有好多书籍和摄影著作摆在房间里,据说都是合庆董事长自己编写拍摄的,太有才了.1.abel:pos)4) SST-2(情感分析,英文)米源:https
14、:/nlp.Stanford,edusentiment/index,html数据量:训练集(67,349),开发集(872),测试集(1,819)示例:Sentence:wanttowatchifyouonlyhadaweektolive.1.abel:1)5) ChineseLiterature-NER-RE-Dataset(关系抽取,中文)来源:注2:该数据集包含命名实体识别与关系抽取任务,此处仅关注关系抽取部分。示例:浪漫的涪江水,水的温柔,水的明净,水的凫丽,是在水的流淌之中实现的。涪江水滋润造就了两岸的形态,茂密的森林,肥沃的田园、土地,这都是你编制的。T8Location-Nomina14245两岸的T9Thing-Nominal4863茂密的森林,肥沃的田园、土地RlLocatedArgl:T9Arg2:T86) DocRED(关系抽取,英文)来源:https:/示例:Sentence:1DwightTilIeryisanAmericanpoliticianoftheDemoc