《基于序列标注的合同智能审核应用实践.docx》由会员分享,可在线阅读,更多相关《基于序列标注的合同智能审核应用实践.docx(13页珍藏版)》请在第壹文秘上搜索。
1、基于序列标注的合同智能审核应用实践“十四五”规划和2035年远景目标纲要提出要“加快数字化发展,建设数字中国“,将数字化战略地位和建设内容提到了前所未有的高度。数字化经济成为社会经济发展的重要驱动力,也是银行业转型发展的新一轮机遇,推动银行业数字化转型升级和金融科技水平提升,重点在于加强科技创新与传统业务深度融合。银行业金融活动过程中产生了海量的信息资源,其中相当一部分是难以直接利用的非结构化文本数据。长期以来,对这些数据的审核与筛查主要依靠人工操作,但这项工作对审核人员的要求比较高、费时费力、效率低下。华夏银行积极开展数字科技转型升级,推进人工智能技术在金融业务中的广泛应用,创新使用自然语言
2、处理(NaturalLanguageProcessing,简称NLP)技术自动识别文档中的敏感信息,包括特殊名词、风险词汇和短句子等关键信息,达到提示潜在风险,高效应对审阅、查找、校对等复杂工作的目标,赋能经营发展。本文将以合同审核业务为例,介绍利用序列标注技术开展关键词识别和提取的应用实践。关键技术在整个实践过程中,我们特别注意关键技术的梳理、总结和提炼,包括基本概念、主流方法、基本原理等。这些对于应用实践快速落地和场景进一步拓展具有重要的指导意义。L序列标注的概念序列标注就是给定一个序列,对序列中的每一个元素打上一个标签,是NLP中一个重要的任务,它包括分词、词性标注、命名实体识别等。其中
3、,命名实体识别(NamedEntityRecognition,简称NER),是指从文本数据中识别出具有特定意义的实体,如人名、地名、公司名等。命名实体识别是信息抽取、智能问答、机器翻译等应用的重要技术支撑。2 .基于规则和统计机器学习的方法早期的NER任务大多采用基于规则和统计机器学习的方法。基于规则的方法利用手工编写的规则,将文本与规则进行匹配来识别出命名实体。其优点是规则模板的构建相对简单、容易实现、准确率也较高。其缺点是严重依赖于专家知识,人工编写规则工作量太大,且人工构建模板不可能包含所有的识别规则,模型的可移植性较差。统计机器学习方法将NER看作序列标注问题,利用机器学习的相关算法训
4、练模型,对句子的各个位置进行标注,常用的算法有SVM、HMM、CRF等。其优点是模型计算复杂度较低、泛化性更好,缺点是特征工程的好坏将直接影响模型效果。3 .基于词嵌入和深度学习的方法近年来,随着词嵌入(WOrdEmbedding)和深度学习技术的兴起,不少学者将深度神经网络(RNN、LSTM.GRU等)应用到序列标注任务中,在多种公开大规模的数据集上都取得了不错的实验效果。该方法以词向量作为系统输入,通过神经网络自动提取特征,预测每个位置的标签。其优点是模型可以自动获取特征无需人工干预,缺点是需要大量标注训练数据、对每个位置标签的预测过程是独立的,缺少上下文信息可能预测出非法的标签序列。4
5、.BERT+BI-LSTM+CRF公开的NER工具有很多,包括NLTK、Spacy、LTP等等,它们都有内置预先训练好的模型,可以识别出句子中人名、地名等基础实体,像Spacy工具还能通过加载自己数据训练新的NER模型,使用上非常便捷,但模型精度较差,而且不能满足用户个性化需求。本文使用预训练语言模型、深度神经网络和统计机器学习相结合的模型BERT+BI-LSTM+CRF解决序列标注问题。模型共包含3层,每一层各有其特点和优势,结构如图1所示。BERT层将输入句子中的每个单元(字或词)转换为计算机能处理的数值型向量格式。BERT预训练语言模型采用双向Transformer结构进行特征抽取,使用
6、大规模语料在MLM(MaskedLanguageModel)和NSP(NextSentencePrediction)两个任务中进行训练,计算词与这句话中所有词的相互关系,进而获取该词融合了上下文特征的动态表征,具有更好的语义表示能力。BI-LSTM层通过神经网络为每个输入单元预测对应的标签概率。LSTM是一种特殊的循环神经网络,能有效地解决长序列训练过程中的梯度消失和梯度爆炸问题,但是由于其网络结构是单向的,只考虑了上文信息而忽略了下文信息对模型的影响,因此可以再加入一个反向LSTM层,逆序获取下文信息构成一个双向长短期记忆网络(BidireCtiOnaILongshort-termmemor
7、y,简称BI-LSTM),Bl-LSTM模型可以充分学习当前字的上下文信息,从而更好地判断当前输入的标签概率。CRF层构建一个转移矩阵来表示标签从一个状态转移到另一个状态的概率,并选择计算得分最高的标签序列作为最佳答案。CRF是一种由无向图表示的联合概率分布模型,能在给定一组输入随机变量条件下求另一组输出随机变量的条件概率分布。CRF模型可以通过训练语料,学习到标签之间的约束规则,从而过滤掉很多无效的标签序列。比如,采用BK)标注法对句子进行标注时,句子的第一个标签只能是“B”或者“0”,不能是“I”;标签“只能出现在标签“B”之后,不能单独出现,也不能出现在其他标签后面。应用实践L数据标注训
8、练深度学习模型需要大量的标注数据,使用数据标注工具Doccano,将非结构化文本数据进行人工标注,但实际操作中人工标注效率低下、标注质量存在个体差异,极大影响模型训练效果。使用Bootstrap(自展法)方法,先人工标注一部分种子训练数据集,进行初步训练,然后用训练得到的种子模型预测新的数据。通过几轮训练迭代不断扩大数据集规模。数据标注过程中存在的主要问题及解决措施:(1)标注起始阶段,由于种子数据量较少,训练得到的种子模型预测效果较差,预测结果会有一定的错误率。如果盲目添加数据,可能导致错误样本过多,模型的错误随着迭代次数的增加而逐渐放大,形成“错误累积”,所以需要对每次迭代的预测结果进行人
9、工修正,确保训练数据质量。人工对预测结果中错误标注进行修正,将大大提高人工标注效率,并且随着模型精度提升,人工修正效率也会逐渐提高。(2)种子训练数据数量、每一次扩展的新数据量、总迭代次数的选择具有很强主观性,选择数字过大或过小都会极大影响数据扩展效率和模型效果。经过实验经验总结,得出效率较高的参考规则:种子数据数量W(100或总数据量的10%),每一次扩展新数据量W(100且模型效果略低于70%)或(200且模型效果大于70%),迭代总次数3(10或总数据量/100)o2 .模型训练实验中,使用IOOO份无标注招标合同文本数据,识别文本中“招标金额”“招标家数”“报名条件”“报名时间”“报名
10、地址报名邮箱”“投标时间”“投标地址开标时间”“开标地址”“咨询电话”共11个不同类别实体。采用上文的数据标注方式,首先人工标注100份种子训练数据样本,经过6轮迭代扩展最终完成所有数据标注。使用kashgari提供的框架搭建BERT+BI-LSTM+CRF模型,进行序列标注任务训练,识别文本中命名实体。每一次数据迭代及模型对应Fl值如图2所不O迭代次数图2数据迭代及训练过程3 .实验结果以精确率(用P表示)、召回率(用R表示),Fl-socre值作为评价指标,对11个不同类别实体进行序列标注实验,经过6次迭代训练,实验结果如表1所示。表1不同类别实体对应实验结果实体类别招标金额0.91170
11、.9068招标家数0.72540.7516报名条件0.73610.7681报名时间0.81250.8442报名地址0.76530.7444报名邮箱0.78320.7522投标时间0.85070.9661投标地址0.75250.8027开标时间0.88410.9242开标地址0.78640.7262咨询电话0.93220.9259Total0.83680.8488实体较长或实体上下文格式不固定都会增加模型识别难度,比如报名条件、报名地址的实体较长,招标家数上下文格式不固定,识别率仅达到75%左右。对于招标金额、投标时间、咨询电话等数字型实体具有较好的识别效果,达到90%以上。4 .应用效果基于B
12、ERT+BI-LSTM+CRF的序列标注模型取得了较好的实验效果,对11个不同类别命名实体整体识别率达到84.23%o用户仅需输入一份招标合同文本,模型将自动识别文本中关键信息并使用不同颜色突出显示,并抽取命名实体形成结构化表格数据,效果如图3所示,该模型能大幅提高用户对合同的审阅效率,具有广泛的应用推广价值。根据关于迸f加强财政部门和BS算单位资金存放营理的指导意见)W于ifif规范省级行政事:放实施细则(修订稿)1.F规定,决定开展公款存放招标工作,欢迎符合条件的银行机构参力暖标.一.项目非政府采购项目三、采购组织类型:自行采购委托代理(非政府采的项目)四、采购内容:序号名称内容期杀存放金
13、额1公款竞争性存五公款竞争性存及风险准备金及其他资金公款竞争性定朋存放.一个年度3公款竞争性存明:L本项目一年期住房公积金.风跄准备金及其他资金定期存放,通过公开招标确定3家M!中标银行承接上述服务.按各投标I以此类推.2.一个年度定期存款服务到期后,仍需柒存原中标银行的,可不玉新组组招投标,但需经采购人主任办公会议集体研究决定,目!一次.3.招标结果,适用一年,下半年网置资金按本次招标结果中标镣存放比例递行存放,第一名至第三名存放金额比例依次为50华人民共和国境内依法设立的银行机构(以下简际投标银行“),各投标银行不得或属于同一法人,并具备以下慕本条件:1.sI展及首活动,近3年内在经营活动
14、中无毒大违法违规记录;银行财务状况良好;纳入监管评级的银行,人民银行上年度综合评价应达到B级及C政府采购严於违法失信行为记录名单(以信用中国”网站WWW.Creditchinagwcm中国政府采购阿WWWeC杳论结果为准地址、售价:1.报名/发售时间:2021年3月12日起至2021年3月24日止报名时同,上午8:3071:30;下午14:0077:30(双。或者5-qqcmIMIett:3、标书售价:每Ir人民币500.00元,售后不退;七.的买招标文件时应复印件一份;3.代表人(负责人)身饰证明书原件一份、法人(负责人)授权委托书原件Tt经办人身份证算印件一份;4人民银F印件均需加盖公豆.
15、八、投标答媛时间及方式.投标人认为采购文件使自己的合法权益受更胺害的,可以自收到采网文件之日或者采购公告期采购代理机构的答卷不满意或者枭麴人.采购代理机而未在规定的时闾内作出答Ja的,可以在答复期满后十五个工作日内向有关监悟管理部i.采购网中“下或专区“内下载,质疑时供应商需在法定质疑期内一次性提出针炯一采购环节的质疑.提出质疑的供应商应当是参与所旗喇采购文件提出质疑的,应当在获取采购文件或者采购文件公告期限届漏N日起7个工作日内提出.质疑联系人寰系电话:2*22址:HB送期颊磔密封的投标文件不予受理.+-、httpjjgov.c共资源交易网Htp,tb.corr现公积金管理中心网http:bk+投标人的在职正式职工,并携带身份证、授权委任书等有效证明出席)2、本项目采用资格后审十五、联系方式:1、采购单位.1云湾加II2.采购代建加构喀询有限费任公司联系)炼电话:”2个人话住房公积金管理中4电话:051件信JI-010(掖名表).doc0.1KBP实体名称3结果一招标金额32183.00万元,1310.00万元,87