基于序列标注的中医症状名识别技术研究.docx

资源描述

《基于序列标注的中医症状名识别技术研究.docx》由会员分享，可在线阅读，更多相关《基于序列标注的中医症状名识别技术研究.docx（6页珍藏版）》请在第壹文秘上搜索。

1、基于序列标注的中医症状名识别技术研究作者：魏尊强舒红平王亚强来源：山东工业技术2015年第08期摘要：传统中医学博大精深，随着计算机技术在医学领域应用的不断深入，大量中医临床记录得以保留，为中医学研究学习提供了有效途径，而症状名识别是中医临床记录研究的重要前提。中医症状名识别可以看作一般文本中命名实体识别技术在中医学领域的特殊应用。我们采用命名实体识别中序列标注技术对中医临床记录进行研究，并结合中医临床记录领域特点，进行序列标注策略改进。通过HMM算法在序列标注策略改进前后实验结果对比，改进后HMM算法在性能评价指标上优于未改进之前，说明根据中医临床记录特点进行的序列标注策略改进是有效的C关键

2、词：中医症状名；命名实体；识别1引言传统中医学博大精深，是我国历代中医工作者在无数临床诊断和不断摸索中得出的智慧结晶经过多年积累，大量中医临床记录得以保存，包含众多名老中医经验和诊疗方法。我们可以寻找一条发现中医诊断经验和规律的途径，帮助现代中医工作者更好认清疾病和临床诊断之间的关系，为患者提供更有效的治疗。近年来计算机相关技术发展迅速，人们在使用时产生了大量数据信息，这些信息关系到人们生活的方方面面C同时，人们对于计算机技术的使用要求逐步提高。正是在这些不断增加的数据信息及计算机使用要求的推动下，大数据相关技术应运而生，并取得迅猛发展。数据挖掘、机器学习等技术逐步应用到人们日常生活中2,帮助

3、我们从浩瀚的数据信息中发现隐藏在数据背后的知识和规律，发现数据之间的关联。鉴于此，如何从大量中医临床记录中寻找出诊断规律的研究就有了一个新的方向。我们通过对中医临床记录的研究发现，中医症状名识别是中医临床记录研究的重要前提，它可以看作是一般文本中命名实体识别技术在中医学领域的特殊应用。因此在本文以下内容中，将从命名实体识别技术的角度进行中医临床记录中症状名识别的研究。2命名实体识别技术2.1命名实体识别技术介绍命名实体的概念最初在MUC-6上提出。命名实体具有独立意义，常常作为一个整体出现在语句中，主要包括人、地名、机构名、专有名词等。命名实体识别是指识别文本中具有特定含义的实体3。命名实体识

4、别技术研究至今已有多年，成为自然语言处理领域的一项重要技术，并取得众多成果。命名实体识别技术的研究最初在英文文本中兴起的，中文文本中命名实体识别研究仍处于初级阶段。22命名实体识别的分类命名实体识别技术按照原理可以分为三类方法：基于词典的方法、基于规则的方法、基于序列标注的方法。基于词典的方法中主要有完全匹配和模糊匹配两种方式。完全匹配要求当前词与词典中的每个字符完全一致才能匹配。例如，当前词为“腹部疼痛”，词典中同样存在词“腹部疼痛才可以匹配C模糊匹配只需部分字符匹配即可。例如，若当前词为“腹部疼痛”，而字典中存在词“腹痛”才可认为两词是匹配的。基于规则的识别方法是在基于词典的方法基础上发展

5、而来，在识别时加入相关的词法、语法、语义规则，从而获取到更好识别效果。基于规则的方法曾在命名实体识别研究初期占有重要地位。在MUC命名实体评测时，几乎所有参加评测的系统都是基于规则的。基于序列标注的方法通过对命名实体概率值的使用，对含有相关命名实体的语料集进行训练，当某字段的概率值大于限定阈值时，该字段被确定为命名实体。基于序列标注的命名实体识别方法有很多种，包括隐马尔科夫模型(HMM).条件随机场(CRF)等。3中医症状名识别技术研究3.1 一般文本的序列标注策略由上文可知，中医临床记录中症状名识别可看作一般文本中命名实体识别技术在中医学领域的一个分支。在一般文本处理过程中，研究对象通常是字

6、符串形式的句子。语言不同，语言最小单位(简称“语素”)可能不同。例如，在中文中最小单位是字；而在英文中最小单位是单词。尽管如此，句子仍可看作由语素构成的序列。对一般文本中命名实体的识别可看作序列标注任务，即为句子中的每个语素标注具有特殊含义的符号，并且每个位置只能标注一个符号。这些特殊符号称为“标签例如，定义一组表示命名实体描述开始(Beginning、“B”)、中间(Intermediate,4T)和其它(OUtSide,“0”)等指示文本中命名实体特殊位置的标签。由此可知，一般文本中序列标注任务包括三个要素：(1)标注序列：一般情况下序列标注以句子作为一个处理单元。(2)标注单元：一般情况

7、下标注单元为词语。由于中文词语之间没有自然分隔符号(如“空格”),中文命名实体识别被分成两部分任务，首先对待标注序列进行中文分词，然后在此基础上以中文词语为标注单元，完成命名实体的识别。(3)标签集：如前文所述，标签集会被定义为“BIO”。3.2 中医临床记录中症状名标注策略中医临床记录具有鲜明的领域特点。在中医症状名识别过程中，我们需要根据中医临床记录领域特点进行改进：(1)如3.1所述，一般情况下中文命名实体识别任务需要对标注序列进行分词，在此基础上完成命名实体识别。然而在中医临床记录中，中医症状名通常由病位、病势和病性三部分组成，这三部分内容通常连续出现。因此，我们可以将字作为中医症状名

8、识别任务的标注单(2)为提高工作效率，中医工作人员在记录病人病情时通常不会进行重新组织和改写，导致临床记录内容丧失上下文连贯性。例如，“昨日肠鸣，失气多，心中不适”可能会有多种内容不连贯的描述方式，如“肠鸣昨日，心中不适，失气多”或者“肠鸣，心、中不适，失气多(昨天)同时，为方便记录，大多数中医工作人员习惯使用逗号代替其他标点，导致中医临床记录句子被合并成一句话。因此，我们定义中医临床记录中包含的“子句”代替原来的“句子”作为新的标注序列。“昨日肠鸣，心中不适，失气多”按照新标注序列被划分成“昨日肠鸣”，“心中不适”和“失气多”三个“子句”序列。这样不仅可以有效保持子句内容的连贯性，还有效降低

9、由中医临床记录内容组织混乱带来噪音特征的可能性。3.3 序列标注识别方法形式化表示根据前文对序列标注方法描述，中医临床记录中症状名识别方法的形式化定义可以描述成：划定一个包含于中医临床记录中的子句X=x1.,x2,xn,我们的目标就是构建一个序列分类器，该分类器能够准确赋予每一个包含于X中的中文字Xi以合适的标签yi,该标签yi属于事先定义的具有特殊含义的标签集合y。相应的，在给定X的情况下，最可靠的序列标注结果可以表示为：(3-1)其中，P(y|x)表示给定子句X后，其对应标签序列是y的可能性，而最终标签序列结果应是在所有子句X可能对应的标签序列中具有最大可能性(即P(y)的y。该类问题可以

10、采用序列标注分类模型HMM进行解决。3.4 HMM算法介绍HMM由随机状态转移概率和观测产生过程概率构成的序列标注模型。在中医症状名识别任务中，隐藏状态为标签集中变量，而状态转移是这些标签序列之间的转移过程，该过程满足马尔科夫性质，即在给定当前的状态和所有过去状态的情况下，其未来状态的条件概率分布仅依赖与当前状态的前一状态。观测结果的产生过程概率就是当前的隐藏状态产生出当前观测量的可能性，例如，在中医临床记录的子句“失气多”中，在给定隐藏层状态T的条件下，观测到“气”的条件概率即为观测产生过程概率。HMM可以被灵活的用于解决序列化数据分类问题C图1所示为HMM的建模过程。如图1所示，中医临床记

11、录中标注序列产生过程以默认标签“START”标识开始，以默认标签“END”标识结束。由默认开始状态标签向表示其他位置内容的状态标签“0”转移，表示该临床记录首先介绍一般描述内容，而不是以症状名描述作为开始。在该状态生成观测到文字“昨”之后，向下一状态“0”转移说明前述非症状名的描述，并由该隐藏状态“0”生成中文字“日”与“昨”形成时间描述内容，以交代时间背景，在这以后一段对症状的描述。该过程将反复进行，直至遇到表示序列结尾的默认标签“END”为止。根据如此的文本生成过程，我们便可对原始的序列标注模型(如公式3/所示)进行修改，以达到对观测到的中医临床记录数据进行形式化表达的目的。4实验及结果4

12、.1 实验数据说明本文的实验数据来源于真实的中医临床记录数据集，由中医工作人员在日常临床诊断中进行收集.样例数据如图2所示。为能够更好进行实验，我们对数据进行了相关筛选整理工作，删除错误或重复信息，确保实验中由实验数据所造成的错误率降至最低。4.2 实验结果评价指标及评价方式为比较HMM算法在改进前后的性能，我们采用准确率P、召回率R和度量值F作为评价指标，它们的具体公式如下所示：公式4-1用于计算准确率，是准确识别的症状名在所有识别出的症状名中占的比例。公式42用于召回率的计算，反映准确识别的症状名在中医临床记录中所有症状名中的比例，用于衡量算法的泛化能力，能力越大，通用性越好。公式4-3用

13、于衡量算法的整体性能C我们可以通过这三个指标来评价症状名识别算法的优劣。在HMM对比实验中，我们将整理后的中医临床记录数据集随机分成两部分。一部分约为原数据的70%,用于序列分类器训练；另一部分约为原数据的30%,作为测试数据集。4.3 HMM在症状名识别中实验结果我们在HMM算法对比实验中借用了Ma1.iet工具包，并对部分源代码进行修改，对HMM算法改进前后的结果进行统计，如下表所示：我们对比实验结果会发现，改进后HMM在准确率P和召回率R都有一定提升，在此基础上，症状名识别整体性能也有提升。由此可知，我们根据中医临床记录特点进行的序列标注策略改进是有效的。5总结中医临床记录中症状名识别的

14、研究仍处于初级阶段。本文根据中医临床记录特点做了相关改进工作C通过实验结果对比发现，根据中医临床记录特点进行的序列标注策略改进是有效的。但是，在中医症状名识别时，由于HMM算法是基于概率生成模型的算法，对于症状名边界位置处理并不算好。因此，在后续的研究中，我们可能考虑使用基于概率判别模型的算法，对中医症状名的边界问题进行更有效的判定。参考资料：1周雪忠.文本挖掘在中医药中的若干应用研究D.浙江大学，2004.2陈立鹏.人工智能引发的科学技术伦理问题J.文学教育(下)，2012(08).3张莉萍.基于领域本体构建的Web信息抽取J嘉兴学院学报，2010(06).作者简介：魏尊强(1987-),男

15、，江苏丰县人，硕士研究生在读，数据库与知识。根据前文对序列标注方法描述，中医临床记录中症状名识别方法的形式化定义可以描述成：划定一个包含于中医临床记录中的子句XrRy冬,我们的目标就是构建一个序列分类器，该分类器能婚准确减于每一个包含于X中的中文字Xt以合适的标签y.,该标签乂属于事先定义的具有特殊含义的标签集合y。相应的，在给定X的情况下，最可靠的序列标注结果夕=%会，%可以表示为：arfmw,PC*)(3-1)其中，PWX)表示给定子句X后，其对应标签序列是y的可能性，而最终标签序列结果，应是在所有子句X可能对应的标签序列中具有最大可能性(即P(y)的该类问题可以枭用序列标注分类模型HMM

16、进行解决.3.4HMM算法介绍hmm由Ia机状态转移微率和观测产生过程概率构成的序列标注模型。在中医症状名识别任务中，隐藏状态为标签集中变量，而状态转移是这些标签序列之间的转移过程，该过程满足马尔科夫性质，即在给定当前的状态和所有过去状态的情况下，其未来状态的条件微率分布仅依赖与当前状态的前一状态.观测结果的产生过程慨率就是当前的隐藏状态产生出当前观测量的可能性，例如，在中医临床圮录的子句失气多”中，在给定隐藏层状态T的条件下，观测到“气”的条件概率即为观测产生过程概率。HMM可以被灵活的用于解决序列化数据分类问题。图I所示为HMM的建模过程。图1利用HMM对卷床记录产生过程建模样例如图I所示，中医临床记录中标注序列产生过程以默认标签START标识开始，以

展开阅读全文