《数据库检索方式.ppt》由会员分享,可在线阅读,更多相关《数据库检索方式.ppt(45页珍藏版)》请在第壹文秘上搜索。
1、第四章计算机信息检索的基本技术与方法一、计算机信息检索的基本技术:一、计算机信息检索的基本技术: 布尔逻辑、截词检索、加权检索,位置算符等布尔逻辑、截词检索、加权检索,位置算符等。在进行计算机检索时,有时有一些比较复杂的课题,在进行计算机检索时,有时有一些比较复杂的课题,如:如:“GPSGPS在建筑中的应用在建筑中的应用”,既涉及,既涉及GPSGPS,又涉及又涉及建筑,还有建筑,还有“应用应用”,这时候就要编制出满足要求的计,这时候就要编制出满足要求的计算机检索式,它是机检的基础。算机检索式,它是机检的基础。1 1布尔逻辑检索(布尔逻辑检索(Boolean Logic Boolean Logi
2、c RetrievalRetrieval) 逻辑检索的基础是逻辑运算,逻辑运算中最常用的逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符(是布尔逻辑运算符(Boolean Logic OperatorsBoolean Logic Operators), ,即与、即与、或、非三种运算符号,或、非三种运算符号,用它们可以表示概念之间的逻辑用它们可以表示概念之间的逻辑关系。关系。检 索 要求逻辑检索 课题 表达式 检 索 结果概念相交、限定 AND与* 计算机用于制图 A BA AND BA * B 缩小检索范围提高查准率 概念平行、并列 OR或+ 土地管理与土地利用 A B A OR
3、B A+B扩大检索范围提高查全率 某一主题去掉一部分相关主题 NOT非- 除光电测距以外的 A 电磁波测距 BB NOT AB-A提高查准率 2 位置算符位置算符(Proximity Operators) 位置算符是表示检索词之间位置关系的一种运位置算符是表示检索词之间位置关系的一种运算符。由于英文对一句话有多种表达方法,写法可算符。由于英文对一句话有多种表达方法,写法可能不同。如:能不同。如:“GPS在铁路桥研究中的应用在铁路桥研究中的应用”这个这个课题,用英文表达可能是课题,用英文表达可能是“Using of GPS in Railway Bridge”, 也可能是也可能是“Using o
4、f GPS in Bridge of Railway”,因而可能编制出这样的检索因而可能编制出这样的检索式,式,GPS AND (Railway (2N)Bridge)我们可以通过位置检索提高检索的准确率(1) (W)算符与算符与(nW)算符算符 W 是是word与与 with的缩写。的缩写。 特点:特点:W词序不变,中间不可插词,但两词间可有词序不变,中间不可插词,但两词间可有一个标点,连字符或空格。一个标点,连字符或空格。 nW词序不变,中间可插入词序不变,中间可插入N 个词。个词。 如:如:potential (w) energy可能检出可能检出potential energy and
5、function 又如:又如:gone (2w)wind 可能检出可能检出gone with the wind (2) (N)与与(nN)算符算符 N是是near的缩写的缩写 特点:特点:N词序不限,中间不可插词,但两词间可有一词序不限,中间不可插词,但两词间可有一个标点,连字符或空格。个标点,连字符或空格。 nN词序不限,中间可插入词序不限,中间可插入N 个词。个词。 如:如:econom? (2N)recovery可能检出可能检出economic recovery,recovery of the economy,(3)同字段检索)同字段检索A(F)B,F是是field的缩写。的缩写。 特点
6、:特点:A、B两词必须出现在同一字段中,词序与两词必须出现在同一字段中,词序与词量不限。词量不限。 如:如:environment (F)impact/DE,表示两个词必须表示两个词必须同时出现在叙词字段内。同时出现在叙词字段内。(4) 同句检索同句检索A(S)B,S是是sentence的缩写的缩写。 特点:特点:A、B出现在同一自然句中(子字段),其出现在同一自然句中(子字段),其词序与词量不受限制。词序与词量不受限制。 如:如:electric (S)plant可检出可检出electric power plants如:如:EI中的中的NEAR;PQDD中的中的W/n (两词间距小于两词间距
7、小于n个单词,且前后位置任意个单词,且前后位置任意),Pre/n (两词间距小于两词间距小于n个单词,且前后位置一定个单词,且前后位置一定)3 3截词算符截词算符( (Truncating operators)Truncating operators) 原因原因:在英语词汇中,一个词可能有多种形态,如词的单、复:在英语词汇中,一个词可能有多种形态,如词的单、复数形式的不同,英美拼写方法不同、词性不同等。如果检索时将数形式的不同,英美拼写方法不同、词性不同等。如果检索时将这类词全部输入进去,会增加检索时间和费用,采用截词法可解这类词全部输入进去,会增加检索时间和费用,采用截词法可解决这一问题。决
8、这一问题。 所谓截词检索,是指在检索标识中保留相同的部分,用相应所谓截词检索,是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中计算机会将所有含有相同部分的截词符代替可变化部分。检索中计算机会将所有含有相同部分标识的记录全部检索出来。常用标识的记录全部检索出来。常用“?”、“*”符号表示。符号表示。 (1)有限截词)有限截词。即在检索词后后截几个有限的字母,如名词的。即在检索词后后截几个有限的字母,如名词的单复数,动词的词尾变化等。单复数,动词的词尾变化等。如输入如输入computer?表示有表示有0-1个字母变化,可检出个字母变化,可检出computer和和computer
9、s. 输入输入stud?表示截断处有表示截断处有0-3个字母变化,可检出个字母变化,可检出study,studies,studied,studing.(2)无限截断)无限截断:在检索词后加一个:在检索词后加一个“?“,表,表示该词后可加任意个字符。使用无限截词,所截示该词后可加任意个字符。使用无限截词,所截词根不能太短,否则会输出许多无关文献,造成词根不能太短,否则会输出许多无关文献,造成误检。误检。 如:如:computer?可检出可检出computers,computering,computered,computerization.(3)中间截断中间截断:在检索词中间加一个或几个?:在检索
10、词中间加一个或几个?号,主要解决一些英美拼写不同,单复数形式的号,主要解决一些英美拼写不同,单复数形式的不同的词的输入,可简化输入。不同的词的输入,可简化输入。 如:输入如:输入wom?n可检出可检出woman,women 各种算符在数据库中的实际应用各种算符在数据库中的实际应用位置算符位置算符1)EI NEAR Bridge NEAR Piling*表示这两个词要彼此接近,前后顺序不限。W/n Pig*W/2pine*表示两个词的距离不能超过n个单词Adj Channel adj tunnel表示含有这两个词,两个词相邻,位置一定2)ISI Proceedings 用同句算符(SAME):如
11、如Channel same Channel same tunneltunnel,表示表示channel channel 和和tunnel tunnel 出现在同一句子中才出现在同一句子中才符合检索条件。符合检索条件。3)CSA:within X“ 表示两词之间不得多于x个词,前后位置任意 如“women within 8 movement” (顺序不定)4)Elsevier: ADJ表示两词相邻,前后顺序固定,与词检索的结果相同;NEAR或NEAR(N),表示两词相邻,中间可插入少于或等于n个单词,前后顺序可以发生变化,如果不使用(N),系统默认值为10 5)PQDD W/n (两词间距小于n
12、个单词,且前后位置任意),Pre/n (两词间距小于n个单词,且前后位置一定)6)ProQuest W/n(表示连接两个词之间可以插入n个词 ,前后位置可颠倒) 如:Education w/5 intenet 表示education和internet之间可以插入5个词 ,并且前后位置可以颠倒。 Pre/n(表示前后两词之间最多插入n个词,前后位置一定 ) 如:U.S pre/n economic policy可检出U.S aideconomic policy,or U.S wartime economic policy 。截词符或通配符如:CSAISI ProceedingsProQuestC
13、A用通配符“?”和截词符“* ” 输入 “patent*”,可以检索到 patent、patents、 patented等,(无限截断) 输入wom?n,可以检索到woman和women。 输入“fib?”,可检索到fiber和 fibre。(有限截断) 而EI用“* ” 和“$”(词根算符) 如:Optic*检索结果中包括以optic 开头后面加任意多个字母的词例如optic, optics,optical 等 $manager(强调语义)检索出与该词根具有同样语意的词如 $manage 将检出managers, managerial 和management 等词 通配符不能用在检索词的最前
14、面4 4括号检索(括号检索(ParenthesesParentheses)用于改变运算的先后次序,括号内的内容做优用于改变运算的先后次序,括号内的内容做优先运算。先运算。用用“()”可以表示优先级。如比较可以表示优先级。如比较 (GPSORGIS)ANDChina GPSORGIS ANDChinaEI 中的表示方法:中的表示方法:Relevance AND( Aalbersberg within AU)OR (cool within AU)5 5、字段限制检索字段限制检索 组成数据库的最小单位是记录,一条完整记录中的组成数据库的最小单位是记录,一条完整记录中的每一个著录事项为字段。献书目型数
15、据库的记录基本每一个著录事项为字段。献书目型数据库的记录基本包括下列字段:包括下列字段:(1) 存取号字段(存取号字段(AN, Access NumberAN, Access Number)这是计算这是计算机检索系统为每个数据库的每篇记录规定的能被计算机检索系统为每个数据库的每篇记录规定的能被计算机识别的特定号码。在同一数据库中,每篇文献记录机识别的特定号码。在同一数据库中,每篇文献记录只有一个存取号;只有一个存取号;(2) 篇(题)名字段(篇(题)名字段(Title Field, /TITitle Field, /TI)(3) 文摘字段(文摘字段(Abstract Field, /AB)Ab
16、stract Field, /AB)(4) 叙词字段或受控词字段(叙词字段或受控词字段(Destriptor Field, Destriptor Field, /DE; /DE; 或或 Controlled term Field-SU) Controlled term Field-SU) 这一字段是标这一字段是标引人员给文献标引的反映其主题概念的词,这些引人员给文献标引的反映其主题概念的词,这些词来自规范化的词表。也称主题词。词来自规范化的词表。也称主题词。 (5)自由词字段或非受控词字段(自由词字段或非受控词字段(Identified Field, /ID; Keyword Field , /KY ;Uncontrolled term Field) 这一字段也是标引人员给文献标引这一字段也是标引人员给文献标引反映其主题概念的词,但这些词不是规范化词表反映其主题概念的词,但这些词不是规范化词表中的词。中的词。(6) 著者机构子段(著者机构子段(corporate source,CS或或AF)(7) 刊名字段(刊名字段(journal,JN或或ST)(8) 出版年子段(出版年子段(pub