易菇网-食用菌产业门户网站
省级分站
分类网
  • 装袋机
  • 当前位置: 首页 » 技术 » 蕈菌文献 » 正文

    中文食用菌文献数据库建库实践与反思


    【发布日期】:2010-09-15

      江洪涛 陆振清 俞美莲 谢坤生 吕惠琳 (上海市农科院情报所 201106)
      陈丽佩 (上海市农科院食用菌所 201106)
      摘 要:利用电子计算机进行中文信息管理,建立了中文食用菌数据库。该数据库能从主题词、分类号、作者、篇名、刊名及年卷期等多种途径进行检索,并且该库内的数据能转为ISO 2709格式,具有良好的数据共享性。该数据库带有较详细的中文文摘,且检索速度极快。该库的建立,使食用菌信息管理朝现代化方面跨出了一大步。食用菌学是一门古老而又新兴的学科,涉及化学、微生物学、农业、林业、食品、土壤和气象诸学科,因此文献分布较分散,手工检索较困难,而且效率低下。我国是食用菌生产大国,上海是我国主要生产研究基地之一,上海农科院食用菌所是国内最早成立的该专业研究所,上海农科院情报所的馆藏特色之一是食用菌文献。因此建立《中文食用菌文献数据库》具有可行性、实用性和科学性。
      关键词:食用菌 中文文献
      1 本库特色
      (1) 近几年来,我国建立了一系列专业数据库和文献库,但大都是题录型。虽然建库前处理工作和输入工作量减少了,但由于题录所提供的信息有限,用户须一一查找原文以确定文献的内容,因而影响了数据库的实用性。众所周知,数据库的建库目的为节省用户时间,提高查全率和查准率,何况本库的用户对象为科研人员、农业基层单位和专业户,而农业基层单位和专业户不可能也没必要拥有丰富的文献资源作为文献保障的基础,因此本库以文摘型为主的特色一可节约用户时间,二可适应基层单位和专业户的需要,三是本所拥有文献和技术的优势,具有可行性和实用性。
      (2) 由于情报专业文献数据库的数据量大,检索要求高,而且其字段内容不似数值数据库那么等长,这就需要有一种适合作为情报文献数据的支持软件。MICROC-CDS/ISIS是由联合国教科文组织提供的、经中国科技情报研究所汉化的通用情报检索软件。由该软件支持建立起来的文献数据库最大容量可16MB,并且字段可变长,它的每个字段长度可在1~1650范围中自由选取,最大限度压缩了存储空间,达到数据库冗余量极小的目的,这对于应用有限内外存空间的微机建立一个容量大、字段字符数不等长的情报专业文献数据库是十分重要的。该软件还具有可在同一检索文件中进行多字段(包括重复字段)检索的特点,因而只须打开这唯一的检索文件,就可方便地进行检索,故其检索速度特别快。MICRO C-CDS/ISIS系统进行时,要求汉字操作系统的配置中,文件数(FILES)和缓冲区数(BUFFERS)均≥20,建中文食用菌文献数据库配置的MSDOS为3.3,中文操作系统为2.13H。
      2 建库实践
      2.1 建库思想
      中文食用菌文献数据库是为科研人员和专业户提供文献资料的现代化服务方式,科学性和实用性是质量的保证,所谓科学性:一是指本系统技术的可靠性,二是指文献来源的真实性。所谓实用性包括两个方面:一是内容上要符合用户的需要,二是方法上尽可能简便易用。本库重点在于文摘,使用户检索后基本上满足了其信息需求。
      2.2 数据前处理
      数据的前处理工作包括文献收集、筛选、著录工作单、标引等。该工作的质量直接影响了整个数据库的检索效率,它既是建库的基础,又是主要工作。
      2.2.1 数据收集标准
      数据的质和量是建库的关键,本库收集标准为:全而精,所谓全是指保证用户在利用本库后基本上不须再利用其他检索工具,所谓精是指文献来源的可靠性。为保证文献的质和量,我们采用定性分析(专家评估,读者调查)和定量分析(引文法,相对%法,Bradford法)相结合的方法,综合分析了150多种我国食用菌专业期刊和相关期刊,重点收集前十位的核心期刊的文献(见附表一),约占国内有关食用菌文献的80%以上。
      2.2.2 工作单设计
      工作单是人工采集数据与计算机处理的接口,它的设计涉及到库结构的设计,实际上是检索途径和显示内容的总设计,因此必须慎重。本工作单设计有13项内容,其中包括6个检索途径,适用于中外文图书,期刊,资料(见附表二)。
      2.2.3 文献标引
      文献标引是前处理工作中的重中之重。在筛选数据之后,标引质量就决定了整个库的质量,它直接影响到查全率和查准率。因此必须由学有专长的高级职称人员担任,必须熟悉食用菌专业并具有标引实践经验
      2.2.3.1 主题标引
      主题标引包括叙词法 关键词法、单元词法和标题法。其特点是:直观性、专指性、适应性、集中性、多元性。考虑到《汉语主题词表》中有关食用菌方面的内容过于简单,而当时《农业主题词表》尚未出版,我们采用了半受控自由词标引,主题词采用国家标准(GB1272891),其特点是简便、直观易于用户掌握。但标引时须注意:
      ⑴ 严格采用标准术语。例如:文献中和人们日常生产习惯用“菌丝”一词,与“菌丝体”不分,实际上,“菌丝”与“菌丝体”是有区别的。“菌丝”是指由孢子萌发后形成的芽管发展而成,它以顶端生长并分枝而为管状多细胞组成的丝状物,而“菌丝体”则为菌丝的集合体。在大多文献中,多指菌丝的集合体,而文献的标题或文献内容中多数写为“菌丝”,这时,如标引为“菌丝”就不够准确,应按食用菌标准名词术语来标引为“菌丝体”。
      ⑵ 慎用元词。例如:“培育”,“融合”、“遗传”等。元词使用较灵活,但对复杂的词须组配才能得到,用起来较麻烦,且有些概念组配后易搞错。例如:“培养基质”是指培养物赖以生存的各种物质。如以“培养”、“基质”标引,实际上已失去“培养”的概念。如果需查“培养”,“培养基质”也会检出,造成误检。此时应按标题法标引,应标为“培养基质”。
      ⑶ 如专指词能精确表达文献内容,一般就不使用泛指词。例:双孢蘑菇泡囊病的诊治标引词:蘑菇;双孢蘑菇;泡囊病;真菌病;诊断;防治蘑菇是双孢蘑菇的上位概念,用“蘑菇”可以对双孢蘑菇的文献进行扩检,对最上位概念“食用菌”就不必标引了。“泡囊病”直接上位概念是“真菌病”,专指程度已较高,与标引词“蘑菇”一样,不必标引再上位概念。
      ⑷ 慎用和少用通用概念词标引。如对一般通用概念主题词也一一标上,会导致影响泛指性文献的检索,又增加了标引及输入的劳力,还浪费了计算机的存贮空间,减慢检索效率。本数据库是专业文献库,泛指文献较少,故“影响”、“方法”等一类通用概念基本不标(除综述性文献之外)。
      ⑸ 自由词标引。自由词标引以关键词为基础,我们标引时先标题内关键词,当题内关键词不够标时再选题外关键词。虽然是关键词,我们也绝不能随便“自由”标引,因为计算机不能识别同义词书写不同型的词,如“玉米”与“苞米”、“COLOR”与“COLOUR”,检索词与标引词稍有不同,计算机就不能识别,就会造成误检与漏检。我们在标引自由词时采取了十分慎重的态度,尽量使文献标引一致,提高查全率查准率。
      ⑹ 以食用菌标准名词术语为基础,加上一些自由词,从而逐步形成本数据库实际使用的主题词表,并逐步充实完整。及时提供用户使用。
      2.2.3.2 分类标引
      分类法是我国传统的揭示文献内容的标引方法,在组织书本式目录,推荐同类文献、验证查全率和查准率等方面都具有独特的优势,因此至今仍不失为重要的检索途径。本库分类标引是在《中国图书资料分类法》(第三版)的基础上,对S646和S567.3类目作一些扩展,调整编制成“食用菌、药用菌专业分类表(见附表三)其编制原则为:首先按真菌的科学分类为基础,然后再按文献出现频率排列,即科学性和实用性相结合、这样既克服了《中图法》某些类目设置不科学,某些类目过于简单,使得无类可归或有类难归,又尽可能与《中图法》接轨,也适应专业性很强的食用菌文献分类。为了类分某一主题,某一方面的文献,充分揭示文献内容,我们按食用菌生产的过程(制种、栽培、病虫害防治、采收加工)编制了“食用菌、药用菌专业复分表”(见附表四)。实践证明:以上两表基本上满足了建库的要求。
      2.3 MICRO CCDS/ISIS软件的二次开发
      首先确立库结构格式(SJWX·FDT)考虑到本库服务对象的特点,还有微机本身内外存空间较小的因素,库结构的设计也应简洁、明了,我们定义了11个字段(见附表五),分别为:篇名、作者、译者、刊名、分类号、年卷期、所在页码、馆藏号、文献代码、主题词、摘要。根据该软件允许重复字段和子字段定义的特点,为方便用户利用,我们设计了作者字段和主题词字段为重复字段。其次设计屏幕格式文件(SJWX·FMT)与工作单相对应。再次选择了倒排字段表(SJWX·SFT)(见附表六)。通过选择,用户可通过6个途径进行检索(主题词、分类号、作者、篇名、刊名及年卷期)。最后建立显示、打印格式文件(SJWX·PFT)为:MFN……/V2“/”V4,“∥”V6,“·”V8∧a,V8∧b,“(”V8∧c“)”,“·”V9,/“馆藏号”V10/“文献代码”V11/“分类号”V7/“摘要”V31/“主题词”(自由词)V21/%#。其中,“MFN”是机内号;“Vn”表示字段标资代码;“/”表示换行。按以上显示,打印输出格式文件,显示或打印的结果是:
      篇名/作者∥刊名·年卷(期)·所在页码
      馆藏号
      文献代码
      分类号
      摘要
      主题词(自由词)
      利用MICRO CCDS/ISIS软件建立上述4个文件后,则建立了本库的框架,即可进行数据输入,修改、检索、显示等工作。但由于本库的容量较大,而C盘中系统文件较多,如果数据文件再存放于C盘中,则显得外存空间较拥挤,所以我们在建库时将数据库文件设置在虚拟盘(D盘)中,操作员仍然在C盘中工作,而相应数据在D盘里,由于系统文件与数据文件分别在二个硬盘里,故系统比较容易找到自己建立起来的文件,不易引起二种文件的混淆不清。
      另外,我们对该软件中所包含的文件进行了调整和调度,把ISIS的可执行文件和系统参数文件归入SYS目录中,这样,系统在运行时可在子目录中搜寻所需文件而不设路径,从而提高了运行速度,减少了空间的使用。
      3 经验与反思
      (1) 本数据库的建立和使用,成功地二次开发MICRO C-CDS/ISIS软件,利用电子计算机进行中文信息处理,具备了维护、修正、删除、添加、排序、检索、浏览、显示、打印等功能。由于该数据库带有较详细的文摘,故实用性较强,节约了科技人员的时间,减轻了科研人员的劳动强度。该数据库冗余量小,数据量大,检索速度较快。库内数据能转为ISO2709标准格式,具有良好的数据共享性。
      (2) 该数据库收集了国内有关食用菌专业期刊、微生物类期刊、农业(设有生物专业的综合性大学)院校学报、农业学报等学报类中有关食用菌专业的文献。该数据库能从主题词、分类号、作者、篇名、刊名及年卷(期)等多种途径进行单项或多项检索;通过运用布尔算式,用精确词或右截断词进检索。例如检索有关金针菇的文献,只需打开检索文件,键入“金针菇”,1s左右,屏幕即显示出命中文献篇数,再揿〈D〉(显示功能)键,则逐屏逐篇显示有关金针菇的文献;如键入“金针菇×栽培”,1s左右,屏幕即显示出金针菇栽培方面的文献和篇数,缩小了命中范围,提高了检索查准率。同样,按入〈D〉键,屏幕即逐篇显示出有关金针菇栽培的文献。其它方面查询如同以上检索。各种查询方式一般均可在1~2s时间内获得结果。该数据库还可在限定字段中检索。
      (3) 该数据库采用主题标引和分类标引,既直观明了,又能体现学科的系统和完整性。
      (4) 本数据库的建立和使用,可为食用菌技术的开发及研究方向的确立提供依据,有利于食用菌科研与开发事业的发展,具有较大的社会效益和经济效益。
      (5) 本库由于建库时间短、人员少、经费紧张,因而存在着一些遗憾:
      ① MICRO CCDS/ISIS软件检索方便但排序功能差,不便于编制书本式目录,在目前计算机尚未普及的国情下,不利于广大老少边穷地区用户使用;
      ② 工作单设计应尽可能与其他数据库靠拢,分类号应和主题词项目一齐放在最后,这样一方面便于输入,另一方面有利于标引文献时互相借鉴,核对;
      ③ 分类号字段也应设计为重复字段,这样有利于分析分类文献;
      ④ 数据收集应注重质量,借鉴国内外数据库经验,采用高薪聘请专业人员撰写文摘,并建立一系列审核制度,把差错消灭在输入之前。
      参考文献
      [1]刘波.病虫资料数据库结构建立的研究.计算机农业应用,1990、2:13~15
      [2]陈睿.情报管理系统软件开发工具.情报学报,1991、10、(1):34~40
      [3]王枚.标引深度的定量分析.情报学报,1993、10、(1):41~48
      [4]中国科技情报所计算机室.MICRO CCDS/ISIS用户手册.中国科技情报研究所, 1989:23~78
      PRACTICE AND INTROSPECTION OF DATABASE OF
      CHINESE EDIBLE FUNGI LITERATURE
      Jiang Hongtao Lu Zhengqing Yu Meilian Xie Kunshen
      Lu Huilin
      (Scientific and Technical Information Research Institute,Shanghai
      Academy of Agricultural Sciences, Shanghai 201106)
      Chen Lipei
      (Edible Fungi Research Institute, Shanghai
      Academy of Agricultural Sciences, Shanghai 201106)
      ABSTRACT: Science and technology is developing quickly. Information work must follow this situation. We use computer to handle Chinese information. The database of Chinese Edible Fungi literature was set up. It can execute retrieval from subject words, classification number, author, title, source journal, year, volume, issue. The data in the database can return to ISO 2709 format.
      KEY WORDS: computer, edible fungi, Chinese literature, database


     
     
    [ 技术搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 违规举报 ]  [ 关闭窗口 ]

     
    0相关评论

     
    推荐图文
    推荐技术
    点击排行
    网站首页  |  关于本站  |  发展历程  |  顾问团队  |  会员入会  |  招聘信息  |  收款方式  |  联系我们  |  隐私政策  |  使用协议  |  信息规范  |  网站地图  |  排名推广  |  广告服务  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备20002293号-6