导读指南

《语料库的制作与日语研究》
作者:于康
本书是方法工具与日语教学丛书之一。主要介绍如何利用免费软件来制作日语语料库和如何使用语料库。让每位读者拥有自己的语料库,以此进行各自的研究。内容主要包括语料的收集、PDF转换为文本文件的处理技巧、语料库的具体制作技术、语料库的使用、利用语料库研究日语的范例研究等。
注:本文内容节选于《语料库的制作与日语研究》一书。本书由浙江工商大学出版社出版,沪江英语授权转载部分内容。
 
问:什么是语料库?制作语料库的目的是?
第1章 语言资源的利用与语料库建设
1.1 制作语料库的目的
      语料库指的是储存各种类型文章的大型文字仓库。我们可以根据各种需要对语料库里储存的语言信息进行各种各样的检索,抽取所需要的信息。
      过去,收集和查找例句的方法主要有两种:一种方法是制作卡片,然后将卡片按照所需的分类标准进行排列,以供查询。另一种方法是根据某种需要在报刊书籍等中寻找例句,然后将所需的例句抄写在本子上。前者受存放场所和时间的限制,能够收集的信息非常有限,制作和查找方法十分烦琐。后者受研究对象的制约,研究对象发生变化,例句就必须重新寻找,费时费力。二者都很不经济。特别是因为受到容量的限制,所收集的信息涵盖面窄,很难进行量化统计。
      为了克服上述两种方法的短处,几十年来,研究者们一直在研制和开发语料库上下功夫。有了语料库就可以不受时间、场所和容量的限制"随时根据各种需要检索到所需的例句,以供学习和研究使用。
语料库大致可以分为两大类:一类是无标签语料库%另一类是有标签语料库。无标签语料库指的是没有对构句成分加注任何标记的语料库,有标签语料库指的是对构句成分加注各类所需信息标记的语料库。
      现在,除了一小部分偏误语料库外,大多数语料库都是无标签语料库。这类语料库中,有专业语料库,也有业余语料库。专业语料库指的是有编程专家参与制作并具备各类复杂性检索功能的语料库。业余语料库指的是非编程专家制作,只能进行有限的复杂性检索的语料库。
      专业语料库不仅可以抽取某个词汇实际使用的例句,而且还可以抽取各种句式与各类构句成分之间的搭配用法的例句,同时对出处、作者性别、作品的体裁、作品的发表时间等加以限定。业余语料库除了不能自由地抽取句式与各类构句成分之间的搭配用法的例句外,其他功能基本上与专业语料库相同。
      学会制作语料库,可以不受时间和上网条件等限制,根据各种需要随时进行检索,快速获取大量的例句。学会给例句加注标签,制作带标签的语料库,可以从根本上解决面对大量例句而束手无策的问题,提高发现规则的速度和精度。