导读指南

 
《语料库的制作与日语研究》
作者:于康
本书是方法工具与日语教学丛书之一。主要介绍如何利用免费软件来制作日语语料库和如何使用语料库。让每位读者拥有自己的语料库,以此进行各自的研究。内容主要包括语料的收集、PDF转换为文本文件的处理技巧、语料库的具体制作技术、语料库的使用、利用语料库研究日语的范例研究等。
注:本文内容节选于《语料库的制作与日语研究》一书。本书由浙江工商大学出版社出版,沪江英语授权转载部分内容。
 
第2章电脑配置、所需软件及软件的安装
2.1电脑的配置
      语料库通常指的是文字语料库,由于无需处理图像,所以对电脑的配置要求并不很高。一般情况下,只要满足以下条件,就可以制作语料库。
      ①Windows® XP以上(本文以Windows®7为例)
      ② CPU为Atom,或Celeron,或Core皆可
      ③ 内存为1GB以上
 
      当然,配置越高,检索的速度会越快。选择何种配置,读者可以根据自己的具体条件来决定,无需一味求全。
      由于制作语料库所需要的软件都是日文版的,所以,使用中文版的Windows® XP或Windows®7等来制作语料库时,有的时候会出现乱码的情况。此时,只要改变语言的设定,基本上就可以解决问题。如果使用的是非正规版的Windows,或是试用版的Windows,制作语料库的软件大部分不能正常工作。另外,有的时候国内的免费防火墙软件也会影响软件的正常工作。
 
2.1 所需软件
      制作语料库需要4个基本软件,它们分别是:
      ①Java
      ②秀丸(ひでまる)
      ③えだまめ
      ④ひまわり
 
2.2.1 Java
      Java是电脑的基础软件,很多软件的运营需要Java的支持。通常在购买电脑时,电脑本身就会自带这个软件。这可以点击控制面板进行确认。如果找不到Java,可以从网上直接下载。
      下载网站的地址:http:
      不过,无论电脑是否已经安装Java,建议在使用前最好确认并下载最新版的Java,这样可以避免不少意想不到的麻烦。
 
2.2.2 「秀丸」
      「秀丸」正式的名称为「秀丸エディタ」,是日本「有限会社サイトー企画」开发制作的文本文件的书写和编辑软件。
      电脑的OS只要是Windows95、Windows98、WindowsMe、Windows2000、WindowsXP、WindowsVista、Windows7的都可以使用。
      下载网站的地址:http:
 
      用来制作语料库的文件必须满足一个条件,这就是所有的文件都必须以文本的格式来保存,即文件名后面的扩展名必须是“.txt”。这是因为制作语料库时,需要使用「えだまめ」来转换文件的格式,而「えだまめ」只能读取文本格式的文件。
      也就是说,如果需要保存的文件使用Word或其它的格式进行保存的话,这些文件是不能用来制作语料库的。这点提醒读者务必注意。凡是在以后的语料库制作的过程中出现问题时首先需要检查的是文件的保存格式。
      用文本格式保存文件有两个办法:
      ①使用「秀丸」保存文件
      ②使用电脑中自带的「メモ帳」即“记事本”保存文件
 
      「秀丸」与「メモ帳/记事本」最大的不同是,「秀丸」不仅可以用文本的格式保存文件,还可以对文件的内容进行各种各样的处理和编辑。而「メモ帳/记事本」只能用来保存文本格式的文件,却不能对文件进行处理和编辑。
      例如,当需要清除文中不需要的注音假名、符号、空格、空行,对文件进行整合等时,「メモ帳/记事本」是无法进行这些技术性操作的。由于「秀丸」功能齐全,在目前可以使用的文本格式文件的编辑软件中,是制作语料库的最佳伙伴。
使用「秀丸」需要缴纳一定的费用。缴费方式有两种:
      ①在日本国内缴纳
      ②从海外通过银行汇寄
 
      不过,学生在学期间可以免费使用该软件。具体的使用条件与方法请直接向「有限会社サイトー企画」咨询或查阅该网站的有关规定。
      网站地址:http:
 
      电脑中的「メモ帳/记事本」虽然只能保存文件,不能对文件进行编辑和处理,但是,作为应急措施,可以利用Word的编辑功能来弥补「メモ帳/记事本」的不足。具体操作的步骤如下:
      ①将需要编辑的文件剪贴到Word上
      ②利用Word的编辑功能对文件进行编辑
      ③将编辑完毕的文件再剪贴到「メモ帳/记事本」上
      ④用「メモ帳/记事本」保存文件
 
2.2.3  「えだまめ」
      「えだまめ」是日本国立国语研究所开发制作的语料库数据格式的转换软件。「秀丸」保存的文本格式的文件是不能直接用来制作语料库的,中间还需要一道手续。这道手续指的是将文本格式的文件转换成语料库软件可以接受的文件格式。「えだまめ」就是专门为完成这道转换手续设计的。
      下载网站的地址:
 
      「えだまめ」是语料进入语料库的通行证,如果忽略了这道手续,语料便会被拒绝在语料库门外。这点提醒读者务必注意。
 
2.2.4  「ひまわり」
      「ひまわり」是日本国立国语研究所开发制作的全文检索软件。用这个软件制作的语料库可以根据各种要求对语料进行检索。
      下载网站的地址: