《语料库的制作与日语研究》
作者:于康
本书是方法工具与日语教学丛书之一。主要介绍如何利用免费软件来制作日语语料库和如何使用语料库。让每位读者拥有自己的语料库,以此进行各自的研究。内容主要包括语料的收集、PDF转换为文本文件的处理技巧、语料库的具体制作技术、语料库的使用、利用语料库研究日语的范例研究等。
注:本文内容节选于《语料库的制作与日语研究》一书。本书由浙江工商大学出版社出版,沪江英语授权转载部分内容。

1.2现在可供使用的主要语料库

目前日本已正式公开的语料库和近似语料库并具有检索功能的主要研究成果如下: 
1『現代日本語書き言葉均衡コーパス』      
日本国立国语研究所研制。可检索11种体裁的信息,共计1亿480万字。可在网上检索,但有容量限制。申请光盘时需要付费。
网站的地址: 。   
 
2『太陽コーパス』       
日本国立国语研究所研制。该语料库收录了1895年~1925年博文馆出版发行的月刊杂志『太陽』的大部分内容,共计1450万字。作者约一千多人。由博文馆新社发行,价格为9500日元(不含税)。
网站的地址:   
 
3『日本語話し言葉コーパス』     
日本国立国语研究所、情报通信研究机构、东京工业大学联合研制。共17盘DVD-ROM。包括3302个演讲的音声资料和文字资料,以及词性信息、话语结构信息和说话者信息等。使用时需要购买光盘。
网站的地址:   
 
4『近代女性雑誌コーパス』     
田中牧郎、小椋秀樹、山口昌也、小木曽智信、笹原宏之、湯浅茂雄研制。收录了1894年~1925年发行的部分女性杂志。共计210万字左右。免费使用,但需要申请光盘。
网站的地址: B6%E1%C2%E5%BD%F7%C0%AD%BB%A8%BB%EF%A5%B3%A1%BC%A5%D1%A5%B9
 
5『Webデータに基づく複合動詞用例データベース(開発版)』
国立国语研究所的山口昌也开发研制。现为开发版。专门用来检索和考察日语的复合动词。已收录日语复合动词3037个。网上检索,免费使用。
网站的地址:   
 
6『青空文庫』     
网上电子图书馆青空文库。收录作品共计1万1144个(2012年3月为止)。网上检索,免费使用。
网站的地址:  
 
7『新潮文庫の100冊』新潮社出版发行。CD。共收录100部名作。现已绝版,但可通过旧书店购买。  
 
8『明治の文豪』新潮社出版发行。CD。共收录40部名作。现已绝版,但可通过旧书店购买。   
 
9『大正の文豪』新潮社出版发行。CD。共收录40部名作。现已绝版,但可通过旧书店购买。  
 
10『新潮文庫の絶版100冊』新潮社出版发行。CD。共收录100部名作。现已绝版,但可通过旧书店购买。   
 
11『日本語動詞の結合価』     
荻野孝野、小林正博、井佐原均研制。三省堂出版发行。约15万个例句。是研究日语动词配价的一个经典语料库。5万400日元。
网站的地址:   
 
12『朝日DNA~聞蔵~』     
朝日新闻社出版发行。收录了从1879年创刊号至今,包括日本全国和地方版的早报和晚报,以及杂志『週刊朝日』『AERA』『現代用語事典知恵蔵』。网上检索。收费。  
 
13.各大报纸网上语料库
除了上述朝日新闻社的『朝日DNA~聞蔵~』之外,日本各大报纸都建立了自己的语料库。网上检索。收费。   
 
14『国会会議録検索システム』     
日本国立国会图书馆研制。可检索众议院和参议院各类会议的记录。并具备按照专题和指定发言者进行检索的功能。网上检索。免费使用。
网站的地址:   
 
15『日本語学習者による日本語作文と,その母語訳との対訳データベース(作文対訳DB)』    
日本国立国语研究所研制。收录了21个国家的1575篇日语作文。网上检索。免费使用。使用时需要提前登记。
网站的地址: #p1 
 
16『寺村誤用集データベース』     
日本国立国语研究所研制。可检索非日语母语者学习日语时出现的偏误用法。网上检索。免费使用。
网站的地址:  
 
17『KYコーパス』
以鎌田修和山内博之两人的罗马字第一个字母命名。收录了90名汉语、英语、韩语母语者的录音文字记录。免费使用,但需要申请。
网站的地址:   
 
18.《中日对译语料库》     
北京日本学研究中心研制。共计两千多万字。可在北京日本学研究中心购买《中日对译语料库》的CD-ROM。  
 
19『NINJAL-LWP for BCCWJ』     
日本国立国语研究所和Lago语言研究所共同开发的网上检索系统。以日本国立国语研究所研制开发的大型语料库『現代日本語書き言葉均衡コーパス』为母体,专门用来检索动词、形容词、名词和其它词汇以及语法标记的搭配关系。网上检索,免费使用。
网站的地址:   
 
      除了上述语料库之外,很多研究者也在研发各类语料库。有的已经公开,有的属于有条件的公开或半公开,有的尚未公开。凡是正式公开的,在网上应该是很容易找到的。