当前位置:首页 期刊杂志

自制语料库(第4讲)制作简易语料库

时间:2024-08-31

日本关西学院大学 于 康

4.1 制作“语料库”时需要使用的软件

前几讲我们介绍了制作语料库时所需要的一些前期操作程序,这一讲主要介绍如何制作自己专用的语料库。制作语料库时需要使用的软件叫作「ひまわり」,电脑上显示的文件名为Himawari_1_3b05(版本会不断升级,升级后的文件名会有所变动)。不过,「ひまわり」只是一个具有检索功能的软件,其本身不带可供检索的语料。语料需要自己收集,收集到的语料放进检索软件「ひまわり」后就可以进行检索了。

第3讲我们介绍了收集到的语料是不能直接放进「ひまわり」中去的,因为,「ひまわり」不能识别文本格式的文件,需要用「えだまめ」将收集到的语料进行一次文件格式的转换。用「えだまめ」转换完毕的文件会直接保存在电脑的Desktop上,保存在Desktop上的文件有两个,一个是「Corpora」,一个是「config_日本語書き言葉コーパス(或读者自己命名的文件名)」。有了这两个文件我们就可以制作语料库了。

4.2 语料库制作的程序

①点击文件夹中的Himawari_1_3b05。出现下图。

②将保存在Desktop上的「Corpora」文件拖放至Himawari_1_3b05中的空白处,出现问话框,点击「はい」,这时Desktop上的「Corpora」便会移至Himawari_1_3b05中去。

③ 将保存在Desktop上的「config_日本語書き言葉コーパス」拖放至Himawari_1_3b05中的空白处。如果界面上出现「config_日本語書き言葉コーパス(或读者自己命名的文件名)」文件名,表示操作正常结束。

④点击Himawari,启动检索软件。

⑤点击「実行」,出现检索用图框。

⑥点击「ツール」,选择最后一行的「インデックス生成」。

⑦出现问话框,点击「はい」。

⑧如果操作正常结束的话,会出现正常结束的通知,点击「了解」结束操作。有的时候该操作要花费一些时间,需要耐心等待。所需时间的长短将根据语料量的大小来决定。

⑨至此为止,取名为『日本語書き言葉コーパス』的语料库便制作完毕,最后一步就是如何检索了。

4.3 小结

制作语料库,最重要的是切勿忘记将两个文件放进检索软件Himawari_1_3b05后,需要进行一次「インデックス」,这是保证语料库正常使用的一个非常关键的步骤。

有的时候,实行「インデックス」之后会出现错误。此时不用慌张,请按照下列程序,删除两个文件,回到原来的状态,重复一遍保存和进行「インデックス」的程序,通常就可以解决问题了。

① 在Himawari_1_3b05中找到「config_日本語書き言葉コーパス」这个文件,并删除它。

② 在Himawari_1_3b05中找到文件夹「Corpora」,并打开文件夹,找到文件夹中的「日本語書き言葉コーパス」这个文件,删除它。

③ 用「えだまめ」重新进行文件的格式转换。当电脑的Desktop上出现「Corpora」和「config_日本語書き言葉コーパス」这两个文件后,从本讲介绍的第一个步骤开始重新进行操作。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!