当前位置:首页 期刊杂志

【自制语料库】第3讲 语料库专用文件格式的转换

时间:2024-08-31

日本关西学院大学 于 康

3.1 语料库专用文件格式转换的条件

制作语料库时需要将用「秀丸」保存的文件转换为语料库软件能够识别的专用格式,否则将无法对语料进行检索。这道手续是打开语料库大门的钥匙,不能忽视。转换文件格式使用的软件为「えだまめ」。

3.2 转换文件格式的程序

上一讲在介绍如何保存文件时,建议使用「秀丸」来保存文件。因为用「秀丸」保存的文件都会自动保存为文本格式(.txt)。之所以要求文件必须以文本的格式保存是因为转换文件格式的软件「えだまめ」只认可文本、XHTML和XML这三种格式。对读者来说,与后两者的格式相比,文本格式易懂且容易操作。换句话说,即使不用「秀丸」,只要将文件保存为文本格式,按理说也是可以用「えだまめ」来转换文件格式的。

由于检索软件「ひまわり」只认可「えだまめ」格式的文件,所以,保存在文档里的文件是不能直接装进「ひまわり」中使用的,必须经过文件格式的转换手续。这道手续无法在「秀丸」中进行,只能通过「ひまわり」专用的文件格式转换软件「えだまめ」来转换。

转换文件的格式需要经过如下程序:

① 在“我的文档”中建立文件夹,起名为「日本語書き言葉コーパス(或根据读者自己的需要命名)」。

② 把从网上下载下来的资料和用其他方式获得的资料用「秀丸」形式来保存,并将保存的文件存放至文件夹「現代日本語書き言葉コーパス」中。

③ 启动「えだまめ」,转换文件的格式。

3.3 转换文件格式的具体操作方法

①启动「えだまめ」。

②点击「参照」,选择需要转换的文件夹(示范例的文件夹取名为「日本語書き言葉コーパス」),请注意,这里只能选择文件夹而不能选择具体的个别文件。

③文件夹选择完毕后,「元データがあるフォルダ」中出现所选的文件夹名,然后在「変換対象ファイル」中点击「テキスト」前的方框,方框中出现☑。确认「青空文庫形式」前的方框已经打勾☑。

④指定转换后文件的保存处。「コーパスデータの出力先」下方的「フォルダ」会自动出现C:Users~Desktop(~表示电脑名),表示转换后的文件保存处为Desktop。为了便于操作,建议将转换后的文件保存在Desktop上。点击「変換する」,转换文件格式。出现「データが出力された」,表示转换成功,点击×处关闭软件。

⑤Desktop会出现两个文件,一个是Corpora,一个是「config日本語書き言葉コーパス(或读者自己命名的语料库名)」。至此,文件格式转换的程序全部结束。

3.4 小结

转换文件格式是检索软件「ひまわり」是否能够进行正常操作的一个非常重要的手续,这个手续特别是在制作多种语料库时往往容易被忽略掉。如果图省事,直接把文件夹或保存的文件拖进「ひまわり」中,文件名可以在检索软件中出现,但无法检索。因此,①用「秀丸」保存文件➠②用「えだまめ」转换文件的格式➠③用检索软件「ひまわり」来读取转换后的文件是保证成功制作语料库缺一不可的程序。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!