做了个简陋版的词库生成工具
接上篇关于可可拼音输入法的词库
鉴于可可拼音输入法的词库实在太难用,词库功能迟迟没有做好,因此弄了个简单的版本,其实就是LatinIME的词库构建工具我加了个简单的界面。
软件界面部分是C#
开发的,在.NetFramework 4.6.1
的基础上,运行的注意一下,软件data
目录下有两个文件valid_utf16.txt
和rawdict_utf16_65105_freq.txt
,其中前面那个就相当于字典,后面那个是词库,如果有生僻字可以添加到valid_utf16.txt
,词组添加到rawdict_utf16_65105_freq.txt
,或者你自己的词库文件也行,词库文件格式是这样的
词组 | 权重 | 联想 | 拼音 |
---|---|---|---|
可可拼音 | 126.306596357 | 0 | ke ke pin yin |
欧美国家 | 141.29744947 | 0 | ou mei guo jia |
注意:
修改valid_utf16.txt
和rawdict_utf16_65105_freq.txt
需要注意文件编码,用UTF-16-LE BOM
。
测试词库需要打开词库设置
里面的使用自定义词库
词库选项,如果出现输入法无法启动,把这个选项关闭就可以继续使用自带词库了。
赞
今天测试了一下百度输入法的词库,导出后格式为bin,所以这个词库不支持使用百度输入法的导入和导出。
这个工具只支持词库扩展,具体看关于可可拼音输入法的词库
权重是怎么得来的呀?用那个深蓝转换的,应该是权重的地方都是数字1
自己填充一个适当的值,大致范围60-120就行,值越大越靠前
谢谢回复,还是有两个地方不明白:1.这是否意味着需要一个词一个词手动添加? 2.权重按你的意思是60-120,可是看上边举例的截图,后面是一长串的数字,比如“可可拼音”这四个字后面的权重是:126.306596357,这个是固定格式,还是说小数点后面的数字也是自己随便填写?
1. 会点编程或者excel能批量处理,不会的话需要手动一个个添加
2. 随便写
明白,非常感谢