做了个简陋版的词库生成工具

接上篇关于可可拼音输入法的词库

鉴于可可拼音输入法的词库实在太难用,词库功能迟迟没有做好,因此弄了个简单的版本,其实就是LatinIME的词库构建工具我加了个简单的界面。

点击下载可可拼音词库生成工具

软件界面部分是C#开发的,在.NetFramework 4.6.1的基础上,运行的注意一下,软件data目录下有两个文件valid_utf16.txtrawdict_utf16_65105_freq.txt,其中前面那个就相当于字典,后面那个是词库,如果有生僻字可以添加到valid_utf16.txt,词组添加到rawdict_utf16_65105_freq.txt,或者你自己的词库文件也行,词库文件格式是这样的

词组 权重 联想 拼音
可可拼音 126.306596357 0 ke ke pin yin
欧美国家 141.29744947 0 ou mei guo jia
注意:

修改valid_utf16.txtrawdict_utf16_65105_freq.txt需要注意文件编码,用UTF-16-LE BOM
测试词库需要打开词库设置里面的使用自定义词库词库选项,如果出现输入法无法启动,把这个选项关闭就可以继续使用自带词库了。

8 response to "做了个简陋版的词库生成工具"

    By: 吃西瓜 Posted: 2021年12月25日

    By: shen159876 Posted: 2021年12月25日

    今天测试了一下百度输入法的词库,导出后格式为bin,所以这个词库不支持使用百度输入法的导入和导出。

    By: Porco Posted: 2022年4月19日

    权重是怎么得来的呀?用那个深蓝转换的,应该是权重的地方都是数字1

      By: cocozq Posted: 2022年4月19日

      自己填充一个适当的值,大致范围60-120就行,值越大越靠前

        By: Porco Posted: 2022年4月20日

        谢谢回复,还是有两个地方不明白:1.这是否意味着需要一个词一个词手动添加? 2.权重按你的意思是60-120,可是看上边举例的截图,后面是一长串的数字,比如“可可拼音”这四个字后面的权重是:126.306596357,这个是固定格式,还是说小数点后面的数字也是自己随便填写?

          By: cocozq Posted: 2022年4月20日

          1. 会点编程或者excel能批量处理,不会的话需要手动一个个添加
          2. 随便写

            By: Porco Posted: 2022年4月20日

            明白,非常感谢

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

 桂ICP备15001694号-3