关于可可拼音输入法的词库
目前可可拼音输入的词库是非常的弱,因为之前我自己用,提取了自己长期以来累积的个人词库自己制作了一个专用的词库,所以我用这个拼音输入法效果要好很多,基本上没有什么词库需求,因此我一直也没有去弄这部分。可是其他用户来说,目前的词库是真的难用,有些词得翻大半年,受挫感很强。
后来从正式发布之后我就开始整理词库部分,但是发布了之后一时间反馈的问题比较多,大部分时间都用来改进和修复bug了,词库方面进度非常慢,所以我决定先发布一个简单的制作工具,可可拼音输入法是基于LatinIME的,也就是Google手机输入法的早期版本,如果你有这个输入法的词库是可以直接选择替换的,但是很遗憾目前很少人有这类词库了,另外如果有点编程知识,把源码拉下来,找到pinyinime_dictbuilder.cpp
这个文件,用MinGW
编译一下就可以生成一个词库工具了,然后基于valid_utf16.txt
和rawdict_utf16_65105_freq.txt
就可以制作自己的词库了,这些东西我周末都会发出来,另外词库文件的编辑需要注意,需要选择小端,因为现在的安卓手机基本上都是ARM
,X86
的我印象中只有联想出过一款。
有用户联系到了软件深蓝词库转换的作者,大家可以用这个软件转换其他库,这个软件非常强大,支持的词库也非常全面,就是目前转换了不能直接用,需要稍微处理一下,转换词库的时候输出格式选择谷歌拼音,然后在转换的文件权重后添加一行0(零)就行了,如下所示
词组 | 权重 | 添加 | 拼音 |
---|---|---|---|
二次开发 | 126.306596357 | 0 | er ci kai fa |
二氧化碳 | 532.740555233 | 0 | er yang hua tan |
二氧化硫 | 196.831399718 | 0 | er yang hua liu |
欧美国家 | 141.29744947 | 0 | ou mei guo jia |
注意:目前仅支持2-4个字的词汇扩充
词库部分说明:
LatinIME的这个版本的词库有两个,一个是系统词库,这个放置了常用词,还有一个就是用户词库,这个用来记忆用户输入的词库。我之前的想法是系统词库保留少量词汇,增强用户词库,可以往里面导入自己的词汇,但是需要的时间很长。上面这个制作的词库行为方法是扩展系统词库,不好的地方就是制作词库需要计算好权重,一些输入法好用非常重要的一点就是在这里,权重处理不好会很难用,这一点要注意,比如一个你经常用的词汇在系统词库的权重很低,会出现什么情况呢,你要输入非常多的次数才可能靠前,也就是说用户词库的词汇权重是在系统词库权重基础上计算的。
还是不会用那个深蓝转换哎。百度手机输入法倒出来的CH3.txt词库,用深蓝转换成谷歌拼音后的文件里面没有权重那一串数字,然后用你提供的词库制作工具也制作不出来词库。不明白具体怎么操作哈哈
“然后在转换的文件权重后添加一行0(零)就行了” 请问这一步,在哪里进行添加呢?
参见我提供的词库文件