[howto] ibus中使用万能五笔与scim码表转ibus码表
更新:
http://code.google.com/p/hslinuxextra/downloads/list
上面的地址中,增加了三个词库文件和工程的源代码,有兴趣的同学可以自己去搞搞。
三个词库文件分别为:精简的词库、较全面的词库和非常全面的词库,自己下载解压后使用。
另外,很多人说词频不对,我现在调整了一下逻辑:ibus中词频信息没做任何变化,而fcitx中原有词频是较高等级而新词等级较低。
ibus pinyin要求最低为1.3.0,这个大家注意一下。
大家需要注意的是,不同版本甚至同一个版本不同发行版上词库db的目录可能不一样
请根据您自己的发行版和版本查找对应的文件覆盖
另外,经过与ibus开发者协商,ibus-pinyin的词库查找规则做了一些更改,只要在词库目录(就是有一个.db文件的那个目录,一般是/usr/share/ibus-pinyin/db目录)把新词库复制过来并改名为local.db就可以使用了,如果感觉词库不好直接删除掉local.db就可以让ibus使用原来的词库。
这两天,真的很累,没有一刻闲着的,公司的事情太多,太累了。
忙着无聊的时候,去搜狐的输入法网站上转了转,发现它竟然能下输入法词库文件
这个词库,utf-16编码的,反向出来以后,我给导入到了ibus拼音输入法里面了
唉,大家别怪我
去下面这个地址下载下来
http://code.google.com/p/hslinuxextra/downloads/list上的android.7z
或者直接点击链接:
http://hslinuxextra.googlecode.com/files/android.7z
然后解压,你应该会看到一个android.db文件,把这个文件放到/usr/share/ibus-pinyin/db里面,覆盖同名的db文件
不过有的同学ibus-pinyin的词库是openphrase的,反正这个目录里面只有一个db文件,你用你下载解压的那个文件改名后覆盖掉就行了
覆盖以后,你把ibus重启一下,如果你能打出下面的这个词组,说明生效了:
我的这个词库,基于ibus原有的android词库文件,另外增加了搜狐的下列词库:
IT计算机 电脑词汇大全 历史名人大全 搜狗标准大词库 医学词汇大全
财会词汇大全 电子计算机通信专业术语农业词汇大全 搜狗精选词库 艺术家小辞海
常用餐饮词汇【官方推荐】电子术语大全 农业类词库 搜狗万能词库 音乐大杂烩
常用植物名 动物词汇大全 农业系统扩充词库唐诗宋词成语俗语 饮食词汇大全
虫蛇类名词 概率与数理统计词库pro 全面词库 网络流行新词 影视歌名库
船舶港口词汇大全 化学词汇大全 诗词名句大全 网上最全的11.44万全国四级行政区划词库职业作家词库
地理地质词汇大全 机械工程词汇大全 书法词库大全 药品名称大全 最详细的全国地名大全
地质大词典 计算机名词 搜狗标准词库 医学词汇大全 (1)
我知道我的行为不妥,但是我的目的是让大家能学到新的词语
望大家勿怪
PS:我发现这个词库虽然比较大,但是实际占用内存不多,ibus的相应也挺迅速
---------------------------我是华丽的分割线-----------------------------------
另外,我增加了fcitx的词库:pyPhrase.org pyphrase.mb pybase.mb
http://hslinuxextra.googlecode.com/files/fcitx.7z
下载并解压
其中pyphrase.mb pybase.mb是编译好的词库,连同pyPhrase.org直接覆盖已经安装好的fcitx中的同名文件即可:/usr/share/fcitx/data中(把解压后的三个文件同时覆盖fcitx原有文件)
pyPhrase.org是源文件,编译时覆盖源代码目录的同名文件,也同样会生成pyphrase.mb。
请同学们多加使用
另外,由于ibus使用的sql,所以兼容性问题不大,但是对于fcitx来说可能会有问题出现,如果你的不能用,那么用下面的命令自己根据pyPhrase来做mb文件:
把生成的mb文件连同pyPhrase.org覆盖掉fcitx安装的data文件就可以了
作者: hubert_star 发布时间: 2010-01-13
请在24小时之内删除您的文件!
作者: hubertstar 发布时间: 2010-01-13
我刚刚去删了一下
发现googlecode上面传上去就不让删除了,咋办?
作者: hubert_star 发布时间: 2010-01-13
作者: tenzu 发布时间: 2010-01-13
作者: antaur 发布时间: 2010-01-13
双簧呢
什么时候更新fcitx的词库呢
很期待!
作者: jxhow 发布时间: 2010-01-13
我跑一下,晚上发上来
不过大家要有心里准备,说不定我回头睡觉去了
作者: hubert_star 发布时间: 2010-01-13
作者: jxhow 发布时间: 2010-01-13
作者: jxhow 发布时间: 2010-01-13
作者: leeaman 发布时间: 2010-01-13
作者: aric286 发布时间: 2010-01-13
作者: highwind 发布时间: 2010-01-13
作者: delectate 发布时间: 2010-01-13
作者: leeaman 发布时间: 2010-01-13
汗了。不敢试了。
作者: bobobo80 发布时间: 2010-01-13
而ibus的pinyin则是用sql到sqlite中去查询,一般内存占用不大,兼容性也好,不过高io的时候会有停顿的现象,而且我也做过ibus词库的索引,速度应该不会太慢
fcitx最好把pyPhrase.org根据自己的机器编译成mb文件,而ibus直接替换就行
作者: hubert_star 发布时间: 2010-01-13
作者: weizh126 发布时间: 2010-01-13
备份自己的东西,看看好用不好用,如果好用,就用,不好用恢复文件就行
作者: hubert_star 发布时间: 2010-01-13
就是内存大
作者: hcym 发布时间: 2010-01-13
回头再试试摆渡
作者: hcym 发布时间: 2010-01-13
原来是utf-16的编码啊 ,被我直接看成了unicode编码,怪不得有些地方解不对
黑手能把转换的脚本发不出来看看不 ?看你胃口很大啊 ,一口气转了这么多.佩服 !
作者: t3swing 发布时间: 2010-01-14
作者: hubert_star 发布时间: 2010-01-14
作者: giliath 发布时间: 2010-01-14
作者: t3swing 发布时间: 2010-01-14
作者: hubert_star 发布时间: 2010-01-14
帮顶
作者: npnufn 发布时间: 2010-01-15
factory.py pinyin.pyc pyparser.py pyutil.pyc specialtable.py
factory.pyc py.bd~~ pyparser.pyc special_phrase specialtable.pyc
main.py py.db pysqlitedb.py specialphrase.py
main.pyc pydict.py pysqlitedb.pyc specialphrase.pyc
pinyin.py pydict.pyc pyutil.py special_table
lz请问我应该覆盖哪个db文件
我的ibus没有你说的那个目录和文件
覆盖了最大的py.db但是没反应
作者: ltkun 发布时间: 2010-01-15
factory.py pinyin.pyc pyparser.py pyutil.pyc specialtable.py
factory.pyc py.bd~~ pyparser.pyc special_phrase specialtable.pyc
main.py py.db pysqlitedb.py specialphrase.py
main.pyc pydict.py pysqlitedb.pyc specialphrase.pyc
pinyin.py pydict.pyc pyutil.py special_table
lz请问我应该覆盖哪个db文件
我的ibus没有你说的那个目录和文件
覆盖了最大的py.db但是没反应
是啊,我的也是同样的情况……
作者: happyz90 发布时间: 2010-01-15
作者: adam8157 发布时间: 2010-01-15
作者: zcbenz 发布时间: 2010-01-15
谢谢!同时也谢谢楼主,我的成功了~~~
作者: happyz90 发布时间: 2010-01-15
不过词汇上倒是充实了,不过词频非常差,基本上常用的词都在后边甚至在第二列……
估计用一段时间后会好些。
不过说实话,这个sougou细胞词库合并没必要搞这么多阿
楼主能不能出一个sougou常用词汇+网络流型词的版本?
作者: lunacory 发布时间: 2010-01-16
作者: tyro 发布时间: 2010-01-16
作者: kunkun0217 发布时间: 2010-01-16
作者: jiangkero 发布时间: 2010-01-16
作者: gt945 发布时间: 2010-01-16
作者: kuxinren 发布时间: 2010-01-16
I replace this SQLite Database file with android.db ,I can not input with pinyin IME now >_<
作者: weilichun 发布时间: 2010-01-16
作者: sx-ljm 发布时间: 2010-01-17
/usr/share/ibus-pinyin/
|-- db
| |-- android.bak.db
| |-- android.db
| `-- google.db
|-- icons
| |-- chinese.svg
| |-- english.svg
| |-- full-punct.svg
| |-- full.svg
| |-- half-punct.svg
| |-- half.svg
| |-- ibus-pinyin.svg
| |-- simp-chinese.svg
| `-- trad-chinese.svg
`-- setup
|-- ibus-pinyin-preferences.ui
|-- main.py
`-- main.pyc
3 directories, 15 files
确实是版本低,升级到Ibus1.3,然后安装ibus-pinyin-db-android
然后就可以覆盖android.db数据库文件了
可以在Ubuntu-tweak里添加ibus源,然后升级ibus
作者: weilichun 发布时间: 2010-01-17
作者: jiyuyan 发布时间: 2010-01-17
另外,我更新了词库,分成了三个词库,大家可以去看看。
词频信息现在很头疼,很多词在不同的文件中可能词频不一样,而且每个文件定义的词频我还没找到标准,只能是按照最大值来处理了。
作者: hubert_star 发布时间: 2010-01-18
词频要命啊,用了两天没适应
还是删尽配置文件,换alpha.gu的最新版了
作者: hcym 发布时间: 2010-01-18
对于fcitx原有词库的单词,总是排在最前面,而且按照原有词频来排列的
对于新增加的词频,目前词频也简单调整过,应该能满足日常需要了
作者: hubert_star 发布时间: 2010-01-18
看了下代码 ,java的,不懂,词频信息是 0a后面的部分吧?不过后续处理看不明白了.
发现java的东西,空目录还真让人受不了,不知道要cd多少次才能看到代码
.
|-- data
|-- pom.xml
`-- src
|-- main
| |-- java
| | `-- org
| | `-- hubertstar
| | `-- system
| | `-- phrase
| | |-- ByteArrayUtils.java
| | |-- common
| | | `-- Phrase.java
| | |-- inputmethod
| | | |-- fcitx
| | | | `-- FcitxPhraseGenerator.java
| | | `-- ibus
| | | `-- IBusPhraseGenerator.java
| | `-- sougou
| | `-- SougouScel.java
| `-- resources
|-- script
`-- test
|-- java
| `-- org
| `-- hubertstar
| `-- system
| `-- phrase
| |-- FcitxTest.java
| `-- IBusTest.java
`-- resources
|-- a.scel
|-- android.db
|-- create_index.sql
|-- log4j.xml
`-- scel
23 directories, 12 files
sw@~/桌面/sougou-phrases-project-src$
黑手,貌似没看到词频调整的脚本 ,不会是用java写的吧?
作者: t3swing 发布时间: 2010-01-18