[howto] ibus中使用万能五笔与scim码表转ibus码表


更新:

http://code.google.com/p/hslinuxextra/downloads/list

上面的地址中,增加了三个词库文件和工程的源代码,有兴趣的同学可以自己去搞搞。

三个词库文件分别为:精简的词库、较全面的词库和非常全面的词库,自己下载解压后使用。

另外,很多人说词频不对,我现在调整了一下逻辑:ibus中词频信息没做任何变化,而fcitx中原有词频是较高等级而新词等级较低。

ibus pinyin要求最低为1.3.0,这个大家注意一下。

大家需要注意的是,不同版本甚至同一个版本不同发行版上词库db的目录可能不一样

请根据您自己的发行版和版本查找对应的文件覆盖

另外,经过与ibus开发者协商,ibus-pinyin的词库查找规则做了一些更改,只要在词库目录(就是有一个.db文件的那个目录,一般是/usr/share/ibus-pinyin/db目录)把新词库复制过来并改名为local.db就可以使用了,如果感觉词库不好直接删除掉local.db就可以让ibus使用原来的词库。




这两天,真的很累,没有一刻闲着的,公司的事情太多,太累了。

忙着无聊的时候,去搜狐的输入法网站上转了转,发现它竟然能下输入法词库文件

这个词库,utf-16编码的,反向出来以后,我给导入到了ibus拼音输入法里面了

唉,大家别怪我

去下面这个地址下载下来

http://code.google.com/p/hslinuxextra/downloads/list上的android.7z

或者直接点击链接:

http://hslinuxextra.googlecode.com/files/android.7z

然后解压,你应该会看到一个android.db文件,把这个文件放到/usr/share/ibus-pinyin/db里面,覆盖同名的db文件

不过有的同学ibus-pinyin的词库是openphrase的,反正这个目录里面只有一个db文件,你用你下载解压的那个文件改名后覆盖掉就行了

覆盖以后,你把ibus重启一下,如果你能打出下面的这个词组,说明生效了:

代码:
弗雷德霍姆行列式


我的这个词库,基于ibus原有的android词库文件,另外增加了搜狐的下列词库:
代码:

IT计算机 电脑词汇大全        历史名人大全  搜狗标准大词库        医学词汇大全
财会词汇大全          电子计算机通信专业术语农业词汇大全  搜狗精选词库          艺术家小辞海
常用餐饮词汇【官方推荐】电子术语大全        农业类词库    搜狗万能词库          音乐大杂烩
常用植物名            动物词汇大全        农业系统扩充词库唐诗宋词成语俗语      饮食词汇大全
虫蛇类名词            概率与数理统计词库pro 全面词库      网络流行新词          影视歌名库
船舶港口词汇大全      化学词汇大全        诗词名句大全  网上最全的11.44万全国四级行政区划词库职业作家词库
地理地质词汇大全      机械工程词汇大全    书法词库大全  药品名称大全          最详细的全国地名大全
地质大词典            计算机名词          搜狗标准词库  医学词汇大全 (1)





我知道我的行为不妥,但是我的目的是让大家能学到新的词语

望大家勿怪

PS:我发现这个词库虽然比较大,但是实际占用内存不多,ibus的相应也挺迅速


---------------------------我是华丽的分割线-----------------------------------

另外,我增加了fcitx的词库:pyPhrase.org pyphrase.mb pybase.mb

http://hslinuxextra.googlecode.com/files/fcitx.7z

下载并解压

其中pyphrase.mb pybase.mb是编译好的词库,连同pyPhrase.org直接覆盖已经安装好的fcitx中的同名文件即可:/usr/share/fcitx/data中(把解压后的三个文件同时覆盖fcitx原有文件)

pyPhrase.org是源文件,编译时覆盖源代码目录的同名文件,也同样会生成pyphrase.mb。

请同学们多加使用

另外,由于ibus使用的sql,所以兼容性问题不大,但是对于fcitx来说可能会有问题出现,如果你的不能用,那么用下面的命令自己根据pyPhrase来做mb文件:

代码:
createPYMB /usr/share/fcitx/data/gbkpy.org ./pyPhrase.org


把生成的mb文件连同pyPhrase.org覆盖掉fcitx安装的data文件就可以了

作者: hubert_star   发布时间: 2010-01-13

楼主,你很过份,你不知道那些词库只能用于m$ win下面的sougou拼音吗?

请在24小时之内删除您的文件!

作者: hubertstar   发布时间: 2010-01-13

不好意思

我刚刚去删了一下

发现googlecode上面传上去就不让删除了,咋办?

作者: hubert_star   发布时间: 2010-01-13

二楼。。。

作者: tenzu   发布时间: 2010-01-13

我的/usr/share/ibus-pinyin/没有db这个文件夹,楼主说ibus-pinyin的词库是openphrase的,是什么意思,应该覆盖在哪里阿?

作者: antaur   发布时间: 2010-01-13


双簧呢


什么时候更新fcitx的词库呢
很期待!

作者: jxhow   发布时间: 2010-01-13

要fcitx的是吧?

我跑一下,晚上发上来

不过大家要有心里准备,说不定我回头睡觉去了

作者: hubert_star   发布时间: 2010-01-13

作者: jxhow   发布时间: 2010-01-13

再来支持 明天再试

作者: jxhow   发布时间: 2010-01-13

严重bs~~~

作者: leeaman   发布时间: 2010-01-13

我这里IBUS用不成阿,我覆盖的是/usr/share/ibus-pinyin/engine下的py.db

作者: aric286   发布时间: 2010-01-13

还挺大的,这么多词不会让ibus变慢吧?

作者: highwind   发布时间: 2010-01-13

杯具,i failed

作者: delectate   发布时间: 2010-01-13

用了140mb的内存...

作者: leeaman   发布时间: 2010-01-13

leeaman 写道:
用了140mb的内存...

汗了。不敢试了。

作者: bobobo80   发布时间: 2010-01-13

fcitx是把词库全都load到内存里面,所以大词库占用内存肯定很多,好在响应快

而ibus的pinyin则是用sql到sqlite中去查询,一般内存占用不大,兼容性也好,不过高io的时候会有停顿的现象,而且我也做过ibus词库的索引,速度应该不会太慢

fcitx最好把pyPhrase.org根据自己的机器编译成mb文件,而ibus直接替换就行

作者: hubert_star   发布时间: 2010-01-13

我还庆幸着了。。看样子 还是不要用了。。

作者: weizh126   发布时间: 2010-01-13

这个东西,大词库,放哪都这样那样的问题

备份自己的东西,看看好用不好用,如果好用,就用,不好用恢复文件就行

作者: hubert_star   发布时间: 2010-01-13

机器没啥毛病

就是内存大

作者: hcym   发布时间: 2010-01-13

找到搜狗的感觉

回头再试试摆渡

作者: hcym   发布时间: 2010-01-13

搜狐 ,开始还有点纳闷呢 .
原来是utf-16的编码啊 ,被我直接看成了unicode编码,怪不得有些地方解不对
黑手能把转换的脚本发不出来看看不 ?看你胃口很大啊 ,一口气转了这么多.佩服 !

作者: t3swing   发布时间: 2010-01-14

http://paste.ubuntu.org.cn/48248

作者: hubert_star   发布时间: 2010-01-14

顶下帖子 晚上回来试下~

作者: giliath   发布时间: 2010-01-14

java版本啊 ,不太懂 ,支持黑手 ,以后fcitx支持多词库 ,按需求添加mb更容易办了

作者: t3swing   发布时间: 2010-01-14

本身fcitx就有附带的工具的,很方便词库操作

作者: hubert_star   发布时间: 2010-01-14

收藏了。
帮顶

作者: npnufn   发布时间: 2010-01-15

lucifer@lucifer-desktop:/usr/share/ibus-pinyin/engine$ ls
factory.py pinyin.pyc pyparser.py pyutil.pyc specialtable.py
factory.pyc py.bd~~ pyparser.pyc special_phrase specialtable.pyc
main.py py.db pysqlitedb.py specialphrase.py
main.pyc pydict.py pysqlitedb.pyc specialphrase.pyc
pinyin.py pydict.pyc pyutil.py special_table


lz请问我应该覆盖哪个db文件
我的ibus没有你说的那个目录和文件
覆盖了最大的py.db但是没反应

作者: ltkun   发布时间: 2010-01-15

ltkun 写道:
lucifer@lucifer-desktop:/usr/share/ibus-pinyin/engine$ ls
factory.py pinyin.pyc pyparser.py pyutil.pyc specialtable.py
factory.pyc py.bd~~ pyparser.pyc special_phrase specialtable.pyc
main.py py.db pysqlitedb.py specialphrase.py
main.pyc pydict.py pysqlitedb.pyc specialphrase.pyc
pinyin.py pydict.pyc pyutil.py special_table


lz请问我应该覆盖哪个db文件
我的ibus没有你说的那个目录和文件
覆盖了最大的py.db但是没反应



是啊,我的也是同样的情况……

作者: happyz90   发布时间: 2010-01-15

楼上几位的ibus版本忒低....

作者: adam8157   发布时间: 2010-01-15

fcitx的词库建议大家还是别覆盖了,词虽然是全了,但词频全乱了,打起字来好别扭

作者: zcbenz   发布时间: 2010-01-15

adaml 写道:
楼上几位的ibus版本忒低....

谢谢!同时也谢谢楼主,我的成功了~~~

作者: happyz90   发布时间: 2010-01-15

我覆盖了fcitx的词库,内存占用是80.7M,也还行,不算太大
不过词汇上倒是充实了,不过词频非常差,基本上常用的词都在后边甚至在第二列……
估计用一段时间后会好些。

不过说实话,这个sougou细胞词库合并没必要搞这么多阿
楼主能不能出一个sougou常用词汇+网络流型词的版本?

作者: lunacory   发布时间: 2010-01-16

看到说 fcitx 词频问题...下载了 但是还没开始用@ 先谢谢楼主,原来的那个,我还用着@ 发此帖,意在mark@

作者: tyro   发布时间: 2010-01-16

好!!

作者: kunkun0217   发布时间: 2010-01-16

楼主经常自己和自己聊天

作者: jiangkero   发布时间: 2010-01-16

搞定,哈哈

作者: gt945   发布时间: 2010-01-16

我用ibus成功了。fcitx更新后不好用,卸载了

作者: kuxinren   发布时间: 2010-01-16

/usr/share/ibus-pinyin/engine/py.db

I replace this SQLite Database file with android.db ,I can not input with pinyin IME now >_<

作者: weilichun   发布时间: 2010-01-16

我的是ibus 1.2 没有那个db目录,难道你们是1.3? 说下那里下载?

作者: sx-ljm   发布时间: 2010-01-17

代码:
$ tree /usr/share/ibus-pinyin/
/usr/share/ibus-pinyin/
|-- db
|   |-- android.bak.db
|   |-- android.db
|   `-- google.db
|-- icons
|   |-- chinese.svg
|   |-- english.svg
|   |-- full-punct.svg
|   |-- full.svg
|   |-- half-punct.svg
|   |-- half.svg
|   |-- ibus-pinyin.svg
|   |-- simp-chinese.svg
|   `-- trad-chinese.svg
`-- setup
    |-- ibus-pinyin-preferences.ui
    |-- main.py
    `-- main.pyc

3 directories, 15 files


确实是版本低,升级到Ibus1.3,然后安装ibus-pinyin-db-android
然后就可以覆盖android.db数据库文件了


可以在Ubuntu-tweak里添加ibus源,然后升级ibus

作者: weilichun   发布时间: 2010-01-17

有些应该在
代码:
/usr/share/pinyin-database

作者: jiyuyan   发布时间: 2010-01-17

如果大家装的旧版本,直接替换也应该可以,只要是09年10月份以后的ibus版本应该都可以,不过我没有旧版本,无法测试

另外,我更新了词库,分成了三个词库,大家可以去看看。

词频信息现在很头疼,很多词在不同的文件中可能词频不一样,而且每个文件定义的词频我还没找到标准,只能是按照最大值来处理了。

作者: hubert_star   发布时间: 2010-01-18

黑高手

词频要命啊,用了两天没适应

还是删尽配置文件,换alpha.gu的最新版了

作者: hcym   发布时间: 2010-01-18

楼上,fcitx的词频问题我调整过了

对于fcitx原有词库的单词,总是排在最前面,而且按照原有词频来排列的

对于新增加的词频,目前词频也简单调整过,应该能满足日常需要了

作者: hubert_star   发布时间: 2010-01-18

很快就搞定了哈 ,不过黑手的传上来的full就有点吓人了,我的慢网络 只能望洋兴叹了.
看了下代码 ,java的,不懂,词频信息是 0a后面的部分吧?不过后续处理看不明白了.
发现java的东西,空目录还真让人受不了,不知道要cd多少次才能看到代码
引用:
sw@~/桌面/sougou-phrases-project-src$tree
.
|-- data
|-- pom.xml
`-- src
|-- main
| |-- java
| | `-- org
| | `-- hubertstar
| | `-- system
| | `-- phrase
| | |-- ByteArrayUtils.java
| | |-- common
| | | `-- Phrase.java
| | |-- inputmethod
| | | |-- fcitx
| | | | `-- FcitxPhraseGenerator.java
| | | `-- ibus
| | | `-- IBusPhraseGenerator.java
| | `-- sougou
| | `-- SougouScel.java
| `-- resources
|-- script
`-- test
|-- java
| `-- org
| `-- hubertstar
| `-- system
| `-- phrase
| |-- FcitxTest.java
| `-- IBusTest.java
`-- resources
|-- a.scel
|-- android.db
|-- create_index.sql
|-- log4j.xml
`-- scel

23 directories, 12 files
sw@~/桌面/sougou-phrases-project-src$

黑手,貌似没看到词频调整的脚本 ,不会是用java写的吧?

作者: t3swing   发布时间: 2010-01-18