ChineseInformationProcessing
出自DebianWiki
目錄 |
[編輯] 字碼
- 認識中文碼, by 曾士熊, 魏林梅
- 中文碼介紹
- 預覽 Big5-2003, by 謝東翰
- BIG5-UAO Big5/Unicode 補完計劃
- Unicode 補完計劃: 事實上,大陸的 GB2312 碼,甚至韓國的內碼中,都有日文假名的部分,而且在 Windows 中也未被消去。只有繁體中文的 BIG5 碼,在 Windows 裡,這個部分被刪除了。 所以大陸的網友,他們要顯示日文,並不需要特別安裝什麼外字,甚至日本網站抓下來的日文,可以直接貼在 BBS 上,不會有什麼問題。 (Shift-JIS 碼會被先轉成 Unicode 碼,再正確地轉成 GB 的對應碼。) 對他們來說是很正常的事,在台灣、香港好像是天方夜譚。
- but (よっしゃ!):
- 事實上, Unicode 補完計畫已經收錄了 GB2312 與 SJIS 裡所有漢字,還收錄了 Big5-2003 裡定義的部首與偏旁等文字。
- 事實上,以 Windows 這個平台而言,雖然 Windows NT 改以 Unicode 為核心了,但是支援 Unicode 的開發環境實在不成熟!
- UAO related patch under unix:
- 中文資訊交換碼(CCCII)為什麼沒有成為國家標準?
- 謝清俊: CCCII一直維護到三、四年前張仲陶教授過世以前,之後我也不再做維護了。我認為CCCII從1979年發展出來,經過20多年後,階段性的任務已經完成,沒有必要再維持下去。而且現在這個缺字系統出來,就可以取代CCCII了。
- Unicode & ISO-10646
- UNIX 與 C 語言之父 Ken Thompson 在 1992 年發明 UTF-8,該系統首次出現於 UNIX-like 作業系統 Plan-9 中,隨後於 1990 年中期出現於主流作業系統
- Keyword: Universal Character Set (UCS) Transformation Format 8 bit (UTF-8)
- Unicode 與 ISO10646 上, by 曾士熊
- Unicode 與 ISO10646 下, by 曾士熊
- UTF-8 and Unicode FAQ, 中譯
- Joel on Unicode,中譯
- UNICODE HAN DATABASE (unihan.txt)
[編輯] 字
- char, glyph, ideograph
- 繁簡對照表
- 漢字查詢系統
- UNICODE 構字式
- 電子佛典一般組字式基本規則
- 漢字構形資料庫使用手冊
- 漢字缺字處理與梵巴藏字母的輸入
- 莊德明: 以往我們總覺得五大碼字太少了,所以才會有缺字問題,其實五大碼已經收得太多了,一半以上的字都很少在用,不但浪費字碼的空間,還讓這些難得用一次的字形佔用了不少電腦資源。
- 中文字根孳乳表稿, 周何, 民國七十三年
- 「字根」共計1134個,其中「聲母」869個,「形母」265個
- Project SIL Graphite[1] and Project SILA[2]
- Graphite is a project under development within SIL’s Non-Roman Script Initiative and Language Software Development groups to provide rendering capabilities for complex non-Roman writing systems
- See also Complex Script in Wikipedia
- 漢字智慧型編碼網路工具集 ICS Toolkit
- 剎那動態組字產生器 Javascript 版
[編輯] 字音
- 注音符號 ( Bopomofo / zhùyīn fúhào)
- 漢語拼音 ( Hanyu / Hànyŭ Pīnyīn )
- 通用拼音
- 漢字古今音檢索系統, 臺灣大學中文系楊秀芳教授
[編輯] 詞
[編輯] 中文詞 與 英文字
morpheme tri, angle 老, 師, 虎 root angle 師 虎 prefix triangle 老師 老虎 suffix accessibility 可近性 公平會 phrase a lot of people 人山人海 國大代表
[編輯] 詞庫
- tsi.src in [libtabe], in [新酷音]
- [紫光81萬詞庫]
- http://members.xoom.com/_XOOM/ezinput/ezbig.cin
- http://phrasecenter.freehosting.net/
- 小魏老舖的字詞研究, by 魏金財
- http://cvs.aspseek.org/viewcvs/viewcvs.cgi/aspseek/etc/tables/chinese.txt
- 教育部國語辭典
- 簡繁對照表/詞庫
- 簡繁轉換詞庫
- cpatch 簡繁對照詞庫, 最新的是 1.4 版
- 同文堂 简体到繁体的词汇转换表
[編輯] 中文斷詞 與 資訊理論
- Word Identification for Mandarin Chinese Sentences by 陳克健
- CNS14366中文分詞標準與分詞的實際操作
- 淺論中文斷詞 , by 蔡志浩
- 中文未知詞偵測, by 葉秉哲
- Unknown Word Detection for Chinese by a Corpus-based Learning Method by 陳克健 (html version)
- Automatic Part-of-Speech Tagging for Chinese Corpora, by 劉興寰(?)
- Bigram based dynamic programming algorithm for Chinese word segmentation, by b6s
- 資訊與熵, from MIT open courseware
- 自然語言處理, from MIT open courseware
[編輯] 中文斷詞實做
- 中文斷詞系統
- http://ckipsvr.iis.sinica.edu.tw
- by 陳克健 et al, 中研院詞庫小組
- 計算所漢語詞法分析系統ICTCLAS
- http://www.nlp.org.cn/project/project.php?proj_id=6
- by Kevin Zhang (張華平), Institute of Computing Technology, Chinese Academy of Sciences
- MMSEG
- http://technology.chtsai.org/mmseg/
- A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm, by 蔡志浩
- OV WordSegmenter
- http://svn.openfoundry.org/openvanilla/trunk/Experiments/WordSegmenter/
- by OV core team, in C++, 需要以 SRILM 製作的 language model 檔案
- PatTree 中文抽詞程式
- g2bCorrector
- http://www.ljm.idv.tw/mywiki/NaturalLanguageProcessingFightingSpam
- 斷詞與簡轉繁後的校正 by ljm
- libtabe
- original: http://libtabe.sourceforge.net/
- xcin cvs version: http://packages.debian.org/stable/libdevel/libtabe-dev
- with db4 patch (from redhat) http://people.linux.org.tw/~pofeng/libtabe/
- Perl binding: Lingua::ZH::TaBE
- Python binding:CSplitter
- 參考文獻
- 結果分析: Homophone Resolution in Chinese Input — Using Syllable , by 蕭百翔
- 相關討論
[編輯] 翻譯工具
- OmegaT is a free translation memory application written in Java
- 自動輔助翻譯腳本 (autowork)
- PO 語法驗證器
- DebianPackages:kbabel - PO-file editing suite for KDE
- DebianPackages:kbabel-dev - PO-file editing suite for KDE (development files)
- potool - A program to aid manipulation of gettext po files
- poedit - Cross-platform gettext catalog editor
- gtranslator - PO-file editor for the GNOME Desktop
- DebianPackages:pointerize - Internationalization utilities, based on gettext
[編輯] 程式碼國際化架構 (i18n)
- 親手打造 GNU/Linux 中文環境 by thhsieh & platin
- i18n 簡介 by Tomohiro KUBOTA
- 齊來探討 GNU/Linux 中文化 by anthony
- The Single UNIX Specification, Version 2 - Locale
- The GNU C Library - Locales and Internationalization
- MSDN Library Internationalization
[編輯] 程式碼範例
- C
- wcs vs mbs, gettext, iconv,
- autoconvert
- Perl
- use Encode, quotemeta, piconv
- http://netlab.cse.yzu.edu.tw/~statue/freebsd/zh-tut/perl.html
- Python
- pycodec
- java
- ICU (International Component for Unicode)
[編輯] 字型
- 開放授權的字型
- non-free 字型 (可下載)
- 字型處理相關工具
- DebianPackages:autotrace - bitmap to vector graphics converter
- fontforge (previous pfaedit) http://fontforge.sourceforge.net/
- Standard Type Services Framework (STSF) http://stsf.sourceforge.net/
- ideogram and pangram
[編輯] 列印
- Unix 的中文列印, 沈俊興, International Conference on Open Source 2003
- http://freebsd.sinica.edu.tw/~statue/print/print.pdf
- http://netlab.cse.yzu.edu.tw/~statue/freebsd/print/print.pdf
- 中文列印
- Mozilla 列印中文
- http://linux.tnc.edu.tw/techdoc/mozilla-print-zhtw.html
- http://www.linuxhall.org/modules.php?name=News&file=article&sid=152
[編輯] 輸入法
- User:jserv 在中文輸入法工作坊的簡報〈輸入法發展實戰〉
[編輯] 架構
目前 X Winodw/Open Source Platform 的輸入法架構架構大致可分為
- XIM (X Input Method)
- GTK+/Qt IMModules
- GtkIMContext http://developer.gnome.org/doc/API/2.0/gtk/GtkIMContext.html
- immodule for Qt,Qt 下的輸入法解決方案 - http://www.kde.gr.jp/~daisuke/immodule_for_qt/ImmoduleForQtDocs.html
- 在 KDE-devel mailing-list 的介紹:http://lists.kde.org/?l=kde-devel&m=108317455331918&w=2
- 日文簡報:http://www.kde.gr.jp/~daisuke/immodule_for_qt/mitou-seika/mitou-seika.html
- immodule for Qt patch:http://www.kde.gr.jp/~daisuke/immodule_for_qt/patch/
- UIM 附加模組:http://www.kde.gr.jp/~daisuke/immodule_for_qt/pukiwiki/?QUimInputContext
- IIIMF Internet/Intranet Input Method Framework, IIIMF http://www.openi18n.org/subgroups/im/IIIMF/
- DebianPackages:iiimecf (IIIM Emacs Client Framework)
- DebianPackages:iiimgcf (IIIM Gtk+ Client Framework)
- IIIMJCF (IIIM Java Client Framework)
- IIIMXCF (IIIM X Client Framework)
- IIIMCCF (IIIM Console Client Framework) - http://iiimtcf.csie.net/
- 中文應用環境讀書會 (讀書會中多次述及 IIIMF 內容)
- SCIM (Smart Common Input Method platform) - http://www.scim-im.org/
- 足以與 IIIMF 抗衡的新架構
- 同時兼具 IIIMF 的 Client/Server 架構與 UIM 的 dynamic loading 機制
[編輯] OpenVanilla 架構
( OV-OSX | OSX Text Service ) <=> OSX Ap ( OV-SCIM | XIM/SCIM ) <=> X Ap ( OV-IME | Windows IME ) <=> Win32 Ap
OVIMTobacco/sqlite3 <=> tsi.db OVIMSpaceChewing0.3 <=> libchewing0.3 <=> *.dat OVIMUIM <=> (UIM) <=> *.scm (?)
- OV with WebKit on MacOS
- Web IME 討論記錄與實作進度
- http://xd.othree.net/tmp/ov/ov.html ( Press Ctrl to Invoke IME )
- http://people.linux.org.tw/~pofeng/ov-webime/zhuyin-kb.html
- http://svn.openfoundry.org/openvanilla/trunk/Experiments/bookmarklet/ ( old code )
- bookmarklet screenshot: http://flickr.com/photos/b6s/134162333/
- server by gugod: http://svn.openfoundry.org/openvanilla/trunk/Experiments/Web/
[編輯] XIM
- Xcin (DebianPackages:xcin) - http://xcin.linux.org.tw
- Chinput (中文輸入法服務器)
- 作者網頁 (含許多中文環境相關套件) - http://www.opencjk.org/~yumj/
- http://www.opencjk.org/~yumj/project-chinput.html (簡體中文)
- http://www.opencjk.org/~yumj/project-chinput-e.html (英文網頁)
- CJKVInput, an enhanced branch of UNICON/CHINPUT, which is used to display/input Chinese, Japanese, Korean & Vietnamese. - http://sourceforge.net/projects/cjkvinput
- SCIM (Smart Common Input Method platform) 的 X11FrontEnd - http://www.scim-im.org/
- 小企鵝中文輸入法(fcitx) - http://www.fcitx.org/
- XIM prototype by Cosmos Lee - http://www.cis.nctu.edu.tw/~is84086/Project/XIM/#install
- Wineinput is an effort to port a Windows IME (Input Method Editor) to XFree86 using WINE. It can be used to input CJK characters using a Windows IME directly through XIM. - http://opencjk.org/projects/wineinput/
- xsim(X Simple Input Method) - http://xsim.sourceforge.net/
- ZWinPro http://www.opencjk.org/~yumj/project-zwinpro.html
- ZWinPro-3.0 简介 http://www.opencjk.org/~yumj/platform/ZWinPro.html
- 使用ZWinPro开发中文软件 http://www.opencjk.org/~yumj/develop/zwinpro.html
- gcin - http://www.csie.nctu.edu.tw/~cp76/gcin/
- 以 GTK+ 2.x 作為介面的輸入法實作,本身除了 XIM server,也提供 gtk+/qt immodule。
- XIM 規格與參考文獻
- XIM Protocol http://www.x.org/X11R6.8.1/docs/XIM/xim.pdf
- XIM Transport Specification ftp://ftp.x.org/pub/R6.3/xc/doc/hardcopy/i18n/
- X11R6 Sample Implementation Frame Work ftp://ftp.x.org/pub/R6.3/xc/doc/hardcopy/i18n/
- X Transport Interface ftp://ftp.x.org/pub/R6.3/xc/doc/hardcopy/xtrans/
- XIM 服务器和国际化客户程序 http://www-900.ibm.com/developerWorks/cn/linux/i18n/xim/xim-1/index.shtml
- XIM 协议的原理及其实现 http://www-900.ibm.com/developerWorks/cn/linux/i18n/xim/xim-2/index.shtml
[編輯] GTK+/QT IMModules
- DebianPackages:uim - http://uim.freedesktop.org/wiki/
- wenju (文具) - http://wenju.sourceforge.net/
- im-ja - http://im-ja.sourceforge.net/
- 支援 GTK2 IMModule 與 XIM
- scim-qtimm (Qt input module plugin for SCIM) - http://www.scim-im.org/projects
- gcin 提供 GTK+ 與 Qt im-module - http://www.csie.nctu.edu.tw/~cp76/gcin/
[編輯] IIIMF
- iiimf-chewing (iiimf 的酷音輸入法) - http://svn.elixus.org/repos/member/clkao/iiimf-chewing/ (DEAD)
- IIIMF-chewing 由新酷音計畫維護 - http://chewing.csie.net/
- IIIMF-SKK/IIIMF-CANNA, IIIMF-SKK is a Language Engine Module for IIIMF(Internet/Intranet Input Method Framework.) This module provides SKK(Simple Kana to Kanji conversion program, an input method of Japanese) like input method. - http://www.momonga-linux.org/~famao/iiimf-skk/en/
- iiimf-xcin - http://tciiimf.sourceforge.net/
- Debian package: http://www.debian.org.hk/~glee/deb/iiimf-le-xcin/
[編輯] SCIM (Smart Common Input Method platform)
- 為 FreeDesktop.org 的子計畫: http://www.scim-im.org
- 足以與 IIIMF 抗衡的新架構
- 架構:
- 第一種模式:類似 UIM 的 dynamic loading 機制
- 第二種模式:類似 IIIMF 的 Client/Server 架構
- 與現有架構良好的整合能力,以下的專案即是快速的整合現有架構的範例:
- scim-uim (使用 UIM 作為 backend)
- scim-m17n (使用 m17n library 作為 backend)
- 完善的使用者介面與設定工具
- scim-panel-gtk : GTK+ 2.x 打造的設定介面 (預設)
- skim (scim-panel-qt): KDE 環境下的 SCIM 設定介面
- 設計哲學
- 兼具簡易與彈性的 API
- 高度延展與動態性
- 徹底分離 IMEngine、FrontEnd,與 GUI Panel
- 各元件間維持低耦合度 (loose binding)
- 選擇性的 socket communication (IIIMF 是強制使用)
- 重要特徵
- 以 C++/STL 實作,提供有效與簡易清楚的 API (也提供 C API binding)
- 提供眾多函示簡化 IMEngine 開發的困難度
- 兼具 dynamic loading 的 Input Method backend 特徵 (類似 UIM) 與採用 Client-Server 架構 (類似 IIIMF)
- 輸入法引擎
- SCIM-chewing (SCIM 的新酷音輸入法引擎)
- 由新酷音計畫維護 - http://chewing.csie.net/
- SCIM-pinyin (SCIM 的智能拼音輸入法引擎)
- SCIM-{anthy,skk,wnn,prime} (SCIM 下日文 Anthy/SKK/Wnn/prime 輸入引擎)
- SCIM-uim (SCIM 與 UIM 的介面)
- SCIM-m17n (SCIM 與 m17n library 的介面)
- SCIM-hangul (SCIM 韓文輸入法引擎)
- SCIM-chewing (SCIM 的新酷音輸入法引擎)
- 參考文件
- Linux Internationalization HOWTO (英文/日文) - http://home.no.net/david/i18n.php
- SCIM 與 香港增補字符集 2001 之安裝 -
[編輯] Web Environment
- 中文網上輸入法
- 拼音
- 网上中文输入法 not ajax, 但可下載使用 http://drliew.net/webime/index.html
- InputKing在线中文输入系统 http://www.inputking.com/GB/index.php
- 繁體網上輸入法 http://people.linux.org.tw/~pofeng/webime/py-tw.html
- 倉頡
- 網上倉頡輸入法 http://www.chinesecj.com/ime/
- 無蝦米
- 網.蝦米 Hyper Liu http://liu.twbbs.org/hliu/
- 拼音
- Ajax を使った 日本語 IME
- JSON and AJAX
[編輯] Console Environment
- bcsx, by cnoize http://freebsd.nctu.edu.tw/~enthos/bcsx/
- Big5con is a chinese console. This is an alpha version. Supported video card is VGA only, and, supported fonts are Minix/V and BDF. This program requires shared memory. http://sourceforge.net/projects/big5con
- DebianPackages:cce - Chinese Console Environment http://programmer.lib.sjtu.edu.cn/cce/cce.html
- DebianPackages:chdrv - Chinese terminal for the Linux console
- DebianPackages:fbiterm - FrameBuffer Internationalized TERMinal emulator (fbiterm)
- DebianPackages:jfbterm - multilingual terminal on Linux framebuffer
- DebianPackages:yh - Yan Huang Chinese Platform, a console Chinese environment
- DebianPackages:zhcon - Fast CJK Virtual Console http://zhcon.sourceforge.net/
- Globalization Terminal
- Jmcce http://zope.slat.org/Project/Jmcce
[編輯] 手寫輸入
- Chrasis ( Chinese Handwriting Recognition As-Is ) by palatis
- Chinese Handwriting for Linux - IBM alphaworks http://www.alphaworks.ibm.com/tech/chinese4linux [not available anymore]
- Java Dict, handwriting recognition algorithms http://www.cs.arizona.edu/japan/JavaDict/
- JStroke http://www.wellscs.com/pilot/
- Kanji Pad - gtkkanjipad http://www.kotnet.org/~skimo/kanji/
- Kanji Pad - Japanese Handwriting recognition http://www.gtk.org/~otaylor/kanjipad/
- Kanji Pad 的新網頁 (演算法不變,新增 GTK2 的移植) http://fishsoup.net/software/kanjipad/
- Handheld Wiki 關於手寫辨識的項目: http://www.handhelds.org:8080/wiki/HandwritingRecognition
- 寫板驅動 + 手寫辨識 (by 歪林) http://input.foruto.com/IME/Linux/BIG5/HAND_WRITING/
- Chinput 的手寫辨識 http://www.opencjk.org/~yumj/chinput/tools.html
- Quikwriting 引進新的途徑改善手寫輸入 http://mrl.nyu.edu/projects/quikwriting/
- Sun Wah Linux - Hanwang handwriting recognition - http://www.swhss.com.cn/core/2.php
- ThizLinux Desktop 7.0 - PenPower WACOM LLC handwriting tablet support
- Tomoe - 日文手寫辨識 - http://tomoe.sourceforge.jp/cgi-bin/en/blog/index.rb
以下為 rabit 的個人見解 (Modified by User:jserv):
- KanjiPad 本身使用的辨識方法是很簡單的字典法,當使用者透過手寫版或滑鼠寫出字時,程式辨識出筆劃種類,並紀錄每個筆劃的順序,然後根據字典查出候選字。也因此,KanjiPad 根本不考慮寫出來的字形貌是否相似,只求筆劃順序相符。
http://www.opencjk.org/~yumj/chinput/chinput_5.gif
- 以 Cinput (修改自 Kanji Pad) 的圖為例,「林」這個字辨識出來的候選字有「林、杯、枝、板、茂」,這幾個字右半邊的「木、不、支、反」筆劃順序都是跟「木」是相似的。這樣的演算法辨識率是不高的,一但筆順不對,就很難辨識出來,不過話說回來,也不能太苛求 KanjiPad,因為它原本的用途就是日本人寫來學習漢字用的,可以說本來就是當作字典使用。
- 中文手寫辨識是難度相當高的, 困難的地方有二:
- 就技術而言,在辨識方面會用到許多數學模型,如 Baysian Decision Theory hidden Markov models、類神經網路等,而辨識中文還必須對中文字作分析,找出每個中文字的特徵 (筆形、筆順等),若要更精準,需拆解中文字成基本的部件,來作分析 (有點像漢字跡因工程),這時就要處理寫字上連筆的問題,技術上有實現的複雜度,但或許還不是最困難的。
- 必須對每一個字的分析,建立資料庫,這是需要大量的成本 (包含時間、人力等),中文字尤其複雜,除了大量的漢字,還有異體字、罕用字等,我想這對 open source 是最困難之處,這跟 open source license 中文字型的狀況有些類似。
[編輯] 各種輸入法
- 3-dayi - 三碼大易
- 4corner - 四角號碼
- array30 - 行列30輸入法 - http://www.array.com.tw/
- bimspinyin - 拼音輸入法
- chewing - 酷音輸入法 http://chewing.good-man.org/
- cj - 倉頡輸入法 - http://www.cbflabs.com/down/list.php?type=10
- CTLau - 劉式輸入法
- daibuun - 普實台文
- dayi - 大易輸入法 - http://www.dayi.com/
- 3-dayi - 三碼大易(見上文)
- easy - 輕鬆輸入法
- freepy - 自由拼音輸入法 (on Win32) - http://www.opencjk.org/projects/freepy/index.html
- Hakka - 客家音輸入法
- Handwriting - 手寫輸入法
- HSU - 許式輸入法
- HS - 華象輸入法
- jianpin - 簡拼
- jyutping - 粵語拼音輸入法
- klingon - 克林貢語
- liu - 嘸蝦米輸入法 http://www.liu.com.tw/ http://liu.twbbs.org/
- mycj - 我倉輸入法 http://www.geocities.com/Baja/Mesa/2118/
- phone,bimsphone - 注音輸入法
- pinyin - 拼音輸入法
- py - 拼音輸入法
- q9 - 九方注音輸入法 http://www.q9tech.com/
- roman - 羅馬拼音輸入法
- shuanpin - 雙拼輸入法
- simplex - 倉頡首尾碼簡易輸入法
- smcj - 快倉五代
- tonepy - 帶調拼音
- viavoice - IBM 語音輸入法
- wm2 王碼輸入法
- wubi - 五筆輸入法
- zh_hex - 內碼輸入法
- zhiranma - 國標自然
- zmdbosh - 蝦不吃米
- znpy - 智能拼音
- 六點輸入法(無字天書輸入法) http://www.blind.org.tw/braile.htm
- 快倉 2000 中文輸入法 http://www.scj2000.com/
- 快倉六代 Linux 版 http://www.scj2000.net/
- 倉捷輸入法
- 漢語拼音輸入法
- 智音輸入法
- 俞氏十鍵技術 http://www.10-key.com
- Minnan IM (台式閩南語輸入法) - http://unifont.freedesktop.org/wiki/Software_2fCJKUnifonts_2fMinnan_5fIM
- Hakka IM (台式客家話輸入法) - http://unifont.freedesktop.org/wiki/Software_2fCJKUnifonts_2fHakka_5fIM
[編輯] 各種輸入法表格
- CNS11643全字庫 distributed by http://opendesktop.org.tw/
- gcin
- libchewing-data
- OpenVanilla
- SCIM
[編輯] 相關研究
[編輯] 未分類
- Localisationdev.org Wiki - http://wiki.localisationdev.org/
- Chinese Computing http://www.chinesecomputing.com/index.html
- Chinese-related web pages with a focus on Chinese language learning for English speakers. http://www.ocrat.com/
- Linux Chinese HOWTO 中文版 http://www.linux.org.tw/CLDP/Chinese-HOWTO.html (資料舊)
- On-line Chinese Tools http://www.mandarintools.com/
- Seamonkey Input Method Specification http://www.mozilla.org/projects/intl/input-method-spec.html
- The Chinese FreeBSD Project http://freebsd.sinica.edu.tw/
- Zaurus-ja http://zaurus-ja.sourceforge.jp/
- 台英漢字離形數碼輸入法 http://163.14.134.45/6.htm
- 中文輸入法世界 http://input.foruto.com/
- 意術工場 http://netcity2.web.hinet.net/UserData/themaste/
- 輸入法開發討論版 telnet://bbs.sayya.org/InputMethod
[編輯] 其他語言輸入法
- 日文輸入法系統
- ATOK-X for Linux - http://www.justsystem.co.jp/atokx/
- FreeWNN (免費/自由的日文 Wnn 實作)
- Canna language engine - http://www.nec.co.jp/canna/
- 韓文輸入系統
- GTK+-2.0 Hangul IM Module - http://imhangul.kldp.net/
- Qt Hangul IM Module - http://cvs.kldp.net/cgi-bin/cvsweb.cgi/qimhangul/?cvsroot=qimhangul
- Hangul IIIMF LE - http://kldp.net/projects/hangul-iiimf/
- ami (XIM 實作) - http://kldp.net/projects/ami/
- nabi (XIM 實做) - http://nabi.kldp.net/
[編輯] 語音輸入
- IBM ViaVoice http://www-306.ibm.com/software/voice/viavoice/
[編輯] 學者專家/獨立研究者(按字序排)
- Tomohiro KUBOTA http://www.debian.or.jp/~kubota/
- 丁國傑,中文資訊交換碼解決方案藍圖草稿 http://cell.cs.uh.edu/computing/techroadmap.html
- 于明俭 http://www.opencjk.org/~yumj/
- 王佑中,Linux 中文應用手冊
- 王曉龍,哈爾濱工業大學,http://www.cs.hit.edu.cn/cn/teacher.jsp?teacher=wangxiaolong ,微軟拼音輸入法,Mining Pinyin-to-Character Conversion Rules From Large-Scale Corpus: A Rough Set Approach
- 朱邦復工作室 http://www.cbflabs.com/
- 李開復,A New Statistical Approach to Chinese Pinyin Input,Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors.
- 俞祖禎,http://www.angelfire.com/ab/pandaUS/
- 高天助,中華民國中文資訊標準分組委員會 主任委員 ISO/IEC JTC1/SC2/WG2/IRG ISO10646 表意文字工作組 編輯委員
- 高劍峰,Microsoft Research,A unified approach to statistical language modeling for Chinese
- 許聞廉,自然輸入法發明人,Chinese parsing in a phoneme-to-character conversion system based on semantic pattern matching,http://iasl.iis.sinica.edu.tw/publications.htm#NLP
- 葉平等人編輯,自由軟體總藍圖: 中文方案
- 蔡志浩, Chih-Hao Tsai,研究中文資訊技術文字編碼、輸入法、字頻、詞列表,一直到分詞演算法。http://chtsai.org/
- 謝清俊,黃克東著,<國字整理小組十年>,台北市:資訊應用國字整理小組 (read here)
- 譚永鋒,Netscape, http://people.netscape.com/ftang/ ( 現職 google)
[編輯] 各地公部門/學術單位
[編輯] 台灣
- 中文數位化技術推廣基金會 http://www.cmex.org.tw/
- 中央研究院,近代漢語標記語料庫 http://www.sinica.edu.tw/Early_Mandarin/
- 中央研究院,語言座標及典藏 Linguistics Anchoring and Language Archive of Digital Archives http://corpus.ling.sinica.edu.tw/project/LanguageArchive/
- 中央研究院,語言學研究所,文獻語料庫研究室 http://corpus.ling.sinica.edu.tw/
- 中央研究院,資訊科學研究所,中文資訊處理實驗室 http://rocling.iis.sinica.edu.tw/
- 中央研究院,資訊科學研究所,文獻處理實驗室 http://www.sinica.edu.tw/~cdp/
- 中央研究院,資訊科學研究所,智慧型代理人實驗室 http://iasl.iis.sinica.edu.tw/
- 教育部國語推行委員會 http://www.edu.tw/mandr/
[編輯] 中國
- 哈爾濱工業大學,計算機學院
- 語言技術研究中心 http://www.cs.hit.edu.cn/cn/teacher.jsp?department=11
- 智能技術與自然語言處理實驗室 http://www.insun.hit.edu.cn/
- 蘇州大學,縱橫中文資訊技術研究所 縱橫輸入法 http://www.zhhz.suda.edu.cn/
[編輯] 昇陽公司相關研究
- Global Application Developer Corner -http://developers.sun.com/techtopics/global/
- Asian-Language Support in the Solaris Operating Environment A White Paper - http://wwws.sun.com/software/whitepapers/wp-asianlanguage/
- Java Input Method Framework - http://java.sun.com/j2se/1.3/docs/guide/imf/
- Using Input Methods on the JavaTM Platform - http://javadesktop.org/articles/InputMethod/index.html
[編輯] 微軟平台輸入法架構與文件
- Global Software Development IMM/IME FAQs http://www.microsoft.com/globaldev/DrIntl/faqs/ime.mspx
- Input Method Editor http://msdn2.microsoft.com/en-us/library/ms776145.aspx
- Keyboard Input http://msdn2.microsoft.com/en-us/library/ms645530.aspx
- Windows IME 2003, Japanese Version http://msdn2.microsoft.com/en-us/library/ms970191.aspx
- Text Service Framework http://msdn2.microsoft.com/en-us/library/ms629032.aspx
- Windows CE 6.0 Input Method Manager http://msdn2.microsoft.com/en-us/library/aa912900.aspx
[編輯] 過時文件
- CCCII
- 丁國傑: :從中文電腦發展的歷史上看,CCCII 除了政治的因素不能從上而下變成國家標準外,另一個重要因素是字型編碼...等諸多的資訊支援不夠透明化,所以沒辦法由下而上由變成產業標準,進而被國家標準所接納。這麼多年來,既使是主事者不再維護,民間人士仍然一直在討論CCCII,正因為中文電腦大字集字型編碼...的實際問題一直沒解決。從上而下制訂的標準,光放在那但因資訊支援不夠透明化而民間沒人用是無濟於事的。這是我們要成立 中文資訊交換碼(CCCII)網站 的原因。從基本面把資訊支援透明化的問題解決,其他的問題自然迎刃而解。
- 斷詞
- 小魏老舖的斷詞軟體和文章分析, by 魏金財
- 微軟平台 Win32 IME
- Active Input Method Manager (Global IME) http://msdn.microsoft.com/workshop/misc/AIMM/aimm.asp
- Developing International Software Author: Nadine Kano, Microsoft Corporation Staff (Contribution by)
- Developing International Software for Windows 95 and Windows NT : A Handbook for Software Design Author: Nadine Kano
- Global IME detailed information. http://www.microsoft.com/windows/ie/features/ime.asp
![[Main Page]](/upload/4/49/Debian_taiwan_out.png)