首頁 關於本會 《台浙天地》 友站連結 浙江省人民政府網站 繁體中文 聯絡我們  
浙江省旅台灣同鄉聯誼總會

達致漢字輸入最高效率的方法:精準輸入

陳晃麟

一、緣起
  漢字是象形文字,其基本圖形間並無次序可言,遑論由其組成更複雜的文字。是故「字序」正是漢字先天欠缺的特性,它使漢字在電腦數位處理上,產生了一些困難。多年來電腦對漢字的輸入,無論從形或音入手,都面臨一種困境。對因形、音類似而編成相同輸入碼的這些字,必須從許多備選字中一個個翻查挑選,此過程既傷眼力又大幅降低了輸入效率,一不留意甚至造成誤用同音字的謬誤。筆者因此起意改進,擬另闢蹊徑發展最高效率的漢字輸入法,盼能不必選字而準確地輸入所需之字。在學習上能系統化既符合文字學原理,又可助其正確使用漢字,相信對提升國文程度應有所裨益。此項設計命名為「精準中文輸入法」,冀望能大幅提升漢字輸入的效率。

二、採行之原理與方法
(一)編碼原則:越常用字其字碼越少
  管理學上八十二十法則,告訴我們百分之八十的問題源自百分之二十的因素。據教育部之統計分析 ,依使用頻次排名前1,600個字,其使用率已佔日常用字(5731字)的93.654%,遠高於百分之八十了!因此,精準法的策略是依據使用頻次決定該字的字碼數,越常用字所編訂的字碼越少。因此,只要讓這1,600字能用單或二碼來編碼,漢字輸入的效率必定大幅提升。
(二)採用40字鍵
  英數鍵盤可用來鍵入文、數字符的字鍵共47個,採用多少鍵來輸入漢字對打字效率具決定性的影響。有的輸入法採26個英文字母,則其單、二碼的總字碼數僅有 (26+26x26)=702字。若採40鍵,則可達 (40+40x40)=1640字,比採26鍵多出938字,為其2.34倍。因此,精準法決定採用40鍵為基本字群,另5鍵為極常用「台、中、巷、號、不」五字的單碼鍵。
(三)提高字頻前1,600字在單二碼字中所佔百分比
  單二碼字的數量只有1,640,在編碼上它是稀有資源,必須盡量讓字頻排在前1,600的常用字使用,才能充分發揮其價值。精準輸入法共編有43個單碼字、2個單碼標點符號(。,)、1,626個二碼字和5個二碼標點符號(:;、.- ),合計共達1,669字和7個常用標點符號。這1,669字中排名在前1,600的共有1,322字,佔82.625%,即每5字中就有超過4個是可用單或二碼輸入者,故漢字輸入效率可大幅提升。
(四)將標點符號視同文字處理
  其他輸入法一般不處理標點符號,故必須轉換到其他模式來打標點,要打漢字又得轉回去,需浪費不少時間。精準法將標點符號視同文字看待,勿需轉換輸入模式即可輸入,其中最常用的句點、逗號編為單碼,只需一鍵即可打出,對提升輸入效率非常有益。
(五)編碼規則:依筆順取首次末三字元共三碼,單二碼為簡化碼
  精準法採40字鍵為字群碼,三碼是標準字碼,403計有64,000個字碼可用,處理一般電腦所採大五碼(Big 5 Code)字集13,051字,已綽綽有餘。精準法編碼概念是將字碼和漢字視為函數關係N=f(x)+g(x,y)+h(x,y,z)。此函數式中N是我們所要打出的漢字,xyz 三個變數則是電腦記憶空間裡,儲存漢字的座標。打字有如在三度空間的記憶庫裡選取存放該字的座標值。具體而言,xyz的值,就是我們所採用的40字群分類的代碼,它由26個英文字母、10個數字和4個符號(;,。-)共40字鍵組成。若xyz三碼全取時,三碼字的容量就有64,000個;若不取z碼時,它是xy平面的1,600個兩碼字;yz兩碼都不取時,就是x軸的40 個單碼字,合計共有65,640個字碼可用。精準法將約170個較常用的漢字部首歸入40字群,將每個漢字依書寫筆順的起始字元歸入適當字群作為首碼。編碼規則為依筆順取其首、次、末三字元為其三字碼,此為一般常例。精準法以三碼為標準字碼,單、二碼則為最常用字的簡化碼。由於漢字的字形講究美化,部首未必都是書寫的起始字元,它可能安排在不同的位置,故雖採用部首字形做為字群字元,但非固定皆以部首作為首碼。舉「柴」字為例,依書寫序有「止、匕及木」三字元,其字鍵代字是「十、刀和木」,轉成字碼就是0MK。柴字部首為「木」,但因非書寫的首字元,故其字群首碼非「木K」,而是歸入「十0」字群。一般情形皆依常例編碼,若遇不同字出現同碼時,為達精準目標使一碼只給一個字用,則較常用字優先取得該碼,另一字則改取其他字元來編碼,此情況稱為變例。
  今以實例說明變例的情形。字典部首中,糸與衣兩字都與服裝相關,所以列入同一字群,其代表字碼為字母「I」,後發現「衽」、「紝」這兩字的聲符同為「壬」,若依編碼原則其字碼應同為字群碼 I 及「壬」的字碼「AE0」之首二碼「AE」,就會形成兩字同為「IAE」字碼了。為達到一字一碼的目標,解決方法就得比較其使用頻次,「衽」字比「紝」常用,所以由「衽」優先取得常例字碼「衽IAE」;至於「紝」的編碼則採用部首糸之字碼「IS3」的前2 碼「IS」及壬字的簡化碼「AE」,組合而得四碼「紝ISAE」。不過,因「壬」字列為聲碼字元,其代表字碼為字母「G」,故由此亦可組成另一字碼「IG」,但因二碼「IG」已由常用字「絕」取得,故「紝」字編碼得再加一個輔助字碼「,」即逗號而成為「紝IG,」,故紝字具有兩個字碼。
  其他輸入法未考慮一字是否常用,純就字形加以編碼,筆畫越多越複雜的字其所編字碼也越多,於是筆畫較多的常用字需用四碼,在倉頡甚至需五個字碼。試看大易法對這些常用字的編碼「電MDC」、「龜NMER/NMEX」、「豐WFFU」、「豔WFFU」、「鑿UUS0」,除「電」字為三碼外,餘皆為四碼,且「豐」與「豔」還是同碼。精準法編碼原則是依據使用頻次決定一字應有之字碼數。單、二碼是留給最常用字的簡化字碼,如「電W」、「龜X-」、「豐QA」、「豔-4」、「鑿46」。它使字碼與字形的複雜度脫鉤,不再受其拘束。此所以常用但較複雜的字,可以只用一或二個鍵來編碼,何其簡易呀!由此可見,二者相較其輸入效率優劣立判!四字碼數量甚多,預留給較罕用字、特例字、詞彙、成語和對聯式有更多字的聯語使用。
  若依字頻評估到前三千字,其使用率約佔常用字的99%。精準輸入法二碼字中排名在前三千字的共達1,577個字,佔了52.57%,平均每兩個字就有一個以上可用單二碼打得出來,其餘的字大部分用三碼即可鍵入。
(六)一碼一字,但有些字可能一字有多碼
  精準法採一碼一字,即每一字碼僅配屬一個漢字,故無需選字。為達精準輸入漢字的效果,每一字須有專屬字碼,故一碼只配給一個漢字。但為友善使用者方便計,容許某些字形複雜的漢字可從不同角度思維,使同一字可有不同編碼,皆可輸入該字。以「韶」字為例,從左側字元思考,可得輸入碼「.YH」,從右側聲碼思考,可得輸入碼「.MR」。有些常用字除標準3碼外,另有簡化2碼可用,如「離PN1/P1」;如「幫」字有簡化二碼「EB」及兩個三碼「EEI/ETI」。
(七)聲碼字:形聲字的系統化處理
  漢字六書原理(象形、指事、會意、形聲、轉注、假借)中有個「形聲」。形聲字通常是由一個形符(或稱意符)和一個聲符組合而成。形符可表事物或意義的類別,譬如形符從「木」者,多與植物有關,如李、杜、杉、松、槐、檜等;形符從「心」者,多與人類心情有關,如志、忍、怨、急、怒、情、愛等字。聲符則表該字的讀音,如以「賓」作聲符,以其為聲的字有濱、儐、繽、殯、檳、嬪、擯、鬢等;如以「倉」為聲符,以其為聲的字有愴、滄、傖、嗆、槍、搶、鎗、瘡、蒼、艙、蹌、創等字。由以上諸例可知,形符常是字的部首,而聲符可組成一群字音相同或相似的字。
  若指派一或兩個字碼給某聲符作為其聲碼,則對聲符相同的字採用同一聲碼,只要針對形符加上其部首字元碼,就可輕易組成這一系列同聲符字的輸入碼了。這對漢字輸入碼的編訂可使漢字系統化處理,具有極大的價值;從學習者的立場觀之,更形成了一套極有規律的學習資料。學會一個聲碼字,就等於學會一系列同聲符字的輸入碼了。
  經整理得出漢字的聲符約七百組,據統計約80% 的漢字是形聲字,故只要搞懂、掌控了形聲字碼,那麼漢字輸入問題可說已經大部分解決了!
  聲符與形聲字關係密切,其重要性可舉「莫」字為例說明,依其字形可分為「草日大」三字元,其標準輸入碼為「莫VYS」,又因其為最常用字,令其簡碼為VR。以莫為聲符之常用字見下表所列,皆為另加表意之形符( 即其部首) 而得,其輸入碼與聲碼VR 的關係極具規律性。又,「莫」字本義為日落草叢黃昏之時,因其語音具否定義,遂借莫字表否定義,日久本義漸不為人知,後再加「日」另造了「暮」字以還其本義。

輸入碼 簡碼 字義 形符
VRC 上馬而行 馬C
VRD 心生愛慕 心D
VRE 築墓地下 土E
VRI VY 以布製幕 巾I
VRT 以手摹擬 手T
VRY 黃昏日落 日Y
VR; 努力勸募 力;
輸入碼 簡碼 字義 形符
FVR 沙漠缺水 水F
KVR KS 木製模型 木K
NVR 寂寞躲家 宀N
OVR 橫隔膜 肉O
TVR 以手觸摸 手T
ZVR 罔顧民瘼 疒Z
NVY 遮食物巾 冖N
(八)字群代字(字根)安排符合人體工學原則
  精準法所採40字群,各有其代表字元作為字鍵之代字。至於它們在鍵盤上的位置,則皆依其使用次數之多寡,作符合人體工學字鍵最佳化的安排。其原則是令較常用字群佔用食、中指操作最方便的中段位置,如心、水、人、口、一等五個字群代字,安排於英文字母DFGHJ的位置,言、手、日、艸、目,安排在字母RTYVB的位置,火、土、木、家、刀,則安排於CEKNM的位置。其目的在令使用人對鍵盤的操作更靈巧更輕鬆,以增進工作效率。
(九)詞彙處理方式
  中文裡有許多詞彙、成語、慣用語、搭配詞等都是多字連用,讓這些詞彙使用簡便的編碼,對提升輸入效率更有助益。前曾述及4 碼是預留給較罕用字、特例字、詞彙和成語使用,四字碼的數量有2,560,000之多,恰好可留給大量的詞彙來用。詞彙字碼的編碼依字數可分為二字、三字、多字(指含四字及以上),各有不同的編碼原則。茲分別舉例說明之。
  二字:編碼規則為採兩字之單字碼的首尾各2碼,即首尾首尾組合成4碼,如「高.O」、「雄S1」,則「高雄」的詞彙碼即為「高雄.OS1」;如「便GL」、「宜XG」,則「便宜」的詞彙碼即為「便宜GLXG」,而「宜」字有三碼「宜NOJ」可用,故也有「便宜GLNJ」的輸入碼可用。可見打詞彙碼至少可少按一次空間棒。若其中有一為3 碼字,如「特2.」、「赦PE4」,則其詞彙碼為「特赦2.P4」,字碼及空間棒各少一次。若兩字皆為3碼字,如「胳OPH」、「臂B.O」,則其詞彙碼為「胳臂OHBO」,共可節省3次按鍵。又,若詞彙有一字為單碼字時,則有可能用3碼即可輸入,如「方便.GL」、「可以HA.」。來電一詞兩字皆為單碼字,但將其單字碼結合的字碼卻已被2碼字「查KW」使用,故對「來電」一詞須增一補位碼「’」,成為「來電KW’」才能輸入。
  三字:編碼規則為採前二字之單字碼的首碼及末後字之首尾2 碼,形成首首首尾總共4碼,如「副JF」、「主.Q」、「任GG」,則其詞彙碼為「副主任J.GG」,但因「J.G」這3字碼未被使用,故這個詞甚至可簡化為只用各字的首碼,即「副主任J.G」這3碼來輸入。其他例子,如董監事「VQJQ/VQJ」、司馬光「MCSS/MCS」都是這類同時可以3或4字碼來輸入的詞彙。
  多字(指四字以上):編碼規則採前三字之單字碼的首碼及最後字之尾碼,仍是首首首尾總共4碼,如「消災解厄FFXN」、「迎頭趕上U5U9」、「樹大招風KSTW/KST7」。4字以上的成語或片語可省略第4字以後的字碼,直接跳到最後一個字的尾碼,其編碼使用同一規則,即首首首尾4個字碼,如「跳到黃河都清不清0JIQ」、「大法官會議SFNM」、「多一事不如少一事OJJQ」。從這些例子可以看出來,越多字的片語,用這個規則編碼可以越有效率,即比單字打法可省下越多的字碼。
  上下聯語:中文造句有個特色,喜用對聯式的兩句聯語表達一個意思。對中國文化稍有基礎者聽到前句,便知要說的後句,例如你說出「同是天涯淪落人」,聽者便意會你的意思在「相逢何必曾相識」。所以精準輸入法針對中文這個特點,便採取更積極的辦法。只要把上句的文字依成語4 字碼的規則編碼打入後,輸入法會同時把前後兩句都完整顯示出來。若你只想說後一句時,也可依同樣規則為後句的成語編碼,即可單獨輸入後句的文字。如「同是天涯淪落人,相逢何必曾相識。NYJG」,「相逢何必曾相識。KUG.」。如你想說「一分耕耘,一分收穫。」只要鍵入「一分耕耘J85I」這4個字碼,電腦就會把這8個字連標點都一併顯示了。當然你若只想打後句,也可以只打「一分收穫J8PP」就可以只顯示後一句了。如「若要人不知,除非己莫為。V4GH」, 或「除非己莫為。;Q2C」。像這類的聯句在中文裡為數極多,不可能一時盡數搜羅,但可在需要時依同樣規則自行增補,擴充詞庫容量,中打將會更有效率。

三、成果檢驗
(一)提升漢字輸入效率
  依據《中文輸入實力養成暨評量》手冊所介紹常見的倉頡、嘸蝦米、大易等三種輸入法,以所列常用500字作為評比參考。將每字輸入一次所需總按鍵數(參見下表)來比較,分別為1736鍵、1544鍵、1480鍵,平均每字需按3.472鍵、3.088鍵、2.96鍵。而精準法僅須961鍵,平均每字僅需按1.922鍵。精準法按鍵次數僅為倉頡之55.4%、嘸蝦米之62.24%、大易之64.93%。若單就按鍵數一項評比,精準法較其他輸入法,其效率至少已提升35%以上。再以嘸蝦米手冊中所舉一段含102個標點和文字的練習文章來作比較,該法需按289鍵平均每字按鍵數為2.833,而精準法僅需177鍵,只有它的61.245%,平均每字按鍵數為1.735。若以日常文章來評估,精準法平均每字按鍵數必定遠低於2.0,其原因在於單碼字使用率遠大於三碼字。使用精準輸入法最大的利益是節省人力、時間,可大幅提升工作效率。漢字輸入猶旅人行路,距離短是捷徑,按鍵次數最少,效率最高就是輸入法的捷徑。所以此一設計概念的確值得去研發推廣,開發出更完美更有效率的輸入法,以嘉惠同胞,提升我國之競爭力。

倉頡嘸蝦米大易精準
需按鍵總次數173615441480961
平均每字按鍵數3.4723.0882.961.922
精準/其他輸入法%55.4%62.24%64.93%

(二)可精準查找漢字,形成漢字索引系統,可用於字辭典、文獻之編訂依精準法所編《字群字碼集》,它是依照字群碼序編排。由於有「字序」可循,只要熟悉精準編碼的規則,查找漢字將如查英文字典同樣精準、快速而方便。它解決了查傳統字典時,有些字的部首不易辨識、筆畫數錯、或同音字太多,以致不易找到的缺陷。此特點使它可作字典排字或文獻索引編輯之用,亦為漢字之一大革新也。

關鍵字:中文輸入法、精準輸入法、輸入法捷徑、漢字系統化、漢字索引系統
註一:本文原刊於2014年台灣大學數位人文研究中心與中研院數位文化中心主辦的第五屆數位典藏與數位人文國際研討會論文集p.589~592。論文原稿受字數所限,較為簡略,現將文稿再加以增補修訂,使說明更為清晰;詞彙處理方式一節為新增資料,且其中上下聯語的輸入法更是近期新開發者,可大幅提升輸入效率使更為精進的創舉。
註二:筆者陳晃麟原習電子工程,任職IBM高級工程師多年,自公司提前優待退休後,考進臺灣師大國文研究所碩士班,畢業後曾任中學國文科教師,暑假期間至政治大學教師第二專長學分班英語系進修,取得英語教師資格後,於高職任英文科教師。

(陳晃麟/台北市浙江同鄉會浙江月刊總編輯)


回本期目錄    《台浙天地》總目錄

浙江省旅台灣同鄉聯誼總會 會址:108台北市萬華區和平西路三段382巷11弄17號5樓
發行人兼社長:胡李世美 總編輯:留問政 聯絡秘書:徐薇蕙
電話:(02)23045561 傳真:(02)2302-0435
深圳聯絡主任:寧松林 電話:+86-137-23456589