只有解決好目前中文字符集存在的種種問題,我們的歷史文獻才能在數(shù)字媒體上不打折扣地講述真正的中國故事。而字符集問題的解決,對于當前相關(guān)專業(yè)領域來說,并非極其繁難之事。
中國傳統(tǒng)文化的基本載體是歷史文獻,只有通過這些第一手文獻的閱讀,人們才能接觸真實的傳統(tǒng)文化。然而,受限于中文字符集建設的發(fā)展水平,我們的歷史文獻在當下主流信息傳播平臺上存在話語障礙,主要表現(xiàn)為三方面的問題。
“一字多碼”,使得傳統(tǒng)文化的數(shù)字傳播與利用受損
電腦字符集中的每個字符,都應該只有一個唯一編碼,才能被進行有效的數(shù)字處理。但是,現(xiàn)在的電腦通用字符集中有不少文字單位與碼位不唯一對應的情況。這一問題,主要是由于在中日韓聯(lián)合進行字符集編碼過程中、各家都希望自己的習用字形盡可能充分進入字符集而造成的。這些字,多為歷史文獻中的常用字,且往往是不容易區(qū)分彼此的構(gòu)形微別字,如“戶”、“戶”與“戸”,“宮”與“宮”。這種構(gòu)形微別字同構(gòu)形差異明顯的異體字、繁簡字不同,后二者如“鋪(內(nèi)碼8216)”與“舗(內(nèi)碼8217)”,“匯(5F59)”與“彚(5F5A)”,由于構(gòu)形上存在明顯差異,在輸入時很容易被區(qū)分開來;而構(gòu)形微別字在輸入過程中,因為有這種一字多碼的輸入源,很容易導致同字卻使用不同內(nèi)碼字的情況。由此,人們在網(wǎng)絡或相關(guān)數(shù)據(jù)庫查找文獻時,就會出現(xiàn)以下情況:該找到的找不到,該搜齊的搜不齊,而查找搜索者卻誤以為這就是真實檢索結(jié)果,傳統(tǒng)文化寶藏的利用無形中被打了折扣。如“文淵閣四庫全書”(“Complete Library in Four Branchesof Literature”),是一個非常注重區(qū)別異體字、反映文獻原貌的電子古籍檢索系統(tǒng),但也不免因同字多碼問題而導致全文檢索的失誤。如“彝(5F5D)”,另有三個不同編碼而同字者:彛(5F5B)、彜(5F5C)、彞(5F5E)。如果全文檢索“彝(5F5D)”,匹配的結(jié)果是32041個,但是用另外三個字形彛(5F5B)、彜(5F5C)、彞(5F5E)去全文檢索,匹配項卻只有22054,也就是說,文獻檢索范圍內(nèi)另有9987個“彝”的文例失檢。再如在“國學大師”網(wǎng)上檢索“戶”,得到93349個檢索結(jié)果,而輸入“戸”,則只有24046個檢索結(jié)果。
而尤當引起注意的是,即使在目前最通用的GBK字符集中,類似的同字多碼者也很多,除了上舉一字四碼者外,一字三碼的情況如:
娛(5A1B)娯(5A2F)娛(5A31)
揺(63FA)搖(6416)搖(6447)
吳(5433)吳(5434)呉(5449)
奨(5968)奬(596C)獎(734E)
戶(6236)戶(6237)戸(6238)
挿(633F)插(63D2)揷(63F7)
一字二碼的數(shù)量更加可觀:
捏(634F)揑(63D1);
尙(5C19)尚(5C1A);
尓(5C13)爾(5C14);
尪(5C2A)尫(5C2B);
捜(635C)搜(641C);
尶(5C36)尷(5C37);
寜(5BDC)寧(5BE7);
帯(5E2F)帶(5E36);
掲(63B2)揭(63ED);
宮(5BAB)宮(5BAE);
孳(5B73)孶(5B76);
悳(60B3)惪(60EA);
悞(609E)悮(60AE);
愼(613C)慎(614E);
悅(6085)悅(60A6);
恵(6075)惠(60E0);
徴(5FB4)徵(5FB5);
徳(5FB3)德(5FB7)……
僅以上并不完整的整理,所得多碼字共計432個,這已經(jīng)占了字符集的相當比例??上攵?,通過這樣一個字符集進行傳統(tǒng)文獻的數(shù)字傳播和閱讀,不注意一字多碼問題的把控,是很難充分利用文獻且保證文獻不被誤讀漏檢的。

