字集其實就像字典,告訴使用者有這些字的存在。人需要字典來認字,電腦也需要以字集為基礎,來查詢和辨識文字。試想一下,如果你寫了一段泰文給手邊只有韓文字典(也不會泰文)的人看,這個人是肯定讀不出來的。對電腦也一樣,如果你要求電腦顯示一段它查不到的字,那自然會出現缺字了。
那是因為漢字實在是太・多・了!漢字因造字方法、寫法習慣、歷史關係等等,除了基本字,還有各式各樣的異體字。比如「山」在左或在上的「峰」、「日」在右或在下的「旭」等等。如果加上這些異體字,那中文字符量更是難以計數。教育部在 2017 年公佈的最新版《異體字字典》硬是衝破十萬,來到 106,330 字!
數字如此驚人,要一本字典收錄全部,不是什麼經濟實惠的選擇。生活中其實也不是真的需要用到這十數萬字,因此字典多半會有各自的標準與取捨。比如為了學童而生的《國語日報辭典》僅收錄 9,238 字,教育部整理的《常用國字標準字體表》加上《次常用國字標準字體表》則有 11,149 字。