時代在變, 用詞在變, 詞典的詞條 應該也 跟著變, 跟不上時代的 詞典 代表 跟不上的 基礎文化。 針對 單篇文章 或者 二篇文章, 我們 提出 局部最長 連續 共同子序列 (locally longest consecutive common subsequence: LLCCS) 的方法, 近似 出名的 最長 共同子系列 (longest common subsequence: LCS) 算程, 可以有效率 擷取 文章中的 重複使用的 字串。 由此 所擷取出的 字串 我們 再進一步 處理篩選, 得到 較合 語法意義的 新詞組, 以及 新詞。 因為 網路上 可以自動 收集 大量新聞 或 文章, 新詞組、新詞 的 擷取 應可快速 幫助 詞典新詞條 的 累積。
Adapting from the well-known longest common subsequence (LCS) algorithm, we propose an efficient algorithm that is capable of extracting locally longest consecutive common subsequence (LLCCS) from one or two different articles. Further processing on the extracted subsequence makes them closer to syntatical phrases/words. With world wide web full of adundant articles, we hope this is an efficient way to enrich the entries of Chinese lexicon.