透過您的圖書館登入
IP:18.223.107.149

摘要


中文句結構樹資料庫(Sinica Treebank)建構的主要目的是提供中文自然語言處理研究一個具有標記語料庫的研究素材,我們可以從這個中文句結構樹資料庫中抽取語法知識,也藉由語法知識的抽取與瞭解使我們的剖析系統功能更趨完善。本文介紹中文句結構樹資料庫構建方法和步驟,從五百萬詞的中央研究院平衡語料庫(Sinica Corpus),抽取句子,以訊息為本格位語法(Information-based Case Grammar, ICG)的表達模式為基本架構,經由電腦自動剖析成結構樹,可以盡量維持結構標記的一致性,最後並加以人工修正、檢驗,以維持標記的正確性。對於歧義的句法結構形式及詞類標記,我們也提出處理的原則。

關鍵字

無資料

參考文獻


中文詞知識庫小組(1993)。中文詞類分析
林甫雯(1992)。ICG中的論旨角色
陳克健 Keh-Jiann, Keh-Jiann(1996).A Model for Robust Chinese Parser.中文計算語言學期刊.1(1),183-204.
陳克健 Keh-Jiann, Keh-Jiann(1992).3rd international Conference on Chinese Information Processing.
陳克健 Keh-Jiann, Keh-Jiann(1999).ATALA Workshop- Treebanks.

被引用紀錄


康富傑(2015)。基於條件隨機場之中文樹狀結構標記〔碩士論文,國立交通大學〕。華藝線上圖書館。https://doi.org/10.6842/NCTU.2015.00701
張鈺翔(2015)。一個以 BIM 為基礎的建築法條本體論自動建構〔碩士論文,國立交通大學〕。華藝線上圖書館。https://doi.org/10.6842/NCTU.2015.00306
曹又心(2015)。結合搭配詞與主題概念改善中文口碑分類〔碩士論文,中原大學〕。華藝線上圖書館。https://doi.org/10.6840/cycu201500823
林明璋(2002)。電腦輔助記憶系統之研究與製作∼諧音研究與文章斷詞分析〔碩士論文,國立臺灣師範大學〕。華藝線上圖書館。https://www.airitilibrary.com/Article/Detail?DocID=U0021-2603200719125065
Hsieh, C. H. (2014). 人工智慧個人助理之設計與實作 [doctoral dissertation, National Chung Cheng University]. Airiti Library. https://www.airitilibrary.com/Article/Detail?DocID=U0033-2110201613585917

延伸閱讀