透過您的圖書館登入
IP:216.73.216.207
  • 學位論文

以文本特徵提升協同過濾推薦系統之準確度

Improve the Precision of Collaborative Filtering Recommender System by Content-Based Features

指導教授 : 張瑞益

摘要


目前大量網站應用都離不開推薦系統,而協同過濾式推薦系統 (CF)則是近年常被業界採用的技術,但在大量使用者或物件的情況下,若樣本資料分布過於分散,則CF將會有稀疏性問題,將難以找到真正有推薦價值的物件,勉強使用則效果不佳甚至造成錯誤。在資料過於稀疏的問題下,各常見推薦演算法的準確度皆不高,而本研究以文本特徵作為CF的額外特徵,透過添加額外特徵來降低CF的資料稀疏程度,以突顯出較值得推薦之物件作為推薦結果,並將此方法命名為CFWCB (Collaborative Filtering With Content-Based features),在時間、空間複雜度不變的情況下,最大化利用可取得之資訊,以降低資料稀疏程度為目標,並比較文本特徵抽取方法在CFWCB下的準確度提升程度及其所需成本。本研究利用痞客邦真實資料集進行實驗,比較各相關推薦演算法在此資料集之準確度,以及CFWCB在利用各種不同特徵抽取方法或特徵來源產生之文本特徵於推薦準確度及推薦結果的影響。實驗發現,基礎CF較其餘方法準確,而CFWCB則是可以再大幅提升準確度,其中利用專家定義特徵結合文章內容有著最多的準確度提升,可將準確度提升至基礎CF的兩倍,而利用機器學習Doc2Vec對文章標題抽取特徵則是可將準確度提升到接近基礎CF的兩倍,除了可以節省專家定義所需的人力消耗外,準確度提升效果也僅略低於專家定義特徵,缺點則是各特徵較無獨立意義,推薦解釋性較不直覺,在近年機器學習技術日益提升的背景下,相信未來可以找到取代專家定義特徵且效果更好的機器學習特徵抽取方法;對於兩種特徵抽取方法的選擇則可視使用情境調整:較高的推薦準確率及推薦解釋性或是以機器取代人力、降低人力消耗,各有其優缺點。

並列摘要


參考文獻


[20] 邱建晴. 以卷積神經網路分析部落格社群網站垃圾文章. 臺灣大學工程科學及海洋工程學研究所學位論文, pages 1–68, 2016.
[1] Robin Burke. Hybrid recommender systems: Survey and experiments. User modeling and user-adapted interaction, 12(4):331–370, 2002.
[2] Songjie Gong. A collaborative filtering recommendation algorithm based on user clustering and item clustering. JSW, 5(7):745–752, 2010.
[5] Yehuda Koren, Robert Bell, and Chris Volinsky. Matrix factorization techniques for recommender systems. Computer, 42(8), 2009.
[7] Prem Melville, Raymond J Mooney, and Ramadass Nagarajan. Content-boosted collaborative filtering for improved recommendations. In Aaai/iaai, pages 187–192, 2002.

延伸閱讀