考量使用者觀點之半監督式分群演算法

傳統的分群演算法只考慮到資料節點間的相似性，並無法達到個人化分群的功能，於是允許使用者提出旁側資訊的半監督式分群演算法被提出。在本篇論文中，我們發現即使有了旁側資訊的幫助，半監督式分群演算法所找到的結果和使用者心中所想的分群仍然存在著巨大的落差，造成此特性的主要原因為取樣偏誤—傳統旁側資訊可能只包含少數非隨機抽樣之節點，於是誤導演算法找出錯誤的分群結果。為了克服這個難題，我們提出了從使用者觀點學習之方式，請使用者提供觀點向量，其中每個向量敘述了使用者對於每一個群體的概念，並從這個角度提出了一個同時考慮傳統旁側資訊及使用者觀點向量之演算法，名為 BiLinear Embedded Perception (BLEP) clustering。BLEP 分群演算法可以學習到每個群體的隱性變量，進而找到更精確的結果。我們利用眾包平台蒐集許多不同使用者觀點之分群，並在此資料組上進行實驗，並對 BLEP 演算法之結果以及效能做更深入的討論。

關鍵字

分群；半監督式分群；個人化分群；資料探勘；使用者觀點

並列摘要

無資料

並列關鍵字

clustering ； semi-supervised clustering ； personalized clustering ； data mining ； user perception

參考文獻

[3] Sugato Basu, Mikhail Bilenko, and Raymond J. Mooney. A probabilistic framework for semi-supervised clustering. In Proc. of KDD, pages 59–68, 2004.

[4] Sanjiv K Bhatia and Jitender S Deogun. Conceptual clustering in information retrieval. IEEE Trans. on Systems, Man, and Cybernetics, Part B: Cybernetics, 28(3):427–436, 1998.

[5] Mikhail Bilenko and Raymond J Mooney. Adaptive duplicate detection using learnable string similarity measures. In Proc. of KDD, pages 39–48, 2003.

[6] Tat-Seng Chua, Jinhui Tang, Richang Hong, Haojie Li, Zhiping Luo, and Yantao Zheng. Nus-wide: A real-world web image database from national university of singapore. In Proc. CIVR, page 48, 2009.

[7] Guillaume Cleuziou. An extended version of the k-means method for overlapping clustering. In Proc. of ICPR, pages 1–4, 2008.

國際替代計量

考量使用者觀點之半監督式分群演算法

主題瀏覽