07/22 regular meeting

對於社群網站中常見的元素─標籤,我總覺得應該可以有更多利用的方法。我也曾經思考過標籤可以有哪些用途,甚至也想過可能可以代表使用者的興趣取向。可是不知道怎樣去分析,也不知道資料該如何取得。剛好WWW 2008有這一篇題為"Tag-based Social Interest Discovery"的paper,所以我就研讀了一下,學習別人的思考方式。這篇paper是由Yahoo公司的研究員所發表的,由於剛好收購del.icio.us網站,所以不難想像完全採用該網站的資料作分析與研究。底下是摘要部份:

在Web 2.0的概念下,許多社群網站開始發展且越來越受到歡迎。其中主要區分成兩類,一類是以人為核心,如Facebook、MySpace等等;一類是以物件為核心,如YouTube、Flickr與del.icio.us等等。對於社群網站來說,發現使用者群體中的共同喜好是很有用的。一來可以有助於加強使用者間的關係(有共通興趣),二來可以刺激使用者貢獻與分享更多內容。然而目前已經提出的相關解決方法中,都是基於利用使用者在網站上的互動關係來分析,這對於像del.icio.us這類網站來說是不合適的。因此本篇paper提出一個利用使用者自定標籤(tag)的新方法來找出像這類網站中的社群興趣(Social Interest),它的好處是不需要透過使用者間的互動關係來作分析。

分析所需的資料來自del.icio.us資料庫中的一部份(公開的書籤),總共有140萬個URL被20萬個使用者儲存到430萬個書籤上。這些URL對應的網頁利用英文中廣泛使用的stopword list來對文字內容與標籤作過濾,接著將過濾出來的關鍵字與標籤利用Porter stemming algorithm作正規化。結果顯示,平均來說一個URL的註解標籤數量遠小於對應網頁內容的關鍵字數量(大約是100個量)。所以如果能夠以標籤來取代關鍵字作為社群興趣發現的元素,將可以讓工作得到非常大的簡化。

首先,作者們利用實例展示URL中top-10 tf、tfidf 關鍵字和註解標籤的比較,說明標籤比關鍵字更能表達出內容的高階概念。其次,觀察top-10、top-20及top-40的tf、tfidf關鍵字被標籤字彙函蓋的程度,顯示標籤對最重要關鍵字集的函蓋程度是很高的。第三,分析標籤的發散性,其中標籤隨著URL數量的增加不會無限制的成長,而是會趨向穩定的數量。最後,檢視標籤與關鍵字的匹配率,大部份URL中較常被使用的標籤被關鍵字匹配的程度是不錯的。經由以上分析,使用標籤來找出社群興趣是可行的。

此外,作者們還根據分析結果實作了一個稱為ISID(Internet Social Interest Discovery)的系統,可以用來發現共同的使用者興趣以及依據興趣主題對使用者或URL作分群的功能。其原理是對URL中註解標籤運用關連規則(association rule)的方式找出熱門興趣主題,在此將每個張貼書籤(由user、url和tags組合而成)看成傳統上的交易資料,而user+url的組合可以當成唯一key,tags則代表item。

最後,將此系統產生的結果對資料作評估顯示:
1.相同主題群組內的URL間資料的相似度遠高於不同主題群組的URL
2.ISID系統找出的興趣主題函蓋極大多數使用者最常使用的標籤集
3.經人類編輯審查,群組中URL與該主題的相關性是夠高的

因此採用以標籤來代表興趣的方法在效果上是不錯的,同時也不需要使用者間必需有網站上的互動關係或是真實世界中額外的關係資訊。

底下是投影片部份:

Blogger Templates by Blog Forum