之前在找關於Web Data Extraction方面的paper時,發現一篇與實驗室同學正在作的研究有點關係,不過方法不同。這篇paper出自AIRS 2008,主要是針對Blog Post與Comment的擷取。如果要對Blog上面的意見作分析,或是在改善像某一些Blog垂直搜尋引擎上的準確性,把Blog中的主要內容擷取出來是很有用的。底下對整個內容作簡單的介紹:

首先介紹一個名詞─MainText,它的內容包含post跟comment。本篇paper把擷取post跟comment的任務分成兩個階段:
1.在DOM Tree的概念下,找出包含MainText的最下層Node
2.找出包含Main Text的Node中的一個分割點,將post與comment區隔出來

在第一階段中,主要利用兩個特性來決定出包含MainText的最下層Node。第一個是MainText的寬度與其它同一層區塊相比是最大的;第二個則是MainText的文字數一般來說是很高的。由此決定出MainText所在的Node位置,然後進入第二階段─找出post與comment的分割點。

第二階段裡,引入了information quantity的概念來決定分割點。information quantity在information theory中常見到,它的基本意義是,對於一個事件來說,如果事件發生的機率比較高,則當事件發生時,我們所獲得的information quantity相對來說比較低。也可以說information quantity的高低跟一個事件的確定性有關,當一個事件的確定性越高,那麼可以從中獲得的information quantity則越低。接著,依序選擇MainText Node的每一個child node當作分割點來計算information quantity,擁有最小information quantity的Node即被當成分割點。

最後是我簡單製作的介紹投影片:

View SlideShare presentation or Upload your own.

Comments:

blog comments powered by Disqus

Blogger Templates by Blog Forum