瞧！這個人: 論文閱讀─Blog Post and Comment Extraction Using Information Quantity

之前在找關於Web Data Extraction方面的paper時，發現一篇與實驗室同學正在作的研究有點關係，不過方法不同。這篇paper出自AIRS 2008，主要是針對Blog Post與Comment的擷取。如果要對Blog上面的意見作分析，或是在改善像某一些Blog垂直搜尋引擎上的準確性，把Blog中的主要內容擷取出來是很有用的。底下對整個內容作簡單的介紹：

首先介紹一個名詞─MainText，它的內容包含post跟comment。本篇paper把擷取post跟comment的任務分成兩個階段：
1.在DOM Tree的概念下，找出包含MainText的最下層Node
2.找出包含Main Text的Node中的一個分割點，將post與comment區隔出來

在第一階段中，主要利用兩個特性來決定出包含MainText的最下層Node。第一個是MainText的寬度與其它同一層區塊相比是最大的；第二個則是MainText的文字數一般來說是很高的。由此決定出MainText所在的Node位置，然後進入第二階段─找出post與comment的分割點。

第二階段裡，引入了information quantity的概念來決定分割點。information quantity在information theory中常見到，它的基本意義是，對於一個事件來說，如果事件發生的機率比較高，則當事件發生時，我們所獲得的information quantity相對來說比較低。也可以說information quantity的高低跟一個事件的確定性有關，當一個事件的確定性越高，那麼可以從中獲得的information quantity則越低。接著，依序選擇MainText Node的每一個child node當作分割點來計算information quantity，擁有最小information quantity的Node即被當成分割點。

最後是我簡單製作的介紹投影片：

View SlideShare presentation or Upload your own.

瞧！這個人

網路將會把人們慢慢的區隔出來：一群是順著網路水流更快地到達目標；而另一群則會被網路洪流淹沒，成為無家可歸的小孩。

論文閱讀─Blog Post and Comment Extraction Using Information Quantity

Comments:

About Me

My Social Network

Articles

Other Links

Categories

Blog Archive

Article Ranking

Recent Comments

Recommended Books

Visitors

RSS

Weather

Temperature

Translation