09/19 regular meeting
2008年9月20日 星期六 by 哲民
這一次報告的paper標題是"TOB:Timely Ontologies for Business Model",出自WebDB 2008。主要是關於商業領域的資訊擷取應用,但是裡面所提到的方式其實也可以用在其它領域上。我覺得這種應用蠻有趣的,而且內容並不難懂,又可以了解其它種類的資訊擷取技術。底下是這篇paper的摘要部份:
本體論(Ontology)一語出自哲學領域,主要探討存在的本質。近年來電腦科學家也將其應用在知識表達上,作為描述實體的概念以及實體間關係的模型。本篇作者主要提出一套法方來建立商業關係的本體論模型─TOB,此模型特色是包含了時間的因果關係。這種模型在商業智慧的應用上是很有用的,舉例來說,我們可以問像這一類的問題:微軟公司現在的執行長是誰?Google收購Youtube之後的獲利表現如何?
TOB是基於YAGO模型[1]之上,加入了時間範圍的表達。在商業實體關係的擷取中,主要針對以下幾種:公司與公司之間(比如收購關係)、公司與產品之間以及公司與客戶或買主之間。示範建立模型的資料來源主要有三個部份:Wikipedia Infoboxes、Reuter's news feeds以及Google News pages;分別演示了三種不同的資訊擷取方式:基於結構化資料的pattern matching技術、自然語言文件為主的處理以及由不包含時間元素的句子中推論出時間關係的方法。以下對這三種方式作個別說明:
pattern matching部份─
先前工作(Yago[1]與DBpedia[2])中已經有這種方式的處理,作者使用了29種屬性如公司創立時間、核心人員等來作比對。
自然語言文件方面─
使用基於Link-Grammar的Leila方法(只支援二元關係擷取)再加以擴充為E-Leila來擷取文字間實體及實體間的關係(包含時間的三元關係)。
時間關係推論方式─
又分為ontology-level與page-level。前者是利用模型內已有的實體時間關係來作結合;後者是利用網頁的發佈日期,將原本相對的時間描述(比如上星期)轉換為絕對時間表達(比如某年某月)。
最後 實驗結果顯示在Wikipedia Infoboxes、Reuter's news feeds以及Google news pages的關係擷取上均有不錯的precision。
[1] Fabian M.Suchanek, Gjergji Kasneci and Gerhard Weikum "YAGO:A Core of Semantic Knowledge Unifying WordNet and Wikipedia" WWW 2007, ACM Press,pp.697-706.
[2] Soren Auer,Christian Bizer,Georgi Kobilarov,Jens Lehmann,Richard Cyganiak,Zachary G. Ives:DBpedia:A Nucleus for a Web of Open Data.ISWC/ASWC 2007
下面是本次報告的投影影片: