09/19 regular meeting

這一次報告的paper標題是"TOB:Timely Ontologies for Business Model",出自WebDB 2008。主要是關於商業領域的資訊擷取應用,但是裡面所提到的方式其實也可以用在其它領域上。我覺得這種應用蠻有趣的,而且內容並不難懂,又可以了解其它種類的資訊擷取技術。底下是這篇paper的摘要部份:

本體論(Ontology)一語出自哲學領域,主要探討存在的本質。近年來電腦科學家也將其應用在知識表達上,作為描述實體的概念以及實體間關係的模型。本篇作者主要提出一套法方來建立商業關係的本體論模型─TOB,此模型特色是包含了時間的因果關係。這種模型在商業智慧的應用上是很有用的,舉例來說,我們可以問像這一類的問題:微軟公司現在的執行長是誰?Google收購Youtube之後的獲利表現如何?

TOB是基於YAGO模型[1]之上,加入了時間範圍的表達。在商業實體關係的擷取中,主要針對以下幾種:公司與公司之間(比如收購關係)、公司與產品之間以及公司與客戶或買主之間。示範建立模型的資料來源主要有三個部份:Wikipedia Infoboxes、Reuter's news feeds以及Google News pages;分別演示了三種不同的資訊擷取方式:基於結構化資料的pattern matching技術、自然語言文件為主的處理以及由不包含時間元素的句子中推論出時間關係的方法。以下對這三種方式作個別說明:

pattern matching部份─
先前工作(Yago[1]與DBpedia[2])中已經有這種方式的處理,作者使用了29種屬性如公司創立時間、核心人員等來作比對。
自然語言文件方面─
使用基於Link-Grammar的Leila方法(只支援二元關係擷取)再加以擴充為E-Leila來擷取文字間實體及實體間的關係(包含時間的三元關係)。
時間關係推論方式─
又分為ontology-level與page-level。前者是利用模型內已有的實體時間關係來作結合;後者是利用網頁的發佈日期,將原本相對的時間描述(比如上星期)轉換為絕對時間表達(比如某年某月)。

最後 實驗結果顯示在Wikipedia Infoboxes、Reuter's news feeds以及Google news pages的關係擷取上均有不錯的precision。

[1] Fabian M.Suchanek, Gjergji Kasneci and Gerhard Weikum "YAGO:A Core of Semantic Knowledge Unifying WordNet and Wikipedia" WWW 2007, ACM Press,pp.697-706.
[2] Soren Auer,Christian Bizer,Georgi Kobilarov,Jens Lehmann,Richard Cyganiak,Zachary G. Ives:DBpedia:A Nucleus for a Web of Open Data.ISWC/ASWC 2007

下面是本次報告的投影影片:


Google推出瀏灠器Chrome,在想什麼,到底?

Google推出新的瀏覽器─Chrome,最近很多部落格也都紛紛報導這件事。眾所周知,Google一直是有名的瀏覽器─FireFox的贊助者。從過去到現在的歷史來看,瀏覽器之爭一直也沒有停過,從最早的Netscape到微軟的IE。現在FireFox藉Google支持之威輔以開放平台之助,硬是把瀏覽器的市場從IE的一家獨大給打成分庭抗禮的局面,若再算進Safari與Opera,目前這個市場可說是非常熱鬧。Google於此時推出Chrome,到底有什麼用意?

從官方網站的各種說明來看,Chrome的訴求如下:
穩定
採用Multi-Thread的設計,每一個Tab代表一個獨立的process。它的好處是當其中一個tab發生問題或是載入網頁過久,影響不及於其它使用中的Tab。也由於Tab彼此獨立,各自管理專屬的記憶體空間,因此可以更有效的降低memory leak的問題。

快速
Chrome的Web Page Rendering Engine採用WebKit,特色是簡單、快速。在JavaScript DOM的操作上,Google加入JavaScript Virtual Machine的機制─V8計劃來提升這方面的運算。

安全
不允許對本機電腦作檔案的寫入,也不允許讀取本機電腦上私密資料夾的內容。Google還提供類似網站安全性評比的功能,在進入惡意網站時會出現警示。另一個與IE8相同的功能是無痕跡瀏灠模式,在這種模式下將不會紀錄保留瀏灠資訊。

介面
將Tab移到最上方,這使得每個Tab擁有個別的URL輸入框。在URL輸入框中打字時,功能類似Google Suggestion,會列出常用的搜尋結果。另外,也可以把Tab用拖拉的方式拉出來形成另一個視窗。

Gears
與Google Gears整合在一起,可以配合建立應用程式捷徑的功能,在本機桌面上建立捷徑。採用這種方式建立的捷徑,其執行外觀幾乎與傳統的應用程式外觀並無二致。若加上Gears的離線功能,可以說是把Web Page的應用模擬成桌面程式一般,不僅外觀相似還不一定需要連線。

這些改善的確是非常創新,也是目前較有名瀏灠器所缺乏的功能。不過我對Google推出瀏灠器的用意,有不同的想法。Google在資料的收集上一向不遺餘力,而這些資料對Google作搜尋以及使用者行為分析是非常有用的。我的猜想是,Google可能透過瀏灠器將使用者輸入的關鑑字、瀏灠過的網頁等等資訊全部都收集起來。畢竟在不同種類的搜尋上,不一定只使用到Google;而在Google爬蟲程式到達不了的網頁,透過瀏覽器將可以輕鬆辦到。因此,我認為Chrome很有可能是Google在資料收集上的一個利器,也是網路平台整合服務的先鋒應用。在上網比例越來越高的今天,所有通往網頁入口的第一道關卡就是瀏灠器,由此可見其重要性。

其實對於隱私與便利總是讓人兩難,要得到更多的資料作分析,往往需要挖掘別人不一定想公開的秘密。在Web 2.0時代,這種衝突看來是無論如何都無法避免的。站在比較悲觀的看法上是,連上網的隱私都可能曝光;站在比較樂觀的角度是,這有利於讓人們在上網時的行為與現實生活中較一致,網路的隱秘性往往也是造成許多問題的主因之一。

Blogger Templates by Blog Forum