Semantic Web─從Web 2.0到Web 3.0之路?
2008年12月26日 星期五 by 哲民
今年11月號的科學人雜誌中文版有一篇文章很吸引我,文章的標題是─新興學門:資訊網科學(Web Science)。翻了一下,發現裡面就提到了Semantic Web的研究與應用情境,效果非常強大且完美。最近,在科學人雜誌網站上看到Web 2.0下一步:從群眾智慧到人工智慧這篇文章,讓我對機器與人類在Web上將資訊收集與整合的效用這類問題上,又開始思考了起來。
起初,我對Semantic Web的認識也不深,只大略知道最基本的條件是,在網頁上放進一些所謂的meta data。meta data簡單來講,就是描述或說明資料的資料,而這些描述或說明不僅僅是人類看得懂,還必須是機器可讀的。這樣的好處在於,透過meta data我們便可以賦予資料某些語意;透過這些語意,機器便有可能去作推論。最簡單的例子之一,像是Google Scocial Graph API所支援的XFN描述,就可以很容易的推論關係。
後來,拜這學期Web 2.0課程之賜,對Semantic Web有比較綜合性的介紹,才知道原來對資料作語義上的描述還有很大的學問,並不簡單。這些描述對推論的限制與設計的彈性有直接的關係,由此逐漸發展出了RDF、RDFs以及OWL這些metadata data model。在RDF中,透過一條條的陳述(statement)建構起語意網絡,而每條陳述(statement)由主體(subject)、謂詞(predicate)以及客體(object)三個元素組成。主體(subject)或客體(object)代表Web上的某個resource,藉由URI可以達到唯一性的辨識功能而不會產生混淆。謂詞(predicate)則是用來關聯主體(subject)與客體(object),也可以稱為屬性(property)。RDFs進一步引入了物件的概念,使得語義的表現上更契合於真實世界的情境。OWL則加入了更多的限制與物件間關係的描述如disjunction,可以更有利於語義的萃煉。
在過去Web 1.0的時代,如果要擷取或搜尋網路上的資訊,利用Search Engine的IE(Information Extraction)與IR(Information Retrival)技術似乎是唯一比較可行的方法;到了當今Web 2.0概念當道的時代,可以經由RSS快速的匯集想看的資訊於一處,也可以像Social Bookmark網站一樣採用群眾智慧的過濾機制(推文與收藏)與分類方式(tag)取得資訊,或是從社群關係連結的角度對資料作分析;在邁向未來Web 3.0的趨勢上,也許會在以Semantic Web建設的基礎上,再度利用人工智慧、Data Mining的方式作自動化的資料分析。
不過,Semantic Web的語義描述設計可能需要專門人員,並配合相關領域知識才能建構得好,這恐怕是廣泛存在的一個最大挑戰。然而,這是無可奈何的必須成本。把簡單的工作放在資料產生,把困難的資料收集交給機器去作;或是在資料產生的過程中分擔一點成本,讓資料收集與推論上可以輕鬆一點。我原來很看好Web 2.0與相應的群眾智慧機制,在資料的產生上沒有任何改變,在資料的過濾與收集上也不會太困難。但是群眾的選擇卻很容易形成偏差,很有可能造成少數人的看法決定多數人的意見。
掌握越多資訊才能在競爭下越有利,各種方式的進展,都可以再深思與討論。未來,我們能把資料應用分析到怎樣的程度呢?