FireFox及其外掛介紹

工欲善其事,必先利其器。對於一個常常需要瀏覽網頁的重度使用者而言,一個好用的Browser絕對能省下許多不必要的時間浪費並且提高效率。在目前的使用經驗上,我覺得FireFox遠勝於其它類似軟體。FireFox目前最新的版本是3.0.1版,在速度上比2.0版略有提升。它與另一個由Microsoft所開發的Browser─IE最大的差別在於:前者是個開放平台,因此有許多的外掛(Add-ons)可以使用。雖然這在某種程度上的確會引起使用者關於安全上的憂心,但是一般而言,如果使用的是知名外掛,風險相對會小很多。在看過IE8的相關介紹之後,我更相信擁抱FireFox的玩家將會越來越多。

FireFox之強,強在外掛軟體。底下列出一些目前我覺得好用的部份:
IE Tab
在某些設計不夠周到的網站上,有時只支援IE Browser。這個外掛能讓Firefox也可以使用IE的核心運作,進而達到相容性瀏灠,這也是讓我幾乎離開IE的主要原因。

FEBE
備份FireFox的重要工具,尤其是使用在不同電腦間的同步。目前我總共有三個地方的電腦─Lab、宿舍還有家裡,這個工具正好用來同步三台電腦的FireFox狀態,省下我不少時間。

SiteAdvisorWOT
這兩套都是很有名的網站安全檢測工具,依照顏色來區分網站的安全等級。對於Google完後的一堆頁面結果,有些網站其實是潛藏著安全危險,基本的安全警告就顯得很重要。

Dr. Web Anti-Virus link checker
有時WOT或是SiteAdvisor也不是萬能的,總是有些網站沒有評測資訊。這時後如果要更確保安全的話,可以用這個工具對Link作掃描。

Split Browser
這個軟體可以把Browser視窗作水平或是垂直分割,有時需要同時對兩個網站內容作比較,或者是,想要在一個視窗中同時觀看幾個不同的網站。

Firebug
一個FireFox中重量級的工具,可以用來輔助網頁開發者作除錯測試的工作。這裡有一個簡易的教學影片:http://www.digitalmediaminute.com/screencast/firebug-js/

Smart Bookmarks Bar
提供常用的書籤工具列按紐,可以更快速的找到最常用的網站。這個工具雖然看起來沒什麼特別,只是作一條工具列可以放bookmarks,但是這個簡單的小功能卻是我使用頻率很高的。它的好處在於把bookmarks用小圖示取代,只要看到圖示就知道這是哪個網站,更方便找尋。

Tab Mix Lite CE
一個很好用的分頁管理軟體,我之前一直在找關於FireFox上與分頁有關的外掛,但是都不是很滿意。像Tab Kit對我而言太複雜了,我只想單純的作一些分頁相關的特性管理。比如設定開新tab的位置、把書籤或是網站上的link自動開在新分頁等等。

Add to Search Bar
雖然Google很強大,但是Google在一些特定領域上的搜尋效率還是不夠好。比如找影片,我會上YouTube;買東西我會上eBay、Yahoo拍賣;查專有名詞我會先找Wikipedia。雖然有這些網站的Link,但是查詢的時後如果可以集合在一處那將可以省下很多功夫。這在IE8也有類似的功能,但FireFox藉由工具可以作得更好更多。

Organize Search Engines
這是用來搭配Add to Search Bar工具使用的,可以把加入的Search Engine作分門別類的管理。像我目前加入的Search網站就有幾十個,如果沒有這個工具,光是要找合適的search engine可能就要花不少時間。

除此之外,FireFox的附加元件還有作推薦功能,也許裡面也可以發現意外好用的小工具。其它找尋好用外掛的地方是Mozilla的官方討論區或是透過一些知名部落格的介紹。其實還有很多很不錯的工具,如果有推薦的也歡迎告訴我。當我從IE轉換到FireFox之後,我真的感到便利許多。重點是,找出合適好用的工具,想出巧妙的使用方式,這將是值得的。

Microsoft MIX 08

今年第一次參加微軟MIX活動,事先透過活動網站的介紹得知,這一次的焦點是SilverLight 2.0。跟我參加Google Developer Day的感覺不太一樣,氣氛比較嚴謹一點,參加的人似乎多是業界的工程師,而且中午也沒提供便當以及其它豐富的零食。活動時間從上午九點報到開始到下午四點半最後一個議程結束為止,前五百名報到的人員可以拿到不同的贈品。其中我覺得最實用的是光學滑鼠,可惜最後我拿到的是一套微軟出品的遊戲。

上午的議程算是SilverLight的介紹,下午則區分為使用者體驗與開發者技術兩個不同的主題。我對於使用者體驗議程中的Surface項目的介紹很有興趣,不過最後還是參加開發者技術部份。Surface是微軟近來大力研究並結合軟硬體的技術,擁有MultiTouch能力,可以直接用手或聲音對營幕作指示。比如底下所顯示的:

我不知道這樣的應在在日常生活中開始會在什麼時後,但我相信這是個趨勢。就好像手機、筆記型電腦以及一些公共場所的觸控式營幕設計一樣,當硬體的成本越來越低,軟體的技術越來越改進,這樣的生活有可能比我們想的更早一點到來。

記得之前曾經報告過的一篇paper─OpenXUP,裡面就提到了藉由本機端的一個thin-client來作到Rich UI的效果。那篇paper是2006年發表的,不過才一兩年,業界如Adobe的AIR技術、Microdost的SilverLight等等就已經往這個方向開始應用了。基本上,兩者同樣都是透過下載一個thin-client到本機端,而SilverLight還搭配了XAML標記語言來作UI的設置。也是因為如此,所以順便藉著這次MIX08的活動來了解一下目前這類技術可以作到怎樣的程度。自從Google大量使用AJAX技術以來,網頁UI的需求就開始產生了革命性的變化。只是沒有想到這個變化竟如此之快,如果不是親眼所見,我還不能想像到原來網頁的UI能力竟然可以達到這麼棒的體驗。比如新加波一家公司SinTel的Heart Race,這個網頁很有趣,透過選擇其中一個女孩,可以看到被選中的女孩開心的表情而其它女孩落選生氣或難過的反應。其它還有像故宮的清明上河圖英文版HardRockDeep Earth等等,更多的範例可以到這裡看。當然,以上這些都是基於SilverLight技術,瀏覽前必需下載並安裝SilverLight套件。

在開發者技術議程裡,有幾個比較值得一提的:
首先,微軟比較了目前所提出的幾個技術─WPF、Windows Forms、SilverLight以及ASP.NET+AJAX。這幾個技術分別適用在不同的情況之下,Windows Forms是目前傳統的Windows應用程式開發所使用的方式;而WPF除了可以使用在windows應用程式上之外,它也可以應用在網頁設計上,如同SilverLight一般作個thin-client來提升UI。從本機資源利用性來看,WPF可以說是最完整,甚至還利用到DirectX 3D的能力。也由於如此,所以跨平台成了WPF最大的缺點。至於SilverLight,雖然只有2D,但是卻成為Web應用最大的優勢,因為其沒有平台限制上的問題。最後一個ASP.NET+AJAX則適合在不需要使用者安裝任何套件的情況下使用,也是目前最普及的應用。此外,微軟還很貼心的提供了一支小程式UXIQ,幫助開發者決定應該使用哪種技術與平台。

其次,微軟為了幫助利用SilverLight作開發的使用者,免費提供了10GB的網站空間作為架設使用SilverLight技術的網站之用。然而,微軟也表示,在之後會提出收費標準,而原來免費的部份則考慮藉由在網站放置廣告的模式來運作。看起來,微軟以另一種business model在目前獲利很大的網站廣告上尋求獲利。另外,微軟還展示了IE8 beta 2版本,更加強調browser在安全與隱私上的加強。但是在使用慣了FireFox的人眼中,IE8雖然比IE7有些改善,但是其便利性仍然還遠遠不足。

相較於google,微軟給我的感覺是以其既有的優勢在技術上加強以因應未來的網路變化。如果說google在web上最大的貢獻是資料的搜尋與平台的提供;微軟則是致力於Web程式技術來加強使用者的網路體驗。不可否認,如果在操作上可以更友善一點、更互動一點,那對於使用網路的效率將會有很大的幫助。畢竟,對於使用的感覺,我們總希望這一切能變得更美好。

PS:最後填寫完問卷,我得到了微軟贈送的一份當期IT電子報以及一雙環保筷。

Web Information Extraction的survey paper閱讀心得

老師回國後,曾找個時間跟老師談了一下。老師對於研究方向的看法,基本上是希望學生能夠找有興趣的方向去作。我在各個領域其實都不會很排斥,只是對social network方面有多一點的接觸,所以對這方面興趣也稍微多一點。不過在跟老師談完之後,知道從web上作data extraction的工作在許多方面的應用上都很需要,加上之前跟學長合作的過程中覺得這部份具有核心技術的地位,因此覺得或許可以往這部份作發展。然而這個領域的理論也不少,老師建議可以先從閱讀survey部份開始入門。

我看的paper主要是以老師在2006發表的"A Survey of Web Information Extraction Systems"這篇paper為主,雖然是survey,但是看起來仍然頗為吃力,因為之前在這部份的接觸並不多。其中有許多不太了解的專有名詞如Tree Edit Distance或是資料結構如Suffix Tree等等,甚至演算法方面像ILP method或是ACME technique之前其實也沒聽過。雖然有上網稍微查了一下,不過在理解程度上還是很膚淺。透過這篇survey的研讀,真的可以感覺到這個領域的理論似乎不少,之後打算跟老師請教一些更細節方面的問題還有相關建議閱讀的paper。

Information extraction的工作在過去主要是針對free-text來作,這部份的技術較多的是使用有關自然語言處理的理論;但是近來Web流行,因此對Web Page上面的data extraction也越來越受到注意,這部份使用的技術比較傾向於machine-learning或是pattern matching。而用來作information extraction的程式,比較廣一點來說,就是所謂的Wrapper。在Web上,就好像一層介面包覆在網站外面提供使用者對頁面資料作抽取的工作。而產生Wrapper的方法則稱為Wrapper Induction,主要分成四個類型:手動方式建立、supervised、semi-supervised以及unsupervised。

站在系統應用的角度上,不太可能靠手動方式去作,畢竟很難要求每個使用者都會寫程式,而且效率也極低。由於這個原因,因此才開始慢慢發展出supervised、semi-supervised到unsupervised的方式。unsupervised的自動化程度最高,將使用者選取所需資訊的行為降到最低,因此這個方法在應用上漸漸成為趨勢。但是自動化所帶來的副作用就是限制性也最高,一般而言都是用在同一個或是類型相似度高的網站上。因此盡量提高應用在不同網站的程度,是這類方法的研究中心。至於supervised的方法雖然需要比較繁複的使用者標記工作,但是藉由加入適當的features可以提高不同種類網站的資料抽取能力。

在閱讀paper的過程中,看到Deep Web(Hidden Web)這個名詞,才明白到原來目前search engine還有大部份的Web Pages是無法收集到的,而無法收集到的Pages數量占所有網路上Pages的大部份比例。也因為這種情況,Wrapper應運而生。Wrapper的主要目的可以說就是把Deep Web背後的資料挖出來,然後抽取並輸出成結構性的格式如XML。關於這部份,Google似乎對其Crawler的設計打算作改善,可以在遇到要輸入查詢字串的Form元素時填入keyword來收集到Deep Web的深層資訊。看來Deep Web的概念將會越來越模糊,而到時從網頁抽取資料的技術與方式不知是否會有所改變?

最後,與從網頁中抽取資料的相關研究還有所謂的semantic web。我目前的理解可能是在網頁中加入一些meta data或是可以讓程式區分資料不同的元素。如果web page依照這樣的方式作設計,那在資料抽取的過程將會比較簡單而且精準。以設計層面來看,我覺得這是一種正確的方式,也是我所喜愛的方式─從根本上解決問題。但以目前的應用層面來看,似乎還有很長的路要走?

今天meeting跟老師談完後,老師很有耐心地回答一些問題,並給了一些選讀paper方向上的建議。我打算先把一些相關的paper收集起來,然後再詢問老師的意見,之後就安排一些研讀進度跟老師報告。這樣可以在報告中讓老師知道我是否有地方不是了解很透徹,如果有問題也可以當面跟老師請教,這樣應該能夠比較快速地在這方面學習到一些背景知識。

群眾智慧真的可靠嗎?

集合眾人的智慧,產生的結果是好或壞,在我心中一直是個很困惑的問題。有一句話說:群眾是盲目的。現實生活中,在各個領域裡我們都是由少數專家所掌舵。甚至連影響西方思想深遠的哲學大師柏拉圖都認為,在一個理想的國度中,國家領導人不應該交由群眾推選而是由專業的哲學家來擔任最好(註一)。

柏拉圖的想法在民主風氣盛行的今日看來也許可笑,但仔細想想卻也不無道理。透過民主選出來的元首不一定是最有能力治理好國家的人,即便是民意代表都可能很有問題。但是從經濟學的角度來看可能不同,在沒有任何人指揮的市場經濟機制的運轉下,似乎顯得一切是這麼的完美。賣場知道應該進多少貨才不會造成損失,廠商也知道該製造差不多剛好數量的產品。這樣複雜的運作,不可能單靠少數的專家就有辦法規劃出來。如今,群眾智慧的巔峰之作─維基百科,在不到幾年時間其內容數量就已經遠遠超出由少數專家編輯所產生的百科權威─大英百科全書了(註二)。

web2.0時代來臨,標榜分享與創造。許許多多的網站提供了平台服務,造成雪球效應,使用者創造與分享的內容也不斷爆增。然而,在很大的程度上,其實大部份都是乏善可陳。一個在YouTube影片上罵人的小男孩可能成為最流行的人物,一個充滿漫畫的部落格可能也是人氣最高的部落格之一。這種現像再透過搜尋引擎與推薦系統的加權效果,可能使冷門但優質的部份反而成為長尾理論中那條無限延長的最末端。你在看誰的部落格?一書中,作者就對所謂網路上的業餘者專家情況進行了很多的探討。

另一個我覺得有意思的現像是關於那些social bookmark類的網站,國外類似的有del.icio.us與digg,國內則有黑米書籤與推推王。del.icio.us只有收藏功能,而digg則只能推薦;黑米與推推王卻是兩者兼備。我一度為了收與推這兩個動作困擾很久,因為在網站上表現出來的形式很相似。畢竟你會收藏難道不代表你也是很推這個bookmark嗎?而你推這個bookmark竟然是不會想收藏嗎?答案果然是─反向真的不一定成立!在推推王很容易看出來推的數量總是遠高於收的數量,這幾乎說明了推的行為是不太值得參考的:可能你真的不是很喜歡它,但是也許為了幫助朋友充高人氣不得已而為之,或是有其它原因等等。

這篇文章比較了一些書籤類網站間流量的差別,很有意思。但是仔細想想不難發現,對於收藏來說,使用者會更想確定是否真的值得收藏,因此會花更多時間在訪問收藏的bookmark上。結果,只是收與推的兩個動作不同,造成使用者行為與參考價值的差別竟也有很大的不同。我想,雖然服務都是免費的,但是收藏牽涉到個人空間管理的問題,因此有了一些誘因使玩家比較認真的去看待這個行為;反之,推的動作只是單純的增加人氣,對玩家而言並沒有損失,因此比較容易去行使這樣的行為,但是也比較不具有價值。

我不太確定放任群眾自由地在網路世界產生並分享內容到底是利大於弊或是弊大於利,因為這是過去歷史上從沒有經歷過的情形。但是我深信群眾智慧在某些方面的確可以作到少數專家或是高明演算法作不到的事,比如訊息的整合。例如這個網站的功能,我想要利用Google收集也不太可能。甚至當我們想尋找影片時,我們可能會去YouTube搜尋而不是直接透過Google找。群眾智慧所產生的結果也許不是最好的,但它卻在某些部份作得比所有已知最好的還要好。

註一:參見柏拉圖的<理想國>。
註二:有些人認為維基百科的內容品質必需抱持存疑的態度,美國有些大學甚至規定論文中不能出現引用維基百科的內容。

Blogger Templates by Blog Forum