關於研究的一些資源整理與想法

該怎麼開始一個研究的方向呢?該如何找一個值得作的研究題目呢?這是我現在最關心的問題,也是最想了解的部份。老師在meeting時告訴我說看的paper太少了,一針見血。老師建議我從幾個最頂尖的Conference裡找有興趣的paper來看,最主要的原因應該是希望我們學習優良品質的paper的研究方法。

一開始我的疑問是:該如何知道那些conference的等級優劣?我起先是問同學,結果發現大家都不知道。其實這個問題的答案並不是很重要,因為老師推薦的幾個就應該很足夠了,並且都是很棒的conference。後來,到網路上去找答案,發覺在電腦科學方面的conference排名資訊還蠻多的,比如這個還有這個,另外也有關於Journal的ranking如這個這個。裡面還按照領域分類,真的蠻方便。

第二個問題是,作研究有沒有一些基本的方法或準則?我個人的感覺是興趣很重要,但是興趣會隨著累積知識的底子深厚而有很大的關係。我有看過一些大師寫的文章,主要是為了鼓勵作研究的學生,我覺得是很值得參考的。比如李遠哲院長寫的文章以及王汎森院士寫的文章。另外一個想法是,多多請教研究上有經驗的學長與老師,跟他們學習作研究的方式。每個人找資訊想題目或是作研究的方式可能都不相同,但我相信那都會是很寶貴的經驗可供學習。我對自己的期望是一點一點地進步,也許現在很多能力是不足夠的,但是絕不能沒有收獲。

關於我協助學長作的GoD系統,我開始並不知道那到底是在作些什麼。雖然老師對於詢問的問題都會很有耐心的解答,但可能是中途加入,整個來龍去脈仍然不是很清處。當然,其中也不乏因為課業與寫程式花掉了許多時間,所以沒能好好地去思考這個系統的好處在哪裡,所以一直也沒有所謂的興趣問題。最近,看到了一篇文章介紹把Web Page轉成RSS的應用,裡面還提到了許多同類的網站工具,其中也包含之前曾接觸過的dapper。這才恍然大悟跟GoD系統的應用有些類似,可以把某個不提供RSS服務的網頁或其中的某部份經由這類網站工具提取出來包成RSS服務。

突然之間,才開始有點意識到樂趣的感覺。感到有意思的地方在於,如果在沒有任何相關知識的情況下,我該怎麼去完成這樣一個網站工具?除了程式技術之外,似乎一個Wrapper是不可或缺的核心關鑑。但是這又讓我想起了一個問題,如果那些網站已經可以運作良好,那代表那些網站的Wrapper部份是很O.K的,而目前GoD系統的最大問題卻是出在Wrapper部份!這到底是為什麼呢?跟學長詢問的回答是:GoD系統的Wrapper可能比較複雜。如果是這樣,那麼比較複雜的好處與目地是什麼?這種複雜對GoD系統來說是必要的嗎?還是GoD系統可以利用這種複雜打敗其它相類似的網站工具?

除此之外,進入Web 2.0時代,使用者成為內容的產生者,諸如blog、youtube以及相關的SNS網站如facebook與twitter等都是這方面的應用。目前正在思考有哪些關於這方面的理論或是技術值得研究,還是有什麼可以改良的地方?可能要先從一些paper的研讀開始,然後慢慢去擴展開來。看來這部份需要好好地加強,期許培養出一個研究生該有的能力。

一兩句話,有時很受用

每一個人在成長過程中,都會有經驗的累積與閱讀而獲得的知識。有時,這些體會在針對某些看法時,常常會被濃縮成一兩句話來表達。然而,大部份情況下,很多聽的人當時可能沒辦法體會。往往要等到時過境遷之後的某一天才能領悟,甚至是可能永遠都不會明白。

最近看淨空老和尚的演講,裡面有一段是他老人家提到當年學佛的過程,那時他很喜歡研究經文,但是一直對佛教裡談戒律的部份不是很有興趣。因為他認為戒律是當時那個年代那個國家所產生的,到了今天這個時代不同的地區上,這些戒律的合適性可能有問題,因此他對戒律這方面一直沒有很在意。但是他的老師每次在指導他的時後,總是會有意無意地提起一句話:"戒律很重要"。他當時只覺得師父可能認為他對戒律看得比較淡,所以才會常常提醒他。

後來,老和尚的師父過世,老和尚在難過之餘想起了師父生前常常對他說的一句話:"戒律很重要"。他越想越不對勁,總覺得師父對他說這句話應該是有別的含意。於是老和尚便去翻察佛經中關於戒律的部份,這一翻查之下讓他終於領悟了當年師父那一句話的意義。原來戒律是為了出世之用,不是給一般人遵守的,是為了讓修行人出世所定下的不可違背的基本精神。這一領悟對老和尚幫助很大,在修行的路上奠下了深厚的基礎。

看完後,我思考著,當我的老師在指導我的時後,是不是有哪一些話其實是我還未能體會的?有時後可能看似簡單平淡的一兩句話,也許在某些時候會發揮其不可思議的效果,甚至可能因此改變了一個人的重大想法。也許,多留意談話中透露的一兩句話,可能會從這短短的一兩句話中發現其中的玄機進而領悟到有重大幫助的想法也說不定呢!

04/29 regular meeting

這一次報告的paper與mobile device比較有關,因為行動裝置上網已經是不可避免的趨勢。但是在目前的畫面尺寸上,除非未來有新技術的產生,否則在小畫面上使用網站是必然的。這方面的應用可能有幾個部份:一個是把原有網頁重建,或是盡可能作到節省操作以達到更便利瀏覽的目地。其中,網頁中image元素的分類是有用的,這也是我選擇這篇paper來看的原因。

這次報告的paper題目是"Image Classification for Mobile Web Browsing",出處是"Proceedings of the 15th international conference on World Wide Web"。不難想像的是,作者是日本人,畢竟在日本,使用手機已經成為非常高頻率的一種活動。底下是摘要部份:

對於只有小畫面的行動裝置使用者來說,瀏覽專為桌上型PC的大畫面所設計的網頁是不方便的。然而,隨著網路技術的提升與行動裝置的普及,這方面的需求也越來越多。目前已經有一些研究與商業產品正嘗試解決這方面的問題,其中,能夠正確地分辨網頁中image的種類是很有用的。舉例來說,去除網頁中某些image來簡化網頁內容以達到更符合小畫面瀏覽的程度。

在這篇paper中,作者們將web imgaes分成11個種類。接著,從40個網站中收集到的3901個images以手動方式分類。其中,選取了能夠有效分類的37個image features。這些image features的擷取方式總共有4種:
1.use HTML source file analysis
2.query web servers
3.exploit the layout information of DOM trees when rendering the pages
4.use image processing

根據這37個image features,作者們使用C4.5演算法來建立Decision Tree Classification。

實驗部份,總共執行40次,每一次選擇其中一個網站的images當作test set而其餘39個網站的images當作training set。結果顯示,採用作者們的分類方式可以達到83.1%的正確率。最後,作者們還實作了一個automatic web page scrolling system作為展示利用image classification方法的一種應用。

最後是這次報告的投影片:


研一下學期的學習心得

一轉眼,已經是研究所一年級下學期過一半了。這學期的時間比上學期還緊湊,除了課程修得比較多以外,在meeting的程式方面也花了非常多的時間。此外還必需加上看書的時間以及定期觀看一些blog資訊的時間,時間真是永遠都不夠用。

目前最讓我感到比較擔憂的部份是找paper來閱讀這一方面,主要是因為不太有sense應該找哪些題目來作有系統的深入閱讀比較好。已經報告過的paper都是不太相關的,也算是在嘗試看許多不同的方向,看有沒有辦法看到某個題目是值得再繼續閱讀或研究下去。一方面也是因為目前meeting的部份比較偏向實務,所以很難有對應的paper可以看;另一方面是關於一些背景知識的缺乏,所以在找paper的時後常不知道該怎麼找比較好,比如有哪些key word可以下。因此這部份目前正開始自修關於data mining的教科書,不過進度沒辦法很快,因為時間實在太少了。另外,許多paper都或多或少談到關於統計學的某些檢驗方式,我想之後可能也要花時間了解一下統計學方面的基本知識。關於研究方向,目前對於social network方面的興趣還蠻大的,其它像是廣告分析或是search engine之類的都蠻有興趣的,未來可能找這一類paper來看跟報告。另外之後可能也要找時間跟老師討論哪些方向可以研究,畢竟研二開始就要對論文下功夫了。

在程式能力方面的加強上,雖然目前meeting有牽涉到一些網頁設計相關方面,但是我負責的部份是比較屬於XML的方面,所以在整體網頁設計的許多能力上我認為其實都還是很不足夠的。也許網頁語言相比桌面應用程式來說是相對簡單的,但是網頁設計的困難點在於廣跟雜。要同時學習許多不同的語言,客戶端有javascript,server端有asp.net,畫面設計上有CSS等。最後整合一起應用,也是需要蠻多時間的。除非原來對這幾種語言都有一定的熟悉程度,否則在網頁設計上真的會進展很慢且頂多可能只是堪用而已。目前實驗室的同學們感覺上都還蠻慘的,程式能力可以說都蠻糟糕的。可能未來比較可行的方式或許是,一個team work一個project,每個人學習某個固定的元素,然後由一個人設計統合起來。

最後是一些希望有時間可以閱讀的書籍─

web 2.0程式設計方面:
資訊架構學建置逐層擴充的web 2.0服務 Professional Web 2.0 Programming以及其它一系列介紹mashup的書籍。

作業系統方面:
Linux kernel、windows internals

數學方面:
機率、統計類

Blogger Templates by Blog Forum