最近的學習生活,我很享受

研究所入學的光景仿如昨日,一瞬間回到現實,已經是碩二了。實驗室來了許多新面孔,更添幾分熱鬧新鮮的氣息。陌生的環境已經適應,同學間的相處逐漸熱絡,我,開始把中央當成另一個習慣存在的地方。中央之於我,大部份時後總是,如果我不在實驗室或教室,就是在往實驗室或教室的路上。我打算趁著今年秋天涼爽時刻,或許散步,也許騎著腳踏車,重新感受與體驗每一條我在中大走過的路、沒去過的地方。

這學期只要再選修一門課就達到了該修滿的學分數,為了平衡時間與興趣,我選修了物件導向軟體工程。在現今所使用的語言環境中,大部份都是物件導向式設計。這門課大量介紹了UML工具的使用,讓設計人員可以一種更高階的圖示或描述方法來表達整個設計內容。這不只對維護很重要,在溝通上也很有用,如果把問題用更好的設計方式作表達,將更容易讓別人清處知道你在作什麼。我以為提高這種能力是很必要的,這需要很多因素結合起來,好的工具、對問題的深入了解以及平時訓練有素的文字表達與邏輯思想。

雖然只有選修一門課,但是卻旁聽了許多課程。像我們老師回國後所開的兩門課:最佳化理論與Web 2.0、另一位新老師開的課:統計學習理論以及一門經典課程:高等演算法。這幾門課的內容都很有趣,也都與我們實驗室的研究很相關。由於我們這一屆比較特殊,剛好碰到老師出國,所以這些相關課程反而在之前都沒有學過。但是也因此多修了許多不同領域的課程,加上今年這些旁聽與選修課,這讓我在資訊相關的學習上倍感充實。

在旁聽的兩門課中,統計學習與最佳化更讓我感受到有交互參照的效果。最近的統計學習上到貝氏決策理論,用到機率與貝氏定理的觀念來作分類。我在Data Mining的自修中只讀到這個部份就結束了,我也以為這個分類僅止於此。後來才知道,原來把條件機率用高斯分佈來假設,可以衍生出所謂的LDA(Linear Discriminant Analysis)、QDA(Quadratic Discriminant Analysis),這才讓我開始有點明白老師有時提到的LDA,它的分類原理與數學意義是什麼。更妙的是,LDA或QDA必須用到估計參數的部份,與老師現在的最佳化課程又串連了起來。在給定的機率模型中,求一組參數使得該機率可以達到最大值,這個過程就是目前最佳化正在教的部份。這當中又喚起我之前閱讀CRF(Conditional Random Field)論文裡,所參考的關於MEMM(Maximum Entropy Markov Model)部份中相關數學的印象。

而在論文閱讀方面,我目前大部份都找關於Web Data Extraction的方向。之前看的兩篇Survey到現在還是覺得只能大略地了解,沒有辦法很深刻的去體會其中的差別。但是隨著慢慢的累積一些相關知識,再回頭看會比較能理解。目前我希望多收集一些相關paper,多看幾種不同的作法,去漸漸區別出來整個Web IE在應用上有分成哪些、還有什麼不錯的方式可以改進?它的趨勢或是不錯的進階方向在哪裡等等。其它像是應用或是之後的maintanance還是擷取出來的資訊間作match的部份,我還不是很有感覺,大概要再多看paper然後找老師請教。最近,好像開始才比較能體會到持續在一個方向的閱讀可以慢慢擴散開來的樂趣。

最後,在研究的進度上,我仍在尋找一個構思。我覺得困難的是找一個好的情境與設計,還有在很多已經有的相關研究中去展現出自己獨特的貢獻。資料是分析的重要來源,而從網路上取得資料是第一步關鑑。我思考著,我應該是在前端技術或理論上作研究呢?還是應該利用已有的技術或理論把取得的資料作分析?或是其它不同的應用?這是我接下來必需儘快克服的問題。

Comments:

blog comments powered by Disqus

Blogger Templates by Blog Forum