12/18 regular meeting

這是我第三次報告paper,本篇paper的題目是"Mining Social Networks for Targeted Advertising",出處是:"Proceedings of the 39th Annual Hawaii International Conference on System Sciences (HICSS'06)"。這一篇paper是博班學長介紹的paper之一,算是比較入門的程度。因為Social Network其實在目前的網路應用上蠻熱門,像美國的MySpace、LinkdIn與Facebook等。而利用Social Network的模式來刊登廣告會比傳統靠內容比對的方式來得更精準,因此前一陣子Facebook推出的Social Ad Beacon還被譽為廣告界的聖盃。在報告之後,老師給了一些選擇優質paper的conference的建議。以下是本篇paper的摘要內容:

在商業中,針對部份客戶作目標性的廣告推薦是很有用的。傳統上都是靠手動方式分析先前的歷史交易資料或是客戶的相關特徵,但是近年來隨著技術的進展,這部份已經開始利用自動化的工具來處理了。目前推薦系統產生目標廣告的技術主要有兩大類,一類是content-based,另一類則是social-based。前者主要是比對個人特徵與產品內容分類的匹配性,缺點是沒有利用到有影響力的其它人。後者則是利用客戶對產品的評等關係之間的關連來作推薦,但是對於沒有被評等過的新產品或是尚未有評等產品的新客戶來說,這種方法並沒有用處。

為了修正上面所提方法的缺失,因此本篇paper提出一種基於social network概念的data mining framework for targeted advertising system。這種方法的原理是利用social network中的概念─如果兩個不認識的人間有另一個共同彼此認識的人,那麼他們之間的連結程度比任意兩個不認識的人之間還要強的許多。以此為基礎,找出客戶關係網路中的cohesive subgroups。接著將產品作分類,然後計算每個產品類別在對應的subgroup中交易的次數作為整個subgroup對該產品類別的愛好程度。透過這種方式,找出在某個固定的客戶數量下最有可能購買某項產品的客戶群 。對於新客戶來說,廣告推薦是根據新客戶屬於哪一個subgroup而定;對於新產品而言,則是根據新產品屬於哪一個分類。

最後作者們以彰化師範大學的教職員email logs與library-circulation data作為資料針對以下四種方法來實驗:

1. Group-based, 本篇paper所提出的方法
2. Single-based,將每個人視為一個subgroup
3. Neighbor-based,將有直接關係的人視為一個subgroup
4. Random,隨機選擇

結果顯示本篇paper所提出的group-based方法的performance是最佳的,並且在數量100-300之間具有明顯的統計顯著性。

最後是這次報告的投影片內容:


目前的時間安排

目前每一天可以說幾乎沒有太多空閒的時間,預計要看的書也一本一本地擱置。如果把主要的事務作劃分,大概有以下部份:

1.Paper Presentation
2.Meeting
3.選修課程

在paper閱讀方面,我有點想找Social Network這一塊相關的領域,然後看看Data Mining在這部份上面的處理。因此有跟登凱學長要了些這方面的paper,然後問了他一些問題,接著打算從比較簡單的開始讀起,真的很感謝他的幫忙。

Social Network本來是由社會學開始發展起來,後來數學家發現Six Degrees of Separation後,數學、電腦科學也開始進入這一塊領域作研究。Web 2.0流行之後,許多相關的網站也應運而生,而Data Mining既然是處理資料的一種技巧,我覺得這兩邊結合起來應該是挺有趣的。最有潛力的一種應用應該算是Social Ad,如Facebook的Beacon。其它有些網站乾脆直接利用Six Degrees of Separation的理論來找出人與人間的關連,如LinkedIn。最近,Google更發表了OpenSocial這個開放平台,許多知名的網站都紛紛加入這個平台,如MySpace。不過Facebook也不甘示弱地提出了F8開放平台,其它像LinkdIn、Bebo和Friendster等網站有都相繼發表自己的開放平台,看起來SNS網站間的開放平台已經是一種大勢所趨了,現在就看最後誰的Social Network能夠大到受到玩家的青睞。

至於Meeting方面,Portal網站是Web 2.0的另一個特色,以往使用者必須很無奈的接受網站所給予的呈現內容,儘管有許多是不需要的。但是現在個人化頁面的流行,這種情況開始有了許多轉機,使用者開始可以決定自己想要的頁面內容。這開始產生了一些有趣的現像:越來越多的使用者開始選擇個人化頁面,然後到以往常去的網站把想要的資訊抓取下來。那些以往提供大量內容的入口網站可能會逐漸地失去部份流量,而對某些網站而言留住使用者則變得更困難了。不過這部份的設計有些難題,就是每個個人化網站都必需要有開放式API的設計,讓玩家可以設計gadgets在上面使用。另一個部份是比較進階的主題,就是Portlet之間該怎樣去溝通互動的設計。在設計這一類網站上,目前有些現成的主流工具如JSR-168 API與ASP.NET的Web Part。另外還需要比較全面的技術了解像是AJAX、XML等等。我想在時間有限的情況下,看看是否可以利用團體的力量一起來設計或是增進技術間的支援。不然一個人可能光是研究部份細節就要花掉不少時間,更不用談到更進階的一些技巧了。

最後是選修課程方面,這部份的Project蠻多的,加上還有內容要讀,所以需要非常多的時間在上面。不過當中有部份是令我感到蠻失望的,比如Linux Kernel的Project。雖然Project都是Team Work的方式,但實際上第一個Project可以說從寫程式到報告內容都是我一個人獨自完成的。其實team work的主要優點是互相討論,但是那必需在有相同的努力付出上才成立。我以為大家都已經是研究生了,在許多事情上應該是主動參與而不是被動地逃避。在Porject2的部份我可能考慮情況跟老師提出換組的要求,我希望能夠在一個互動學習的team中work,這樣會比獨自學習來得有效率。

除了上面這些時間之外,其它很多時候我都是忙著看許多的Blog、News還有維持Blog的內容,我覺得這些動作是讓自己慢慢地經由大量接觸而逐漸形成一種習慣接著再發展出自己這方面獨特的觀點所不可或缺的過程。如果還有其它時間的話,我蠻希望能夠再多閱讀一些關於商業、哲學或是其它有趣的的書籍來增加自己多元思考的能力。

身份盜用

最近在家裡的MOD看了一支紀錄片"我的身份被盜用了",看完後感觸很深,也對資訊保密與安全多了更多的認識與想法。剛好這學期有選修一門"電腦攻擊與防禦"的課程,談的很大一部份跟這有關。我也開始感覺到,網路雖然是非常便利的工具卻同時也是殺傷力強大的工具,如同水流一般可以載舟也能覆舟。

最簡單的身份盜用的手段幾乎人人都可以作到,只要有心的話。有多少人家裡的垃圾中存在個人資料的訊息?電話費的帳單、信用卡帳單,甚至其它想不到卻可能透露一些與個人資料有關的文件。英國的一個警察曾經作過一個實驗,在一個地區的垃圾堆中找出了許多人的一些情報資料。其中還有完整的信用卡號、住址,甚至薪資單還有一些參與活動的訊息。然後他登門拜訪那些人,接著向這些完全不認識的人說出了許多與他們有關的一些事情,當事人聽了都很震驚。的確,假如有耐心,加上一些簡單的推斷,從垃圾中許多未處理的資料就足以讓詐騙集團對你下手了。

另一種也是很常見的身份盜用模式是信用卡與提款卡的冒用。有些盜卡集團甚至會在提款機上動手腳,比如在上面裝設小型的攝影機與側錄卡片的機器。當你到某一台被"動過手腳"的機器上進行存取卡片的動作時,你的資料還有你按的Password都已經被盜取了。而信用卡盜用更常見,不過這部份現在台灣由於很有經驗,所以大部份只要刷卡金額出現異常都很容易可以發現。

當然,由於現在網路很發達,所以身份盜用的重點也慢慢往這方面發展。從新聞上經常聽到的遊戲帳號被盜或是最近博客來網路書店個資外洩事件,都是跟網路盜用有關。在我們使用網路服務的時後,似乎只能祈導你所使用的網站防護安全作得夠好,不然唯一的方式就是盡可能地不要留下自己的私人資料。在修電腦攻防的課上,有一種SQL Injection的方式對某些網站是可以造成竊取資料的目地的,你甚至不需要輸入正確的帳號或密碼就可以登入系統裡面以別人的身份。還有另一種許多網站都喜歡使用的存取方式─透過Cookie的設定,但是這種設計卻也使得網路身份的安全性受到挑戰。其它相關的安全問題還有很多,比如網路釣魚、間諜軟體還有無線網路安全等等。

不過我在思考的是,即使這些安全性問題都能靠技術解決,結果還是可能不安全。比如一家擁有許多User資料的網站,它的盜取身份方式可能不是透過外部而是經由內部。比如管理資料庫系統的DBA或是任何可能有機會接觸到存放資料系統的員工等等,這無論是靠怎樣的安全防護技術都沒有用。也可以說,只要是資料一旦被存放在某個地方,那就沒有萬無一失的保障方法。另外再加上google強大的搜尋能力,我覺得今日個人資訊隱私似乎是岌岌可危。

PS:目前很熱門的SNS(Social Network Service)網站如Facebook,其最有威力的也最好玩之處正是要玩家填入真實的資料,否則許多強大的功能都將失去效果。這樣一來或許真的可能可以讓某些人找到以前的國小同學,也可能讓許多人可以透過這種社群交際方式得到更好的服務(比如推薦廣告的更精準),但是伴隨而來的隱私權、資料安全性問題的代價恐怕也不小。前一陣子Facebook推出的Social Ad系統Beacon也是因為這些道德、安全上問題鬧得沸沸揚揚,最後總裁zuckerberg還發表了一封公開信說明並道歉。我認為,SNS網站的威力與獲利似乎還有許多議題要解決,這可能不是單純的只有技術就能成功的問題。

Don't be evil?

Google自認為自己企業精神最引以為傲的一句話就是Don't be evil!所以這個口號不但放在google網頁上,就連許多替google寫書的作者也必定或多或少都會提到。但是在google taiwan上,卻開始出現有點讓人感到evil的行為。

如果在google taiwan上輸入遠傳的key word,廣告結果出現的竟然是台灣大哥大?另外如果輸入的是照片,則搜尋結果最左上角竟然是picasa,如果輸入的是個人化首頁則顯示的是iGoogle。這種結果真的反應了使用者真實的意願嗎?真的是最好的呈現嗎?這難道不是球員兼裁判的行為嗎?NHK有拍攝一集以google為主題的介紹影片,裡頭也提到了google曾無預警的讓一家網路公司在搜尋結果上完全消失。這個結果使該網站從原本獲利的情況下到最後瀕臨破產,該公司負責人不能理解google如此作的原因。在得不到說明的情況下,訴諸法庭。

google目前已經是全球最知名的search engine,許多人利用它來尋找有用的情報與資訊。更有許多公司因為名列搜尋結果的排名前幾名而獲利,由此甚至產生了SEO的特有行業用來幫助網站提升其在google搜尋結果的排名上。在這種情形之下,google應當不是只作為一個商業團體,它更應該要有社會責任並盡可能地公平,因為它已經擁有影響許多人作決定的能力。

但即使google真的有辦法作到公平,情況可能仍然一樣糟。因為SEO的出現,許多網站開始利用各種技巧來企圖提升能見度。結果導致了google search的結果可能因為這種現像而出現偏差,對利用google收集資訊與情報的人來說可能失誤,因為他們不見得是找到原本應該是最理想的。對於網站來說,原本應該是最理想的卻因為對手使用SEO的策略而造成了損失。結果很諷刺的是,google的精神雖然是Don't be evil,但實際上許多evil卻可能直接或間接的因它而生。

Blogger Templates by Blog Forum