我們的生活和電腦息息相關,由早上起床開始,我們的一舉一動,其實也會有電腦在記錄,例如我們出門口乘撘升降機的時間,利用八達通使用交通工具,到商店以信用卡或以八達通來付款,我們無論身處何方,我們口袋裡的手提電話便會跟最近的發射站接上,變相是把我們的手機(亦即是我們)的位買留在電訊商的紀錄裡。這次我不是想討論私隱問題,而是想談談當一些機構記錄了我們的行為之後,他們可以做些什麼?

在計算機科學裡,有一門學問便是去從眾多客戶的數據之中,推算出有用的資料,為的是將來能作出更適合客戶的服務。這門學問名為數據發掘(Data mining),近年亦流行了另一個字眼,大數據(Big Data),這門學問便是要在海量的數據量找出知識,所以又有另一個相關的用語,機械學習(Machine Learning)。

數據發掘中的關聯規則(Association rule)便是用以找出數據中的事項的關係,例如著名的星期五買啤酒尿片現象:超級市場利用數據發掘技術,研究客戶購物的習慣,他們發現在星期五當天,很多人同時購買啤酒和尿片,因此,超級市場便可以把售賣啤酒和尿片的位置放在附近。

關聯規則定義了兩個數量,confidence和support。confidence的定義是在所有事項裡,甲事項和乙事項同時出現的次數,在所有事項裡甲事項出現的次數的比例(或百份率)。而support的定義是甲事項和乙事項同時出現,在所有事項中的比例(或百份率),當這兩個數值都是高於某預先設計的值,我們便宣稱甲事項和乙事項為有關。

以下是一個例子,在一千次事項之多,甲出現次數為十次,而甲事項和乙事項同時出現為八次,那麼confidence是80%(八次甲和乙一齊出現,除以甲出現了十次),而support則是0.8%(八次甲和乙一起出現,除以所有事項一千次)。

有沒有想過我們生活之中,其實有時也用了這關聯規則來認知我們身處的世界?例如有一位女性,他的男朋友是一位保險經紀,所以他每天午飯都是和不同的客戶進餐,例如一年之中,便和二百個客戶進午餐,而當中便有一百個女性客戶,另外,當年便和某女性客戶進了兩次午餐,如果以甲事項為男朋友和女性客戶進午餐,而乙事項為男朋友和某女性客戶進午餐,根據以上定義,confidence是2%而support是1%,由此可見,這位女性不用擔心其男朋友和那女性客戶有什麼「關聯」。

但是如果換上另外一些數字,例如那女性的男朋友是一位於辦公室工作的職員,他每天都和同事外出進午餐,一年裡的二百五十個工作天,便有一百五十個工作天只和一位同事進午餐,而當中和同一位女同事進午餐的日子便有一百個工作天,如果用相同甲乙事項定義,男朋友和這位女同事共進午餐的confidence和support分別是66.7%和40%。如此,這女性真的要擔心她男朋友和這女同事是否有什麼關聯。

舉另一個例子,例如某兩個頑皮學生會在課室內搗亂,某學年裡AB兩個學生上了一百堂,都是搗亂了十次,學生A在所有十個科目都會搗亂,而學生B則只在某一科目搗亂,如果以甲事項為學生搗亂,而乙事項為當時為某一科,學生A在某一科搗亂的confidence和support為1%和1%,而學生B在他會搗亂的科目的confidence和support為100%和10%。由此可見,學生A搗亂和上那一科目無關,而學生B搗亂和上那一科目較明顯有相關,至於學生B為什麼會在那某一科目搗亂,則要老師繼續跟進了。

我們的心目中不會真的去計算confidence和support,但是卻會去主觀性以所見所聞去改變confidence和support,到了confidence和support到達某一點時,便會作出某一推論,跟著便會嘗試找出原因。數據發掘便是以方程式量化了我們心中主觀的學習識知模式,相當有趣。

說了那麼多,其實只是一句,數據發掘告訴我們,如果某兩件事偶一出現,只是個別事件,不能代表這兩件事有關,但是如果這兩件事一同出現的次數越來越多,這兩件事定必有其關聯,慢慢我們可以這關聯作為一新知識,至於其背後原因是什麼,則須要當事人去思考了。

圖片來源:Cover by "The Economist" Feb17th-Marth5th 2010

逢星期五上載

[ 您可能對以下有興趣 ]

網台節目
[數碼APPS] 數碼分析專家 Kenneth Kwok 帶領大家漫遊大數據年代
專欄文章
[電腦告訴我的事] 垃圾數據
影像節目
暫時沒有相關資訊
此文章之主持/專欄作家介紹:Herbert
資訊科技界資深工作者,學生時代受蘋果二代所啟蒙,沉迷電腦科技,尤其是軟件編程,大學時代主修計算機科學,最後以獲得哲學博士作完美終結。從事資訊科技行業超過二十年,對資訊科技界充滿憧憬和好奇,至今仍在追趕各項電腦新知,盼望能以資訊科技知識,令這個世界更美好。

版權所有©2013 創動力媒體 Dynamix