在資訊科技界有一句俗語,便是Garbage in, Garbage out,意思很簡單,即是輸入垃圾,得到的結果也是垃圾。由此可見,不論運算過程是多麼精準科學,如果輸入的數據有問題,得出的結果便沒有任何價值,如果根據這些有問題的結果來做決定或作出行動,也會有問題。因此在數據倉庫(Data Mining)或大數據(Big Data)等範疇的工作,處理數據的第一個步驟便是清理數據(Data Cleaning),之後這些數據才能用作運算之用。

再想深一層,大部分人都能清晰理智的思考,思考模式也差不多,所懂得的知識也差不多,但是我們所能得到的資訊卻有不同,所以能夠得到最有效、最新、最全面的數據,便能作出明智的決定,否則,如果我們只能得到不完整的數據,我們只能胡裡胡塗的做決定。

最明顯的例子是,究竟香港的樓價是升還是跌呢?大部分人都明白一些基本知識,例如樓價升的原因是房屋供應減少、需要買樓的人數增加、減息、資金湧入香港、通漲等等,至於引致樓價跌的原因,包括房屋供應增加、需要買樓的人數減少、加息、社會動盪、經濟不?等等。但是我們作為市民,其實很難得知全面的數據,例如將有多少房屋落成,何時加息等等,所以我們實在很難預知樓價升跌。另外,某股票的升跌,普通股民是很難得知該公司的表現,又或該行業的經營情況,但是某些基金經理,卻可以直接接觸該公司管理層,所以財雄勢大的基金可以準確支配股價的升跌。

話雖如此,我們真的要感謝互聯網的發展和普及,因為透過互聯網,我們已能較從前更快速、更便宜、更準確、更全面的數據,只要肯花時間,便可以得到足夠的數據來分析,跟著來做我們的決定,這已遠比從前只有政府或跨國公司才能得到較全面的數據為好。另外,當我們聽到別人告訴自己一些分析結果,我們便要去問問他們的數據從何而來,是否值得信任。

 

Credits

圖片源自網絡

此文章之主持/專欄作家介紹:Herbert
資訊科技界資深工作者,學生時代受蘋果二代所啟蒙,沉迷電腦科技,尤其是軟件編程,大學時代主修計算機科學,最後以獲得哲學博士作完美終結。從事資訊科技行業超過二十年,對資訊科技界充滿憧憬和好奇,至今仍在追趕各項電腦新知,盼望能以資訊科技知識,令這個世界更美好。

版權所有©2013 創動力媒體 Dynamix