本網訊(記者許楊楊)全球信息化飛速發展的背景下,大數據時代悄然來臨。6月5日,華中科技大學蔣洪波教授就大數據時代背景下的挑戰與機遇,與我校師生深入交流。
蔣洪波以全球第一大搜索引擎谷歌為例,揭示神秘的大數據。谷歌共有36個數據中心,美國有19個、歐洲12個、俄羅斯1個、南美1個和亞洲3個。正是因為這些遍布全球的數據中心,谷歌才能為用戶提供最為全面的資料。2009年,甲型H1N1流感病毒爆發之前,谷歌通過觀察人們在網上的搜索記錄,把其中5000萬條美國人最頻繁檢索的詞匯和美國疾控中心在2003年至2008年間季節性流感傳播時期的數據進行比較,并通過分析人們的搜索記錄,來判斷這些人是否患上流感。其間,谷歌共處理了4.5億個不同的數字模型,最后的預測與官方數據的相關性高達97%,不僅能判斷出流感是從哪里傳播的,而且判斷得非常及時。而疾控中心需要在流感爆發一兩周之后才能做到較為準確的預測。“這就是大數據的特點,人們在大規模數據的基礎上可以做到那些在小規模數據的基礎上根本無法完成的事情。”蔣洪波說,大數據的核心是預測,它把數學算法運用到海量的數據上來預測事情發生的可能性。
基于大數據特點,時代面臨巨大挑戰,如何應對挑戰?蔣洪波從統計學角度提出了大數據的三個思維變革。樣本 =0總體———利用所有數據,而不是一小部分數據,大數據時代允許處理和某個特別現象相關的所有數據,而不再依賴于隨機采樣;20+020=03.9———允許不精確,接受混亂性,擁有海量及時數據時,絕對的精準已經不再是主要目標;“是什么”,而不是“為什么”———關注相關關系而非因果關系,有更多的數據以及更好的工具后,要找到相關關系就變得很快,同時這也成為找到因果關系的基礎。
挑戰與機遇并存。蔣洪波說:“大數據有著取之不盡用之不竭的價值,如數據的折舊值和可再利用。”谷歌在這方面做得最好,它拒絕將互聯網協議地址從舊的搜索查詢中完全刪除,因為它希望得到每年的同比數據,如假日購物搜索等。充分利用大數據價值的同時從自己最適合最擅長的角度出發,才能為大數據時代的發展貢獻自己的力量,蔣洪波說。