大數據時代的機遇與挑戰
發稿時間:2013-02-17 00:00:00 來源:求是2013/04
大數據泛指巨量的數據集,因可從(cong) 中挖掘出有價(jia) 值的信息而受到重視。《華爾街日報》將大數據時代、智能化生產(chan) 和無線網絡革命稱為(wei) 引領未來繁榮的三大技術變革。麥肯錫公司的報告指出數據是一種生產(chan) 資料,大數據是下一個(ge) 創新、競爭(zheng) 、生產(chan) 力提高的前沿。世界經濟論壇的報告認定大數據為(wei) 新財富,價(jia) 值堪比石油。因此,發達國家紛紛將開發利用大數據作為(wei) 奪取新一輪競爭(zheng) 製高點的重要抓手。
大數據時代的來臨(lin)
互聯網特別是移動互聯網的發展,加快了信息化向社會(hui) 經濟各方麵、大眾(zhong) 日常生活的滲透。有資料顯示,1998年全球網民平均每月使用流量是1MB(兆字節),2000年是10MB,2003年是100MB,2008年是1GB(1GB等於(yu) 1024MB),2014年將是10GB。全網流量累計達到1EB(即10億(yi) GB或1000PB)的時間在2001年是一年,在2004年是一個(ge) 月,在2007年是一周,而2013年僅(jin) 需一天,即一天產(chan) 生的信息量可刻滿1.88億(yi) 張DVD光盤。我國網民數居世界之首,每天產(chan) 生的數據量也位於(yu) 世界前列。淘寶網站每天有超過數千萬(wan) 筆交易,單日數據產(chan) 生量超過50TB(1TB等於(yu) 1000GB),存儲(chu) 量40PB(1PB等於(yu) 1000TB)。百度公司目前數據總量接近1000PB,存儲(chu) 網頁數量接近1萬(wan) 億(yi) 頁,每天大約要處理60億(yi) 次搜索請求,幾十PB數據。一個(ge) 8Mbps(兆比特每秒)的攝像頭一小時能產(chan) 生3.6GB數據,一個(ge) 城市若安裝幾十萬(wan) 個(ge) 交通和安防攝像頭,每月產(chan) 生的數據量將達幾十PB。醫院也是數據產(chan) 生集中的地方。現在,一個(ge) 病人的CT影像數據量達幾十GB,而全國每年門診人數以數十億(yi) 計,並且他們(men) 的信息需要長時間保存。總之,大數據存在於(yu) 各行各業(ye) ,一個(ge) 大數據時代正在到來。
信息爆炸不自今日起,但近年來人們(men) 更加感受到大數據的來勢迅猛。一方麵,網民數量不斷增加,另一方麵,以物聯網和家電為(wei) 代表的聯網設備數量增長更快。2007年全球有5億(yi) 個(ge) 設備聯網,人均0.1個(ge) ;2013年全球將有500億(yi) 個(ge) 設備聯網,人均70個(ge) 。隨著寬帶化的發展,人均網絡接入帶寬和流量也迅速提升。全球新產(chan) 生數據年增40%,即信息總量每兩(liang) 年就可以翻番,這一趨勢還將持續。目前,單一數據集容量超過幾十TB甚至數PB已不罕見,其規模大到無法在容許的時間內(nei) 用常規軟件工具對其內(nei) 容進行抓取、管理和處理。
數據規模越大,處理的難度也越大,但對其進行挖掘可能得到的價(jia) 值更大,這就是大數據熱的原因。首先,大數據反映輿情和民意。網民在網上產(chan) 生的海量數據,記錄著他們(men) 的思想、行為(wei) 乃至情感,這是信息時代現實社會(hui) 與(yu) 網絡空間深度融合的產(chan) 物,蘊含著豐(feng) 富的內(nei) 涵和很多規律性信息。根據中國互聯網絡信息中心統計,2012年底我國網民數為(wei) 5.64億(yi) ,手機網民為(wei) 4.2億(yi) ,通過分析相關(guan) 數據,可以了解大眾(zhong) 需求、訴求和意見。其次,企業(ye) 和政府的信息係統每天源源不斷產(chan) 生大量數據。根據賽門鐵克公司的調研報告,全球企業(ye) 的信息存儲(chu) 總量已達2.2ZB(1ZB等於(yu) 1000EB),年增67%。醫院、學校和銀行等也都會(hui) 收集和存儲(chu) 大量信息。政府可以部署傳(chuan) 感器等感知單元,收集環境和社會(hui) 管理所需的信息。2011年,英國《自然》雜誌曾出版專(zhuan) 刊指出,倘若能夠更有效地組織和使用大數據,人類將得到更多的機會(hui) 發揮科學技術對社會(hui) 發展的巨大推動作用。
大數據應用的領域
大數據技術可運用到各行各業(ye) 。宏觀經濟方麵,IBM日本公司建立經濟指標預測係統,從(cong) 互聯網新聞中搜索影響製造業(ye) 的480項經濟數據,計算采購經理人指數的預測值。印第安納大學利用穀歌公司提供的心情分析工具,從(cong) 近千萬(wan) 條網民留言中歸納出六種心情,進而對道瓊斯工業(ye) 指數的變化進行預測,準確率達到87%。製造業(ye) 方麵,華爾街對衝(chong) 基金依據購物網站的顧客評論,分析企業(ye) 產(chan) 品銷售狀況;一些企業(ye) 利用大數據分析實現對采購和合理庫存量的管理,通過分析網上數據了解客戶需求、掌握市場動向。有資料顯示,全球零售商因盲目進貨導致的銷售損失每年達1000億(yi) 美元,這方麵的數據分析大有作為(wei) 。
在農(nong) 業(ye) 領域,矽穀有個(ge) 氣候公司,從(cong) 美國氣象局等數據庫中獲得幾十年的天氣數據,將各地降雨、氣溫、土壤狀況與(yu) 曆年農(nong) 作物產(chan) 量的相關(guan) 度做成精密圖表,預測農(nong) 場來年產(chan) 量,向農(nong) 戶出售個(ge) 性化保險。在商業(ye) 領域,沃爾瑪公司通過分析銷售數據,了解顧客購物習(xi) 慣,得出適合搭配在一起出售的商品,還可從(cong) 中細分顧客群體(ti) ,提供個(ge) 性化服務。在金融領域,華爾街“德溫特資本市場”公司分析3.4億(yi) 微博賬戶留言,判斷民眾(zhong) 情緒,依據人們(men) 高興(xing) 時買(mai) 股票、焦慮時拋售股票的規律,決(jue) 定公司股票的買(mai) 入或賣出。阿裏公司根據在淘寶網上中小企業(ye) 的交易狀況篩選出財務健康和講究誠信的企業(ye) ,對他們(men) 發放無需擔保的貸款。目前已放貸300多億(yi) 元,壞賬率僅(jin) 0.3%。
在醫療保健領域,“穀歌流感趨勢”項目依據網民搜索內(nei) 容分析全球範圍內(nei) 流感等病疫傳(chuan) 播狀況,與(yu) 美國疾病控製和預防中心提供的報告對比,追蹤疾病的精確率達到97%。社交網絡為(wei) 許多慢性病患者提供臨(lin) 床症狀交流和診治經驗分享平台,醫生借此可獲得在醫院通常得不到的臨(lin) 床效果統計數據。基於(yu) 對人體(ti) 基因的大數據分析,可以實現對症下藥的個(ge) 性化治療。在社會(hui) 安全管理領域,通過對手機數據的挖掘,可以分析實時動態的流動人口來源、出行,實時交通客流信息及擁堵情況。利用短信、微博、微信和搜索引擎,可以收集熱點事件,挖掘輿情,還可以追蹤造謠信息的源頭。美國麻省理工學院通過對十萬(wan) 多人手機的通話、短信和空間位置等信息進行處理,提取人們(men) 行為(wei) 的時空規律性,進行犯罪預測。在科學研究領域,基於(yu) 密集數據分析的科學發現成為(wei) 繼實驗科學、理論科學和計算科學之後的第四個(ge) 範例,基於(yu) 大數據分析的材料基因組學和合成生物學等正在興(xing) 起。
麥肯錫公司2011年報告推測,如果把大數據用於(yu) 美國的醫療保健,一年產(chan) 生潛在價(jia) 值3000億(yi) 美元,用於(yu) 歐洲的公共管理可獲得年度潛在價(jia) 值2500億(yi) 歐元;服務提供商利用個(ge) 人位置數據可獲得潛在的消費者年度盈餘(yu) 6000億(yi) 美元;利用大數據分析,零售商可增加運營利潤60%,製造業(ye) 設備裝配成本會(hui) 減少50%。
大數據技術的挑戰和啟示
目前,大數據技術的運用仍存在一些困難與(yu) 挑戰,體(ti) 現在大數據挖掘的四個(ge) 環節中。首先在數據收集方麵。要對來自網絡包括物聯網和機構信息係統的數據附上時空標誌,去偽(wei) 存真,盡可能收集異源甚至是異構的數據,必要時還可與(yu) 曆史數據對照,多角度驗證數據的全麵性和可信性。其次是數據存儲(chu) 。要達到低成本、低能耗、高可靠性目標,通常要用到冗餘(yu) 配置、分布化和雲(yun) 計算技術,在存儲(chu) 時要按照一定規則對數據進行分類,通過過濾和去重,減少存儲(chu) 量,同時加入便於(yu) 日後檢索的標簽。第三是數據處理。有些行業(ye) 的數據涉及上百個(ge) 參數,其複雜性不僅(jin) 體(ti) 現在數據樣本本身,更體(ti) 現在多源異構、多實體(ti) 和多空間之間的交互動態性,難以用傳(chuan) 統的方法描述與(yu) 度量,處理的複雜度很大,需要將高維圖像等多媒體(ti) 數據降維後度量與(yu) 處理,利用上下文關(guan) 聯進行語義(yi) 分析,從(cong) 大量動態而且可能是模棱兩(liang) 可的數據中綜合信息,並導出可理解的內(nei) 容。第四是結果的可視化呈現,使結果更直觀以便於(yu) 洞察。目前,盡管計算機智能化有了很大進步,但還隻能針對小規模、有結構或類結構的數據進行分析,談不上深層次的數據挖掘,現有的數據挖掘算法在不同行業(ye) 中難以通用。
大數據技術的運用前景是十分光明的。當前,我國正處在全麵建成小康社會(hui) 征程中,工業(ye) 化、信息化、城鎮化、農(nong) 業(ye) 現代化任務很重,建設下一代信息基礎設施,發展現代信息技術產(chan) 業(ye) 體(ti) 係,健全信息安全保障體(ti) 係,推進信息網絡技術廣泛運用,是實現四化同步發展的保證。大數據分析對我們(men) 深刻領會(hui) 世情和國情,把握規律,實現科學發展,做出科學決(jue) 策具有重要意義(yi) ,我們(men) 必須重新認識數據的重要價(jia) 值。
為(wei) 了開發大數據這一金礦,我們(men) 要做的工作還很多。首先,大數據分析需要有大數據的技術與(yu) 產(chan) 品支持。發達國家一些信息技術(IT)企業(ye) 已提前發力,通過加大開發力度和兼並等多種手段,努力向成為(wei) 大數據解決(jue) 方案提供商轉型。國外一些企業(ye) 打出免費承接大數據分析的招牌,既是為(wei) 了練兵,也是為(wei) 了獲取情報。過分依賴國外的大數據分析技術與(yu) 平台,難以回避信息泄密風險。有些日常生活信息看似無關(guan) 緊要,其實從(cong) 中也可摸到國家經濟和社會(hui) 脈搏。因此,我們(men) 需要有自主可控的大數據技術與(yu) 產(chan) 品。美國政府2012年3月發布《大數據研究與(yu) 發展倡議》,這是繼1993年宣布“信息高速公路”之後又一重大科技部署,聯邦政府和一些部委已安排資金用於(yu) 大數據開發。我們(men) 與(yu) 發達國家有不少差距,更需要國家政策支持。
中國人口居世界首位,將會(hui) 成為(wei) 產(chan) 生數據量最多的國家,但我們(men) 對數據保存不夠重視,對存儲(chu) 數據的利用率也不高。此外,我國一些部門和機構擁有大量數據卻不願與(yu) 其他部門共享,導致信息不完整或重複投資。政府應通過體(ti) 製機製改革打破數據割據與(yu) 封鎖,應注重公開信息,應重視數據挖掘。美國聯邦政府建立統一數據開放門戶網站,為(wei) 社會(hui) 提供信息服務並鼓勵挖掘與(yu) 利用。例如,提供各地天氣與(yu) 航班延誤的關(guan) 係,推動航空公司提升正點率。
大數據的挖掘與(yu) 利用應當有法可依。去年底全國人大通過的加強網絡信息保護的決(jue) 定是一個(ge) 好的開始,當前要盡快製定“信息公開法”以適應大數據時代的到來。現在很多機構和企業(ye) 擁有大量客戶信息。應當既鼓勵麵向群體(ti) 、服務社會(hui) 的數據挖掘,又要防止侵犯個(ge) 體(ti) 隱私;既提倡數據共享,又要防止數據被濫用。此外,還需要界定數據挖掘、利用的權限和範圍。大數據係統本身的安全性也是值得特別關(guan) 注的,要注意技術安全性和管理製度安全性並重,防止信息被損壞、篡改、泄露或被竊,保護公民和國家的信息安全。
大數據時代呼喚創新型人才。蓋特納谘詢公司預測大數據將為(wei) 全球帶來440萬(wan) 個(ge) IT新崗位和上千萬(wan) 個(ge) 非IT崗位。麥肯錫公司預測美國到2018年需要深度數據分析人才44萬(wan) —49萬(wan) ,缺口14萬(wan) —19萬(wan) 人;需要既熟悉本單位需求又了解大數據技術與(yu) 應用的管理者150萬(wan) ,這方麵的人才缺口更大。中國是人才大國,但能理解與(yu) 應用大數據的創新人才更是稀缺資源。
大數據是新一代信息技術的集中反映,是一個(ge) 應用驅動性很強的服務領域,是具有無窮潛力的新興(xing) 產(chan) 業(ye) 領域;目前,其標準和產(chan) 業(ye) 格局尚未形成,這是我國實現跨越式發展的寶貴機會(hui) 。我們(men) 要從(cong) 戰略上重視大數據的開發利用,將它作為(wei) 轉變經濟增長方式的有效抓手,但要注意科學規劃,切忌一哄而上。
(作者:中國工程院院士)
友情鏈接:




