【第61期】2013大資料元年

 【新華特稿】 大數據時代的「破」與「立」

李宓

01大數據時代

大資料是一種新的價值觀和方法論,人們面對的不再是隨機樣本而是全體資料,不是精確性而是混雜性,不是因果關係而是相關關係。(網路圖片)

「大資料現在已經成為天大的事」。11月12日,美

國政府公佈新版大資料研究計畫,白宮科技政策辦公室主任霍爾德倫致辭說,他去年曾預測大資料將是件「大事」,現在來看保守了。

時間倒回到6月,斯諾登的41張幻燈片,讓美國大資料監控專案「棱鏡」浮出水面,令人不寒而慄。2013年被一些專家稱為「大資料元年」。對大資料時代的樂觀和憂慮,在這一年充分展示。

大變革

「除了上帝,每個人都必須用資料說話。」不僅是人,整個世界都越來越資料化。資訊革命深入發展,如潮的資料澎湃而至,數量之巨,種類之雜,來勢之快,前所未有。

根據IDC(國際資料公司)的估計,全球2012年產生資料總量約2.8澤位元組。有人計算,這相當於3000多億部時長2小時的高清電影,連著看7000多萬年也看不完。而這還只是序曲。更大的浪潮在後頭。IDC預測,未來幾年,全球資料量每隔兩年翻一番,2020年達到40澤位元組。

大資料不單單是「資料的工業革命」,而是一場更深刻的科技和產業大變革的組成部分,是對未來大趨勢、時代新特徵的一種描述。大資料是推動這場大變革的重要動力,將成為促進經濟社會轉型新的關鍵資源。搜集、分析和運用指數逐級增長的龐大資料,將催生創新,為各行各業提供新的發展機遇,給人們日常生活帶來改變。

星巴克有意推出的「大資料咖啡杯」就是個小小的例子。美國媒體報導,這家咖啡連鎖巨頭打算試驗在一些咖啡杯中裝上感測器,收集常客喝咖啡速度等資料,從而為喝咖啡較慢顧客提供保溫效果好的杯子,提高其滿意度和忠誠度。

業內人士認為,大資料的本質還不在於「大」,而是以嶄新的思維和技術去分析海量資料,揭示其中隱藏的人類行為等模式,由此創造新產品和服務,或是預測未來趨勢。暢銷書《大資料時代》的作者、英國牛津大學資料科學家舍恩伯格認為,大資料是一種新的價值觀和方法論,人們面對的不再是隨機樣本而是全體資料,不是精確性而是混雜性,不是因果關係而是相關關係。

「現有的認知和體系是建立在稀缺資料上的成果,人們思維和工作方式必須發生變革以適應大資料時代的到來。」舍恩伯格在其書中寫道。

大競爭

大資料被視為創新和生產力提升的下一個前沿,正成為國家競爭力的要素之一,在世界範圍內日益受到重視。多國政府加大了對大資料發展的扶持力度,甚至上升到國家戰略的高度。2013年,圍繞大資料的國際競爭繼續加碼。

諮詢公司益百利集團的研究顯示,全球對大資料項目投資總額去年已達45億歐元(約60億美元),預計今明兩年均會保持約40%的增長速度。

在美國,大資料已由熱點辭彙變成重點專案。去年3月,美國政府已公佈2億美元的《大資料研究發展計畫》,今年11月再度公佈涉及各級政府、私企、科研機構的多個大資料研究專案。美國國家衛生研究院、國家科學基金會等都參與其中,有評論稱之為美國大資料戰略2.0版。

在英國,雖然經濟不景氣、財政緊縮,但政府依然為大資料一擲千金。2013年初,英國商業、創新和技能部宣佈將注資8億英鎊發展八類高新技術,其中1.89億英鎊(約3億美元)用於大資料項目。

大資料在中國大陸也已啟動駛入「快車道」,政府、企業和科研院所正多方位佈局。工信部的互聯網「十二.五」發展規劃,將資訊處理技術作為四項關鍵創新技術工程之一,其中包括海量資料存儲、資料挖掘等。隨著4G牌照在2013年末的發放,更高速的網路將帶來更大的資料流程,為政府和企業帶來戰略性資源。

大挑戰

「棱鏡」今年曝光,讓人看到大資料時代維護國家資訊安全、保護個人隱私所面臨的嚴峻挑戰。「棱鏡門」讓各國政府意識到「資料主權」的重要性,以及在網路和電信核心技術上依賴個別國家的惡果。加快自主創新以保護「資料主權」,已成為一些國家的共識。

英國《自然》雜誌3月刊登的研究發現,只要有4個時間點和位置的資料就能確定一個人身份,準確率高達95%。這表明,大資料足以將一個人「描畫」清晰,現有法律手段和核心技術對個人隱私的保護正在逐漸失效。

如何在大資料來襲中保持清醒和理性、有所創新和創造,對國家和個人來說同樣是考驗。專家指出,大資料可望為中國大陸經濟轉型升級發揮重要貢獻,巨大的人口基數、經濟體量和需求,意味著大陸發展大資料擁有得天獨厚的優勢。但也應該看到,大資料具有價值密度低的特性,挖掘、分析等技術要求高。中國大陸不能僅滿足於做「世界資料中心」,應防止概念炒作,加強自主創新,進行前瞻性的制度設計等佈局,順勢而為,將「中國創造」由機遇化為現實。

還應該警惕「迷信」大資料等傾向,認識到大資料分析可能存在的缺陷和不足。心理學家認為,大資料創造的模型會將人束縛在演算法提供的選項中,過度依賴大資料分析也可能束縛創新。美國互聯網活動家帕里澤稱之為「互聯網濾泡」:互聯網個性化雖然帶來方便,卻將人們局限在自己過往行為模式的「氣泡」中,無法觸及海量資訊帶來的無盡可能。

大資料專家喜歡用莎士比亞「凡是過去,皆為序曲」來形容大資料分析的必然,但大資料提供的也只是參考答案而非最終答案。無論在小資料時代還是大資料時代,探索和創新精神都不應放棄,正如林肯所言,「預測未來最好的方法就是去創造未來」。