應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

為什么說特朗普當(dāng)選是對(duì)大數(shù)據(jù)技術(shù)的嚴(yán)峻考驗(yàn)

2016-11-11 09:39 RFID世界網(wǎng)

導(dǎo)讀:在美國大選上,微軟必應(yīng)的預(yù)測卻錯(cuò)得有點(diǎn)離譜。最終的結(jié)果是希拉里敗選,特朗普成了最大的贏家,那為什么在本次的美國總統(tǒng)大選上,微軟基于大數(shù)據(jù)模型的必應(yīng)預(yù)測為何會(huì)出現(xiàn)如此嚴(yán)重的偏差?

  鬧鬧哄哄的美國大選總算是塵埃落定,在老牌政客希拉里與政治素人特朗普之間,美國人民作出了自己的選擇,選擇了一切似乎都不按常規(guī)出牌的特朗普,給原本就似鬧劇一場的大選添上了一絲荒誕的色彩。


  筆者對(duì)大選的結(jié)果倒并不關(guān)心,只是對(duì)大選之前美國的一些預(yù)測機(jī)構(gòu)的表現(xiàn)頗為好奇。事實(shí)上,在大選之前,微軟的PredictWise、《紐約時(shí)報(bào)》的The Upshot以及普林斯頓的 Sam Wang三者在選舉的當(dāng)天早上預(yù)測特朗普獲勝的概率都在10%上下,而最終的結(jié)果狠狠地打了這些預(yù)測機(jī)構(gòu)的臉,難道是大數(shù)據(jù)技術(shù)出了問題?

  成功的案例

  早在2009年,在甲型H1N1流感爆發(fā)的幾周前,谷歌工程師們?cè)凇蹲匀弧冯s志上發(fā)表了一篇論文,工程師們探討了谷歌為什么能夠準(zhǔn)確地預(yù)測冬季流感的傳播情況。

  事實(shí)上,谷歌的這套預(yù)測系統(tǒng)重點(diǎn)不在于提供解決方案,它關(guān)注的是特定檢索詞條的使用頻率與疾病在時(shí)間和空間上的傳播之間的聯(lián)系,比如某地在某段時(shí)間上對(duì)某種疾病解決方案的搜索頻率越高,那么某地某種疾病在某段時(shí)間內(nèi)流行的概率就越大,正是這種適當(dāng)?shù)膹?qiáng)相關(guān)性的建立為后來的大數(shù)據(jù)預(yù)測的準(zhǔn)確性埋下伏筆。

  同時(shí)谷歌還利用龐大的歷史檢索數(shù)據(jù)來完成對(duì)已發(fā)生事件的驗(yàn)證式“預(yù)測”,通過不斷地調(diào)整預(yù)測的數(shù)學(xué)模型使之更加符合事實(shí)真相,從而提升該預(yù)測系統(tǒng)的準(zhǔn)確率,以更好地完成對(duì)未來事件的預(yù)測。

  事實(shí)證明了谷歌利用龐大的搜索數(shù)據(jù)進(jìn)行趨勢預(yù)測的準(zhǔn)確性,在2009年甲型H1N1流感爆發(fā)的時(shí)候,相比官方數(shù)據(jù)習(xí)慣性滯后的毛病,谷歌成為一個(gè)更為及時(shí)且更有效的指示標(biāo)。

  大數(shù)據(jù)技術(shù)面臨考驗(yàn)

  早在美國大選的幾周前,微軟必應(yīng)團(tuán)隊(duì)曾公布2016年美國總統(tǒng)大選的預(yù)測結(jié)果,認(rèn)為希拉里·克林頓贏得大選的幾率接近90%。要知道微軟必應(yīng)此前曾在體育比賽結(jié)果、電視賽事、各種頒獎(jiǎng)禮及政治選舉結(jié)果預(yù)測中屢屢成功。


  然而在美國大選上,微軟必應(yīng)的預(yù)測卻錯(cuò)得有點(diǎn)離譜。最終的結(jié)果是希拉里敗選,特朗普成了最大的贏家,那么為什么在本次的美國總統(tǒng)大選上,微軟基于大數(shù)據(jù)模型的預(yù)測(事實(shí)上不僅僅是微軟的,幾乎大部分的預(yù)測都出現(xiàn)嚴(yán)重偏差)為何會(huì)出現(xiàn)如此嚴(yán)重的偏差?

  對(duì)此,微軟的解釋是:必應(yīng)預(yù)測使用了多個(gè)來源的數(shù)據(jù),包括搜索結(jié)果、網(wǎng)絡(luò)、社交媒體數(shù)據(jù)及第三方的預(yù)測結(jié)果等。由于這些都屬于預(yù)測性質(zhì),因而我們不能保證100%的準(zhǔn)確性。

  微軟的解釋無可厚非,事實(shí)也確實(shí)如此,大數(shù)據(jù)目前面臨的主要問題不在數(shù)據(jù)的多寡,而在于數(shù)據(jù)的質(zhì)量,大數(shù)據(jù)講究的是數(shù)據(jù)的相關(guān)性而非因果,因此相關(guān)性越大,那么這些數(shù)據(jù)的質(zhì)量就會(huì)越高,在此基礎(chǔ)上建立的應(yīng)用就會(huì)越準(zhǔn)確,比如對(duì)比賽結(jié)果以及政治選舉的預(yù)測等應(yīng)用。而如何在數(shù)據(jù)海洋中建立起數(shù)據(jù)的強(qiáng)相關(guān)性,并不斷地進(jìn)行算法的優(yōu)化及構(gòu)建合適的數(shù)學(xué)應(yīng)用模型可說是目前大數(shù)據(jù)應(yīng)用領(lǐng)域的關(guān)鍵,可見,未來的大數(shù)據(jù)應(yīng)用依然任重道遠(yuǎn)!

  (文/徐永紅 rfid世界網(wǎng)獨(dú)家稿件,轉(zhuǎn)載請(qǐng)注明來源作者!)