川普贏了,但美國數(shù)據(jù)同行們卻輸了
2016-11-18 14:05:16 編輯:bianji1 訪問:
我也很意外,因為前幾天我還看到各種民調(diào)希拉里領先優(yōu)勢明顯,結(jié)局有點出乎意料,說好的預測希拉里成果率80%的呢?
是的,美國那邊的數(shù)據(jù)同行們,被“啪啪”打臉了!
說好的“啤酒與尿布”呢?哦,對了,還有說好的“成功預測流感”呢?咋就不好使了。
莫非,是美國那邊的數(shù)據(jù)同行們,水準下降了?!
好了,打住,不要偷偷得意了。
盆友圈里,有個數(shù)據(jù)同行盆友發(fā)了這樣一個狀態(tài):“美國大選出乎意料的核心在于數(shù)據(jù)的不完整性。我們以為全世界的人都在互聯(lián)網(wǎng)上,其實沒有在互聯(lián)網(wǎng)的人是多數(shù)。所以這個時候的大數(shù)據(jù)分析技術(shù)就是個偽命題,無法預測也是合理的。”
一語中的!
很多分析這次美國大選結(jié)果的盆友,很喜歡用的一個句話“農(nóng)村包圍城市”。
就算在一個州里,只有相對發(fā)達的城市對希拉里的支持是比較徹底的,例如佛羅里達州。 所以,確實是印證了“農(nóng)村包圍城市”的說法。
那么,這個現(xiàn)狀對于之前我們說的數(shù)據(jù)預測有什么影響呢?
不可否認,互聯(lián)網(wǎng)在美國的普及率也算是足夠高了,但不得不承認的一個事實是:互聯(lián)網(wǎng)上相對活躍的人群,肯定是經(jīng)濟能力相對較高,整體學識素質(zhì)相對比較高的群體。
從這點來說,基于互聯(lián)網(wǎng)的數(shù)據(jù)去做大選預測,本身就存在數(shù)據(jù)樣本的不公平性。
也就印證了,盆友圈中的那句“其實很多人都不在互聯(lián)網(wǎng)上的”,那部分人群是沒有參與到預測中的。
還有一個比較重要的點就是:關(guān)鍵意見領袖(KOL)再加上社交媒體的影響力,使得數(shù)據(jù)預測進一步偏離了正確的方向。
我們都知道,現(xiàn)任美國總統(tǒng)奧巴馬公開為希拉里拉選票,而蘋果、Google、臉書等互聯(lián)網(wǎng)領袖也都公開支持希拉里,當然還包括很多體育、娛樂明星等為希拉里站臺。
這些人在互聯(lián)網(wǎng)的公開影響力是不可忽視的,再結(jié)合社交網(wǎng)絡的病毒式擴散,以“精英”階層為主體的互聯(lián)網(wǎng),于是就這樣被偏向了希拉里。
且不論國外,就算在國內(nèi)。
就以微信熱點傳播為例,一些微信大號發(fā)表的一些對時事熱點的看法,是很容易大面積覆蓋朋友圈的,而作為吃瓜群眾的我們也很容易受到這種意見領袖的影響(不受影響,你會轉(zhuǎn)發(fā)嗎)。
而今天雖然智能手機的普及率已經(jīng)算是比較廣了,但是作為經(jīng)常吃瓜群眾的我們,其實也算是“精英人士”了,我們是無法想象三四線城市的情況的,更何況那些農(nóng)村地帶呢?
你朋友圈中經(jīng)常傳播的熱點,你那些依然拿著諾基亞的七大姑、八大姨聽過嗎?
你造中國農(nóng)村人口有多少嗎?
所以,基于互聯(lián)網(wǎng)數(shù)據(jù)的選舉預測,不可避免的使用了本身成分就不全面的基礎數(shù)據(jù),哪怕美國同行們用"看似"再精準,再智能的預測算法,結(jié)果一樣是錯的。
這里又回歸到了我們的原始話題,并不是說預測的過程或者說算法存在問題,而是數(shù)據(jù)源存在問題。
這里告訴我們,作為大數(shù)據(jù)領域里開挖掘機的我們,在苦練開挖掘機技術(shù)的時候,不要忽視了前期數(shù)據(jù)收集,以及數(shù)據(jù)預處理的重要性。
很多時候,數(shù)據(jù)源的選取,以及數(shù)據(jù)的預處理過程,將會對你的后續(xù)挖掘結(jié)果產(chǎn)生巨大的影響,包括我們經(jīng)常說的推薦。
當然,包括對數(shù)據(jù)源要求更嚴格的預測模型等。
最后,作為數(shù)據(jù)領域的我們,要正確的看待這一次的美國大選數(shù)據(jù)預測事件,一方面要嚴謹對待數(shù)據(jù)選擇的問題,另一方面也不要就因此而否定數(shù)據(jù)挖掘的價值!
文章轉(zhuǎn)載自騰訊論壇