普林斯頓奇怪研究惹毛facebook
上個(gè)月底,美國(guó)普林斯頓大學(xué)發(fā)表了一篇十分有料的研究報(bào)告,報(bào)告上稱,按照普林斯頓研究人員的統(tǒng)計(jì)和計(jì)算,目前的社交網(wǎng)站龍頭老大facebook在三年內(nèi)將會(huì)流失百分之八十的用戶,面臨關(guān)門(mén)大吉的境地。這份報(bào)告寫(xiě)得十分正式,一點(diǎn)也不像惡搞的玩笑,經(jīng)過(guò)各大媒體的瘋狂轉(zhuǎn)載,facebook終于怒了,幾天之后facebook的數(shù)據(jù)科學(xué)家們也發(fā)表了一份研究報(bào)告,用和普林斯頓研究員一樣的數(shù)學(xué)模型和數(shù)據(jù)獲取渠道,得到了更聳人聽(tīng)聞的分析結(jié)果:普林斯頓大學(xué)學(xué)生將在2018年減少一半,到2021年將失去所有學(xué)生。
很明顯,facebook和普林斯頓的互掐在業(yè)界已經(jīng)成了一個(gè)段子,他們的分析結(jié)果顯然都是不靠譜的,但是他們所用的方法,卻是實(shí)實(shí)在在的大數(shù)據(jù)技術(shù)和嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)模型,難道,數(shù)據(jù)真的會(huì)說(shuō)謊嗎?
分析算法和數(shù)據(jù)渠道選用不當(dāng),數(shù)據(jù)確實(shí)會(huì)說(shuō)謊
之所以普林斯頓和facebook的研究報(bào)告會(huì)得出那樣離譜的結(jié)果,主要原因在于他們獲取數(shù)據(jù)的渠道以及分析數(shù)據(jù)所用的算法模型不當(dāng),在數(shù)據(jù)分析中,只要這兩個(gè)東西錯(cuò)了,數(shù)據(jù)一定會(huì)“說(shuō)謊”。
研究報(bào)告中,普林斯頓和facebook用于分析對(duì)方的模型都是“流行病學(xué)模型”,這個(gè)模型一般被用于預(yù)測(cè)某種傳染性疾病從爆發(fā)到消失的時(shí)間及規(guī)模,初步看來(lái),普林斯頓大學(xué)和facebook的使用人群都符合“未感染”、“感染中”、“已痊愈”的三類劃分,與流行病模型確實(shí)有相似之處,但仔細(xì)一想?yún)s經(jīng)不起推敲,因?yàn)榱餍胁?huì)受到藥物及人體自身免疫系統(tǒng)的抵抗而消失,但facebook和普林斯頓大學(xué)卻不會(huì),相反,社交軟件和高等學(xué)府是人們需要的東西。
除了分析模型選用錯(cuò)誤,普林斯頓大學(xué)在獲取數(shù)據(jù)的渠道上,也存在選擇不當(dāng)?shù)膯?wèn)題,研究人員在統(tǒng)計(jì)facebook的使用度時(shí),依靠的是谷歌上“facebook”詞條的搜索數(shù)量,并且由“facebook”詞條的搜索頻率越來(lái)越低就判斷出facebook正在流失用戶,這是非常武斷的。因?yàn)殡S著移動(dòng)技術(shù)的發(fā)展,越來(lái)越多的人會(huì)通過(guò)客戶端而不是網(wǎng)頁(yè)來(lái)登錄facebook,在這種趨勢(shì)下,谷歌上“fcebook”詞條的搜索頻率必然會(huì)越來(lái)越低,但這并不代表它的用戶數(shù)量也在減少。
普林斯頓和facebook的段子我們可以一笑而過(guò),在數(shù)據(jù)分析時(shí),準(zhǔn)確選用分析模型及數(shù)據(jù)來(lái)源的重要性由此也可見(jiàn)一斑,不然數(shù)據(jù)真說(shuō)起謊來(lái),可是一點(diǎn)也不好笑。