所以,越想要得到準確的統計結果,需要的統計數據量就越大。
在上麵的例子中,統計的樣本總數是1678人。
但是如果我們一定要說‘41歲及以上的觀眾就是29.2’,或者‘15歲及以下觀眾一定超過20’。
這樣非常肯定的的話,大家就可能會挑戰這個結論。
divcass=”ntentadv”因為,統計是有隨機性的,也是有誤差的。
僅僅上千人的數據得不到這樣準確的結論。
統計除了要求數據量必須充分之外,還要求采樣的數據必須有代表性。
有些時候不是數據量足夠大,同階級過就一定準確。
一個很簡單的例子,一個愛情影片和一個戰爭影片,它的受眾並不相同。
所以如果我們隻采集愛情影片上映當月的觀影人群,就不具有普遍的代表性。
那麼怎麼避免這種情況,獲得準確的結論呢?
19世紀的俄國數學家切比雪夫對這個問題給出了他的結論,即切比雪夫不等式。
p(|xe(x)|≥e)≤var(x)e2。
這個公式的含義是,當樣本數足夠多時,一個隨機變量和他的數學期望值之間的誤差,可以任意小。
把切比雪夫不等式應用到我們了解電影院觀眾年齡分布的問題中。
隨機變量就是:觀察到的各個年齡段觀眾的比例。
數學期望值就是:真實情況下所有看電影觀眾中不同年齡段的比例。
當我們把樣本數據帶入後,大致可以得出以下結論。
15歲以下觀眾占20,16~25歲占27,26~40歲占24,40歲以上占29,誤差小於5。
但如果我們要將四個年齡段觀眾的準確率,提高到小數點後一位數,那麼我們大致需要10倍的數據,即兩萬個左右的樣本。
如果我們把這個問題放大。
我們想知道一部電影在全世界的觀影人群年齡分布,而且必須具體到更細致的年齡段人數。
比如18~20歲,21~24歲等等。
又或者更具體的地域。
華夏、東瀛、南韓等等。
在一個更大,更詳細的範圍內,為了獲得更準確的結果,我們需要的數據量,將千百倍的提升。
當我們獲得了超級數據。
普通的計算機已經很難完成計算。
而且就算能完成,也需要大量的時間。
時間就是金錢,在商業上,這顯然是不可接受的。
因此。
為了儘可能在短時間內得到結果,我們要一台或幾台超級計算機來計算。
但動用超級計算機的費用非常昂貴。
想要了解電影院觀眾年齡的企業,顯然不願意在這個問題上花費這麼大的代價。
那麼怎麼辦呢?”
徐良操作了一下電腦。
背後的投影屏上顯示出三個碩大的楷體。
雲計算。
“雲計算,‘雲’就是互聯網,‘計算’則是字麵意思。
目前的雲計算是一種分布式計算,指的是通過網絡“雲”,將巨大的數據計算處理程序,分解成無數個小程序。
然後,通過多部服務器組成的係統,進行處理和分析這些小程序,得到結果後返回給用戶。
整個計算過程隻需要幾秒鐘。
也就是說,雲計算把一個原本需要動用超級計算機,需要幾天,甚至十幾天時間才能計算出來的問題。
變成了隻需要幾秒鐘,花費幾萬塊,最多十幾萬塊便能得出的準確數據。
大大減少了支出,提高了效率,得到了更準確的結果。
也許有人覺得統計電影觀眾年齡分布,沒什麼太大的價值。
但如果變成一家餐飲企業統計飲料產品的受眾年齡分布呢?
隻要有了準確的數據,餐飲企業就可以針對不同年齡段人群,開發更有針對性的廣告和服務,從而提升自己的銷量。
這一點已經被康師傅公司運用到了實際的經營中。
根據盤古公司大數據調查,康師傅公司發現旗下‘健力寶’運動飲料產品最大的受眾是15歲~25歲之間的青少年人群。
其中男性占比41,女性占比59。
然後又通過線下抽樣調查,網上問卷調查等多個渠道得出數據,並用數據驅動的方法,計算出這部分人群感興趣的明星,喜歡的電視劇類型等等數據。
綜合這些相互交叉的大數據,製定了詳細的廣告宣傳方案和宣發渠道。
短短一個季度的時間,康師傅的銷售額便增加了22,淨利潤增加了14.8。
同樣的方法,我們可以運用到汽車、餐飲、娛樂等所有消費品領域。
毫無疑問,這將形成巨大的商業變革。
原本粗放的廣告投放和宣發方式,將變得更細致,更有針對性。
原本口味統一的產品,將根據全國各個省份消費群體的口味和消費習慣,開發出更符合本地特色的產品。
消費者將成為真正的主體。
可以肯定的說,以後所有拒絕大數據的消費品公司,基本都不會存活太久。”
請記住本書首發域名:.biqivge.