第797章敲打_我的1999

所以，越想要得到準確的統計結果，需要的統計數據量就越大。

在上麵的例子中，統計的樣本總數是1678人。

但是如果我們一定要說‘41歲及以上的觀眾就是29.2’，或者‘15歲及以下觀眾一定超過20’。

這樣非常肯定的的話，大家就可能會挑戰這個結論。

divcass=”ntentadv”因為，統計是有隨機性的，也是有誤差的。

僅僅上千人的數據得不到這樣準確的結論。

統計除了要求數據量必須充分之外，還要求采樣的數據必須有代表性。

有些時候不是數據量足夠大，同階級過就一定準確。

一個很簡單的例子，一個愛情影片和一個戰爭影片，它的受眾並不相同。

所以如果我們隻采集愛情影片上映當月的觀影人群，就不具有普遍的代表性。

那麼怎麼避免這種情況，獲得準確的結論呢？

19世紀的俄國數學家切比雪夫對這個問題給出了他的結論，即切比雪夫不等式。

p(|xe(x)|≥e)≤var(x)e2。

這個公式的含義是，當樣本數足夠多時，一個隨機變量和他的數學期望值之間的誤差，可以任意小。

把切比雪夫不等式應用到我們了解電影院觀眾年齡分布的問題中。

隨機變量就是：觀察到的各個年齡段觀眾的比例。

數學期望值就是：真實情況下所有看電影觀眾中不同年齡段的比例。

當我們把樣本數據帶入後，大致可以得出以下結論。

15歲以下觀眾占20，16~25歲占27，26~40歲占24，40歲以上占29，誤差小於5。

但如果我們要將四個年齡段觀眾的準確率，提高到小數點後一位數，那麼我們大致需要10倍的數據，即兩萬個左右的樣本。

如果我們把這個問題放大。

我們想知道一部電影在全世界的觀影人群年齡分布，而且必須具體到更細致的年齡段人數。

比如18~20歲，21~24歲等等。

又或者更具體的地域。

華夏、東瀛、南韓等等。

在一個更大，更詳細的範圍內，為了獲得更準確的結果，我們需要的數據量，將千百倍的提升。

當我們獲得了超級數據。

普通的計算機已經很難完成計算。

而且就算能完成，也需要大量的時間。

時間就是金錢，在商業上，這顯然是不可接受的。

因此。

為了儘可能在短時間內得到結果，我們要一台或幾台超級計算機來計算。

但動用超級計算機的費用非常昂貴。

想要了解電影院觀眾年齡的企業，顯然不願意在這個問題上花費這麼大的代價。

那麼怎麼辦呢？”

徐良操作了一下電腦。

背後的投影屏上顯示出三個碩大的楷體。

雲計算。

“雲計算，‘雲’就是互聯網，‘計算’則是字麵意思。

目前的雲計算是一種分布式計算，指的是通過網絡“雲”，將巨大的數據計算處理程序，分解成無數個小程序。

然後，通過多部服務器組成的係統，進行處理和分析這些小程序，得到結果後返回給用戶。

整個計算過程隻需要幾秒鐘。

也就是說，雲計算把一個原本需要動用超級計算機，需要幾天，甚至十幾天時間才能計算出來的問題。

變成了隻需要幾秒鐘，花費幾萬塊，最多十幾萬塊便能得出的準確數據。

大大減少了支出，提高了效率，得到了更準確的結果。

也許有人覺得統計電影觀眾年齡分布，沒什麼太大的價值。

但如果變成一家餐飲企業統計飲料產品的受眾年齡分布呢？

隻要有了準確的數據，餐飲企業就可以針對不同年齡段人群，開發更有針對性的廣告和服務，從而提升自己的銷量。

這一點已經被康師傅公司運用到了實際的經營中。

根據盤古公司大數據調查，康師傅公司發現旗下‘健力寶’運動飲料產品最大的受眾是15歲~25歲之間的青少年人群。

其中男性占比41，女性占比59。

然後又通過線下抽樣調查，網上問卷調查等多個渠道得出數據，並用數據驅動的方法，計算出這部分人群感興趣的明星，喜歡的電視劇類型等等數據。

綜合這些相互交叉的大數據，製定了詳細的廣告宣傳方案和宣發渠道。

短短一個季度的時間，康師傅的銷售額便增加了22，淨利潤增加了14.8。

同樣的方法，我們可以運用到汽車、餐飲、娛樂等所有消費品領域。

毫無疑問，這將形成巨大的商業變革。

原本粗放的廣告投放和宣發方式，將變得更細致，更有針對性。

原本口味統一的產品，將根據全國各個省份消費群體的口味和消費習慣，開發出更符合本地特色的產品。

消費者將成為真正的主體。

可以肯定的說，以後所有拒絕大數據的消費品公司，基本都不會存活太久。”

請記住本書首發域名：.biqivge.

第797章 敲打（2 / 2）

第797章敲打（2 / 2）