第797章 敲打_我的1999_思兔閱讀 
思兔閱讀 > 綜合其他 > 我的1999 > 第797章 敲打

第797章 敲打(2 / 2)

所以,越想要得到準確的統計結果,需要的統計數據量就越大。

在上麵的例子中,統計的樣本總數是1678人。

但是如果我們一定要說‘41歲及以上的觀眾就是29.2’,或者‘15歲及以下觀眾一定超過20’。

這樣非常肯定的的話,大家就可能會挑戰這個結論。

divcass=”ntentadv”因為,統計是有隨機性的,也是有誤差的。

僅僅上千人的數據得不到這樣準確的結論。

統計除了要求數據量必須充分之外,還要求采樣的數據必須有代表性。

有些時候不是數據量足夠大,同階級過就一定準確。

一個很簡單的例子,一個愛情影片和一個戰爭影片,它的受眾並不相同。

所以如果我們隻采集愛情影片上映當月的觀影人群,就不具有普遍的代表性。

那麼怎麼避免這種情況,獲得準確的結論呢?

19世紀的俄國數學家切比雪夫對這個問題給出了他的結論,即切比雪夫不等式。

p(|xe(x)|≥e)≤var(x)e2。

這個公式的含義是,當樣本數足夠多時,一個隨機變量和他的數學期望值之間的誤差,可以任意小。

把切比雪夫不等式應用到我們了解電影院觀眾年齡分布的問題中。

隨機變量就是:觀察到的各個年齡段觀眾的比例。

數學期望值就是:真實情況下所有看電影觀眾中不同年齡段的比例。

當我們把樣本數據帶入後,大致可以得出以下結論。

15歲以下觀眾占20,16~25歲占27,26~40歲占24,40歲以上占29,誤差小於5。

但如果我們要將四個年齡段觀眾的準確率,提高到小數點後一位數,那麼我們大致需要10倍的數據,即兩萬個左右的樣本。

如果我們把這個問題放大。

我們想知道一部電影在全世界的觀影人群年齡分布,而且必須具體到更細致的年齡段人數。

比如18~20歲,21~24歲等等。

又或者更具體的地域。

華夏、東瀛、南韓等等。

在一個更大,更詳細的範圍內,為了獲得更準確的結果,我們需要的數據量,將千百倍的提升。

當我們獲得了超級數據。

普通的計算機已經很難完成計算。

而且就算能完成,也需要大量的時間。

時間就是金錢,在商業上,這顯然是不可接受的。

因此。

為了儘可能在短時間內得到結果,我們要一台或幾台超級計算機來計算。

但動用超級計算機的費用非常昂貴。

想要了解電影院觀眾年齡的企業,顯然不願意在這個問題上花費這麼大的代價。

那麼怎麼辦呢?”

徐良操作了一下電腦。

背後的投影屏上顯示出三個碩大的楷體。

雲計算。

“雲計算,‘雲’就是互聯網,‘計算’則是字麵意思。

目前的雲計算是一種分布式計算,指的是通過網絡“雲”,將巨大的數據計算處理程序,分解成無數個小程序。

然後,通過多部服務器組成的係統,進行處理和分析這些小程序,得到結果後返回給用戶。

整個計算過程隻需要幾秒鐘。

也就是說,雲計算把一個原本需要動用超級計算機,需要幾天,甚至十幾天時間才能計算出來的問題。

變成了隻需要幾秒鐘,花費幾萬塊,最多十幾萬塊便能得出的準確數據。

大大減少了支出,提高了效率,得到了更準確的結果。

也許有人覺得統計電影觀眾年齡分布,沒什麼太大的價值。

但如果變成一家餐飲企業統計飲料產品的受眾年齡分布呢?

隻要有了準確的數據,餐飲企業就可以針對不同年齡段人群,開發更有針對性的廣告和服務,從而提升自己的銷量。

這一點已經被康師傅公司運用到了實際的經營中。

根據盤古公司大數據調查,康師傅公司發現旗下‘健力寶’運動飲料產品最大的受眾是15歲~25歲之間的青少年人群。

其中男性占比41,女性占比59。

然後又通過線下抽樣調查,網上問卷調查等多個渠道得出數據,並用數據驅動的方法,計算出這部分人群感興趣的明星,喜歡的電視劇類型等等數據。

綜合這些相互交叉的大數據,製定了詳細的廣告宣傳方案和宣發渠道。

短短一個季度的時間,康師傅的銷售額便增加了22,淨利潤增加了14.8。

同樣的方法,我們可以運用到汽車、餐飲、娛樂等所有消費品領域。

毫無疑問,這將形成巨大的商業變革。

原本粗放的廣告投放和宣發方式,將變得更細致,更有針對性。

原本口味統一的產品,將根據全國各個省份消費群體的口味和消費習慣,開發出更符合本地特色的產品。

消費者將成為真正的主體。

可以肯定的說,以後所有拒絕大數據的消費品公司,基本都不會存活太久。”

請記住本書首發域名:.biqivge.



最新小说: 夫人她馬甲又轟動全城了 我就是你們的天敵 離婚後,我滅了前夫全家 我真的有一座法師塔 家父漢武,子不類父? 美漫:從成為蜘蛛俠開始縱橫宇宙 執掌風雲蕭崢 被逼嫁深山,開荒種田過紅火日子 末日:財閥太子,開局反派巔峰! 重生70年,覺醒係統從打獵開始