當(dāng)前位置:首頁 >  科技 >  IT業(yè)界 >  正文

數(shù)據(jù)分析的魅力和坑

 2017-07-13 17:59  來源: A5專欄   我來投稿 撤稿糾錯(cuò)

  阿里云優(yōu)惠券 先領(lǐng)券再下單

前言

說實(shí)話,數(shù)據(jù)分析是人人都會(huì)的,只是沒有把它提升到是一個(gè)分析的過程,在每個(gè)人的腦子里都有不同的思考的方式。所以今天講“數(shù)據(jù)分析的魅力和坑”可能只是在各位原有的一些思維層面上,有一些不太注意的地方會(huì)變成坑,然后導(dǎo)致一些不太好的結(jié)果。今天主要把我遇到的坑和大家分享,以后在遇到同樣的情況下,也可以避開那些坑的情況。我們先思考一個(gè)簡(jiǎn)單的邏輯題,讓我們的思維更快速一點(diǎn)。

珠寶店被盜,警察問了4名嫌疑人,甲說“不是我做的”,乙說“是丁做的”,丙說“丁沒有偷”,丁說“肯定是乙偷的,”4個(gè)人里一個(gè)人說一句話,誰偷的?

“甲偷的”。為什么是甲偷的?因?yàn)檫@里面有兩個(gè)人說話是矛盾的,一個(gè)是“丁偷的,”一個(gè)是“丁沒有偷”,兩個(gè)里面肯定有一個(gè)是真的,因?yàn)橹挥幸粋€(gè)人說真話,其他兩個(gè)都是假話,所以甲說“不是我做的,”那就是他做的,就是這樣。因?yàn)樗膫€(gè)人里只有一個(gè)人說了真話,有兩個(gè)人說了相反的一句話,那么其中有一個(gè)人肯定是真,有一個(gè)人肯定是假的。我不問這兩個(gè)人誰說的真,誰說的假,另外兩個(gè)人說的肯定是假,所以是甲做的。這就是邏輯上的關(guān)于矛盾的點(diǎn),一定要關(guān)注。其實(shí)數(shù)據(jù)分析也是這樣,當(dāng)你看數(shù)的時(shí)候,首先看到的有矛盾的數(shù)。應(yīng)該是甲大乙就大,但是現(xiàn)在甲大,乙小了,這兩個(gè)之間出現(xiàn)了矛盾,就要去關(guān)注它。

下面,我們接著來說數(shù)據(jù)分析到底能做些什么。

第一、數(shù)據(jù)分析來源于生活,每個(gè)人在生活中都在解決數(shù)據(jù)分析的問題。

第二、數(shù)據(jù)在很多地方呈現(xiàn)的時(shí)候都會(huì)誤導(dǎo)你,誤導(dǎo)你的時(shí)候是基于什么?你自己如果有一定的準(zhǔn)備你就會(huì)知道。

第三、職場(chǎng)發(fā)展的需要。

第一章:數(shù)據(jù)分析的作用——解決生活問題

大家先思考兩個(gè)問題(如圖一)。這兩個(gè)問題相當(dāng)經(jīng)典,也是在數(shù)字思考中會(huì)出現(xiàn)的問題。只是說遇到的事不一樣,但是思維方式是一樣的。關(guān)于這兩個(gè)問題,當(dāng)時(shí)我們老師在學(xué)校里上課的時(shí)候給了我們五分鐘的時(shí)間思考,當(dāng)時(shí)最快完全答對(duì)只有學(xué)財(cái)務(wù)的同學(xué)。

(圖一)

第一道題目,27元是三個(gè)人出的,服務(wù)員是他進(jìn)的(賬),所以這是兩個(gè)東西。進(jìn)(賬)的還有誰?老板。所以出的是27元三個(gè)人,進(jìn)賬的是老板的25以及服務(wù)員2塊,所以沒有那個(gè)1塊錢。

第二道題目,出的是他的50塊,為什么只有50塊?因?yàn)檫@50塊是為了完成這一單交易,所以他所有的出就是這個(gè)50塊。但是他有入的,就是這一筆生意所賺的利潤,這個(gè)利潤是4塊,所以就是46,因?yàn)樗蛄税苏邸?/p>

當(dāng)時(shí)我們很受啟發(fā)的原因在于,可能我們把很多東西都想得復(fù)雜。但是分析的過程應(yīng)該是把復(fù)雜的東西簡(jiǎn)單化,盡可能地用一到兩個(gè)概念來解決它。所以我們說通過這些生活中的故事或者說發(fā)生這些大家經(jīng)常討論的東西,我們會(huì)得到三個(gè)點(diǎn):

第一,聚焦在矛盾的地方上。如果兩個(gè)數(shù)值,比如說注冊(cè)到充值、充值到首投是一個(gè)流程性的過程,常態(tài)來說應(yīng)該是漏斗流失這樣的過程,如果中間出現(xiàn)了反向的,比如注冊(cè)量少,充值量大,它就是出現(xiàn)了矛盾,那么就要去關(guān)注引起這個(gè)矛盾的原因。

第二,避免偷換概念。剛才說的那個(gè)一塊錢去哪了?那個(gè)一塊錢根本不存在,你去哪找那一塊錢?其實(shí)概念已經(jīng)被偷換了。

第三,要把復(fù)雜的過程想得簡(jiǎn)單一點(diǎn)。財(cái)務(wù)的同學(xué)當(dāng)時(shí)就是考慮兩個(gè)維度,一個(gè)是出,一個(gè)是入,所以他很快就能得出結(jié)果。而我們就會(huì)在過程中一而再再而三地反復(fù)地算,然后得不出正確的答案。

這就是我舉的例子想要跟大家分享的點(diǎn)了。數(shù)據(jù)分析除了要思考,你可能還要得出結(jié)論,如何得出結(jié)論?剛才講的是比較零散的點(diǎn),我們現(xiàn)在用一個(gè)我們生活中實(shí)際發(fā)生的案例來跟大家過一下一般是怎么樣的思維過程來形成完整的報(bào)告或者結(jié)論。

這道題目就叫“大姨媽與小表弟”。什么意思?過年的時(shí)候我回家,我大姨媽跑過來跟我媽聊天說我小表弟快要中考了,然后這次期末考得不太好。大概是這樣的情況,她也很擔(dān)心,說不知道要是考不起好的中學(xué)該怎么辦。因?yàn)槲以诜块g里,我也沒聽太清楚,但是我出來的時(shí)候就接了一個(gè)工作,就是我媽給我的。我媽說“快安慰安慰你大姨媽,幫幫你小表弟”。

對(duì)于我們來說,就等于是接了一個(gè)任務(wù)目標(biāo)了,這個(gè)任務(wù)目標(biāo)就是這兩句話。這其實(shí)是兩件事情,在場(chǎng)的同學(xué)會(huì)從哪些角度去考慮?當(dāng)然你可以問問題,因?yàn)槟愦笠虌尵妥莾?,你可以問她。她的目的也很清晰,她?dān)心的是小表弟能不能考上好高中。接著就是你媽說讓你安慰一下她、幫一下你的表弟。大家遇到那種情況,一般會(huì)問些什么或者說會(huì)從哪些角度來考慮這件事情?在這里,我給大家說一下我的思考方式。

首先,從趨勢(shì)上進(jìn)行分析。剛才也有同學(xué)談到,包括環(huán)境、行業(yè)、競(jìng)爭(zhēng)對(duì)手,就是說小表弟本身的學(xué)校排名是什么樣的情況。如果他本身是在重點(diǎn)初中里的排名已經(jīng)很高,你安慰大姨媽肯定首先就是說“這基本上上好一點(diǎn)的高中的問題不大,只是說我們要去哪一個(gè)”。好與更好,而不是說好與能不能上,這是兩個(gè)概念。

另外,班級(jí)最近的氛圍怎么樣?是不是因?yàn)榄h(huán)境造成了小表弟這次考試可能沒考好?另外就是小表弟近期的情況,是不是身體原因或者怎么樣。

這些其實(shí)都是外圍的情況,看完外圍的情況就會(huì)多維分解一下小表弟自己的考試。比如說他的分?jǐn)?shù)怎么樣、有沒有偏科、試卷結(jié)構(gòu)怎么樣、怎么樣制訂目標(biāo)。比如說他有一科很強(qiáng),其他的很弱,很弱是因?yàn)槭裁?比如說如果是語文很差,語文是哪一塊差?

你這些可以輔助來判斷。從安慰大姨媽到幫小表弟的過程應(yīng)該是更深度地聚焦在到底該怎么樣幫的點(diǎn)上,所以要更加往下細(xì)分。比如說語文卷面是閱讀不好,閱讀該怎么辦?那就得往下分。

至于用戶細(xì)分的考慮這一塊其實(shí)只是一種運(yùn)用,可能不是特別恰當(dāng),但是只是說有這種思維,你會(huì)去分析一下。比如說你剛才已經(jīng)分析出假如小表弟是語文不太好,那么他們班上語文學(xué)習(xí)好的這些同學(xué)是有哪些特征或者他們是怎么樣去學(xué)語文的。比如說大家都背詩詞或者都在看一些報(bào)刊,甚至是不是有老師開小課?這些情況你有沒有了解清楚或者說家長知不知道?這些都需要去了解。

另外,除了本來就學(xué)得好的,還有那種排名上升特別快的同學(xué),這些同學(xué)是用了什么方法在這么短的時(shí)間內(nèi)有提升?這個(gè)方法是不是小表弟也可以學(xué)?這個(gè)也可以觀察。再下面,關(guān)于漏斗流失以及如何分析,按道理來說應(yīng)該是一個(gè)路徑,這里不應(yīng)該這樣講。但是實(shí)際上可以把思路變化一下,而不是這樣的豎向的固定流失,而有可能是橫向的結(jié)構(gòu)問題。我們就可以分析他試卷的以往錯(cuò)誤率,是因?yàn)檫@次沒考好考砸的,還是你本來這一科就一直不好?這也是需要去了解的。另外就是你錯(cuò)誤的板塊,到底是因?yàn)槭裁丛?是這次的原因還是歷史的原因?這是需要提前了解的。

最后,要快速嘗試一下。比如說有些同學(xué)排名上升很快的學(xué)習(xí)方法適不適用?你總要去試一下。

不僅僅是這些維度,還可能有更多的維度。當(dāng)然因?yàn)閿?shù)據(jù)分析是一種思維,思維是沒辦法拘禁的。無論你經(jīng)過多少的思考,最后會(huì)有一個(gè)結(jié)論。這個(gè)結(jié)論一般會(huì)是什么樣的結(jié)構(gòu)?你已經(jīng)問了大姨媽這么多問題,最后怎么樣整體來回答她?

我們的目標(biāo)一個(gè)是安慰,一個(gè)是幫小表弟。我們最終得出的是這樣的結(jié)論。

首先安慰大姨媽。“大姨媽,你不要著急。從學(xué)校和班級(jí)的排名來看,小表弟怎么樣”,因?yàn)槭紫纫獙?duì)這次小表弟的排名情況或者說考試情況作一個(gè)整體的判斷,看看這個(gè)程度到底去到什么程度,是真的慘不忍睹還是還有得救?你總得給大家一個(gè)心理準(zhǔn)備,是真的考不起要去花錢找關(guān)系,還是說補(bǔ)一補(bǔ)花點(diǎn)錢也能夠讓他自己努力得了,或者說其實(shí)也不要太在意,這次就只是一次小失誤。你首先要對(duì)大的這次的情況作一個(gè)判斷。老師對(duì)他怎么樣是定性?他本身是個(gè)什么樣的狀況?接著就說這次沒考好主要是因?yàn)槭裁?,這是剛才我們說的哪一個(gè)東西影響到他。也就是說我們這次考試除了判斷他的事態(tài)和程度,還要找到他這次情況的現(xiàn)狀,并且分析是因?yàn)槭裁丛驅(qū)е碌摹H缓?ldquo;小表弟在這個(gè)考點(diǎn)上一直怎么樣,從以前的考試情況來看怎么樣”,其實(shí)是對(duì)歷史作一個(gè)總結(jié)。是一直就不怎么樣還是說以前的考試還可以,這次不怎么樣,要對(duì)歷史作一個(gè)總結(jié)。接著就說“他班上的誰在這塊學(xué)得挺好的,主要是因?yàn)樵趺礃樱?rdquo;那你就要看一下競(jìng)品在這一塊上到底是怎么做的、有沒有借鑒意義?最后就說“我們可以怎么樣,下一次考試的目標(biāo)就是怎么樣”,你要對(duì)整體作一個(gè)建議,以及對(duì)目標(biāo)進(jìn)行管理。你也不能讓大姨媽的期望值太高,要管理期望,不能直接說“高中沒問題,考個(gè)一中二中什么的”,那也不行,也得讓你小表弟喘口氣。

整體的回答就會(huì)是這樣的邏輯結(jié)構(gòu)。你從接到一個(gè)標(biāo)題或者你要分析的東西一直到它最后出結(jié)果,整個(gè)流程的輔助維度可能就是這些,其實(shí)還會(huì)有更多的維度來輔助。其實(shí)數(shù)據(jù)分析在生活中是很常見的,大家也都經(jīng)常使用它。

第二章:數(shù)據(jù)分析的作用——降低被誤概率

除了剛才那些問題可能時(shí)不時(shí)會(huì)發(fā)生,但是更多出現(xiàn)的是一些容易被誤導(dǎo)的數(shù)據(jù)。我沒有說被騙是因?yàn)樗膊荒芙凶鲵_,只是它誤導(dǎo)了你,而你選擇了相信。我們經(jīng)常在一些報(bào)刊雜志上看到很多數(shù)據(jù)就開始傳播,我也希望這次聽完這些之后,如果不是特別確定的還是不要傳播,容易引起恐慌。

如圖二,我們來看這些報(bào)刊雜志上是怎么樣描述這些數(shù)據(jù)的。首先是“情感??膶<彝ㄟ^讀者的反饋研究發(fā)現(xiàn),有80%的家庭表示后悔要小孩”。“人們一般認(rèn)為平均23度感覺舒適”。“當(dāng)今交通危險(xiǎn)日益增長,據(jù)不完全統(tǒng)計(jì),現(xiàn)在因?yàn)轱w機(jī)事故喪生的人數(shù)是20年前的15倍”。“北京2012年離婚率是39%,有點(diǎn)不敢結(jié)婚。居全國之首,預(yù)計(jì)到2017年將超過50%。”“甲同學(xué)期末五科總分450分,乙同學(xué)期末五科總分460分,乙同學(xué)比甲同學(xué)優(yōu)秀”。接下來這個(gè)是最常見的,“2015年,全國32個(gè)主要城市平均薪酬為6070元”。最后是參軍海報(bào)上寫的,“美國海軍的死亡率為千分之九,而同期的紐約死亡率為千分之十六。所以參軍更安全,鼓勵(lì)大家參軍”。這些都是摘自一些報(bào)刊雜志上或者說平時(shí)經(jīng)常會(huì)出現(xiàn)的一些東西。至于為什么感覺不是騙了你,而是你被它誤導(dǎo)?我們講完這一章之后來回答,大家也可以想一下,大部分可能已經(jīng)知道在哪有有不對(duì)了。

(圖二)

我們已經(jīng)發(fā)現(xiàn)了很多生活中出現(xiàn)的“騙”或者說被誤導(dǎo)的東西,我們?yōu)槭裁催€要統(tǒng)計(jì)。哈佛的統(tǒng)計(jì)學(xué)院的創(chuàng)始人莫斯特勒說過“要用統(tǒng)計(jì)很容易,但是不用統(tǒng)計(jì)騙人就更容易了”。

什么叫做數(shù)據(jù)分析?數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)方法對(duì)收集來的大量第一手資料和第二手資料進(jìn)行分析,以求最大化地開發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用。為了提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。里面包含兩個(gè)關(guān)鍵信息:第一,有用信息。第二,形成結(jié)論。

第一,有用信息。對(duì)于數(shù)據(jù)來說什么是有用信息?主要是三個(gè)方面的東西:1、數(shù)值。2、比率。3、圖形。它還會(huì)有很多種,但是我們經(jīng)常接觸到的東西比較多的會(huì)是這三種類型。

1、數(shù)值

大家平時(shí)接觸得非常多,算術(shù)平均數(shù)、眾數(shù)、中位數(shù),平均數(shù)大家知道了,眾數(shù)就是一個(gè)數(shù)組里出現(xiàn)得最多次數(shù)的那個(gè)數(shù),中位數(shù)就是它的位置處于那一組數(shù)據(jù)的中間位置的數(shù)字。這三個(gè)數(shù)里面,只有眾數(shù)是真數(shù),它是不會(huì)改變數(shù)本身的任何特性的。中位數(shù)是半假數(shù),因?yàn)楫?dāng)數(shù)組出現(xiàn)偶數(shù)的時(shí)候,它是需要計(jì)算的。只要是你需要第二次計(jì)算的,就會(huì)出現(xiàn)人為操作上的或者是任何形式上的失誤,所以中位數(shù)叫半假數(shù)。而算術(shù)平均數(shù)實(shí)際上就是一個(gè)假數(shù),因?yàn)樗枰氵M(jìn)行二次計(jì)算,而且在計(jì)算的過程中會(huì)經(jīng)常出現(xiàn)不可意料的坑。

看圖三,三月份投資人數(shù)10個(gè),投資總金額1萬,平均客單價(jià)1000。到了四月份,投資人數(shù)漲了,投資金額翻一番,平均客單價(jià)是10倍。如果你是做數(shù)據(jù)分析的,一看到這個(gè)數(shù)第一時(shí)間估計(jì)就興奮得崩潰了,真的要這樣往上報(bào)嗎?

(圖三)

它上面寫的是平均客單價(jià),當(dāng)提到“平均”這兩個(gè)字的時(shí)候,需要去看一下數(shù)本身的情況,也就是說里面有沒有異常值。如果說你追回去,最后發(fā)現(xiàn)四月份雖然來了20個(gè)投資人,投資金額這么大,結(jié)果其中一個(gè)投資人自己就投了15萬。你再一算,平均客單才2500。結(jié)果你把這個(gè)報(bào)上去,老板跟你說“10倍的增長不錯(cuò),下個(gè)月做平均客單12000吧”,你就把自己坑上了,結(jié)果實(shí)際才2500,也許整個(gè)部門都被你坑上了。

如果真的出現(xiàn)了這樣的數(shù)要往回追溯,我們說有坑就要埋,怎么樣來埋這個(gè)坑?首先你要看整個(gè)數(shù)組里有沒有異常值,有異常值是不能用平均值的,必須把異常值剔除掉再來看。

其次,按道理來說數(shù)組里應(yīng)該是看方差,但是實(shí)際工作中我不建議引入更多的數(shù)據(jù)概念。因?yàn)槟軌虻贸鼋Y(jié)論并不是說你用的工具越復(fù)雜、越高端越好,而是越能快速、精準(zhǔn)地定位到問題并得出結(jié)論越好。所以我會(huì)建議直接用最大、最小值以及中位數(shù)就能看出是否異常,這樣比算方差或者再去理解的標(biāo)準(zhǔn)差的概念更方便,所以我會(huì)建議直接用大家都理解的東西去得出結(jié)論。

2、比率

大家用百分比的更多,可能比看絕對(duì)值看得更多。大家都會(huì)說“環(huán)比是什么情況,同比是什么情況”。我們先對(duì)同比和環(huán)比作一個(gè)概念上的區(qū)分。同比是指相同時(shí)間點(diǎn)進(jìn)行比較,比如說2015年3月和2016年3月。環(huán)比就是時(shí)間點(diǎn)的比較,比如說2015年3月和2015年4月是一個(gè)前后沿的關(guān)系。并不是說比例就是我這個(gè)月的比上個(gè)月的,這就是值,沒什么坑好出現(xiàn)。但是不然,還是有的。我們?cè)賮硗谝粋€(gè)坑。

看圖四,這是模擬的投資金額數(shù)。這是2015年2月1日到7日,以及2016年2月1日到7日的投資金額分布情況。老板看了這個(gè)數(shù),他就看著你,你就看著圖。如果是這樣的情況,既然有坑,我們就應(yīng)該把坑埋了。特殊日期節(jié)點(diǎn)是不能單純從絕對(duì)日期上進(jìn)行比對(duì)的,最好是以特殊日期本身作為對(duì)比的基準(zhǔn)。比如說“春節(jié)前一周的投資金額的比對(duì)”,在這個(gè)時(shí)候尤其要區(qū)分周六和周日的情況,在你看波動(dòng)性的時(shí)候有沒有周期性波動(dòng)。周六、周日屬于周期性波動(dòng),而這種是屬于特殊日期的節(jié)點(diǎn)性波動(dòng),所以這兩個(gè)在看圖和做圖的時(shí)候都要很小心,一不小心就把自己坑了。

(圖四)

3、圖

這些大家都非常清楚,平時(shí)也用得比較多,包括柱形、餅圖、折線和條形圖。這些圖形有很多是以組合圖的形式出現(xiàn),這里只需要區(qū)分一點(diǎn)就是柱形圖和條形圖用得比較混,可能條形圖主要是區(qū)分類別,而柱形圖更偏向于區(qū)分時(shí)段。所以條形圖有一個(gè)很大的特征在于它的任何軸之間是可以變換位置的,而柱形圖一般不太可以。圖形其實(shí)很容易誤導(dǎo),因?yàn)槿嗽诘谝粫r(shí)間看的時(shí)候是很容易受圖形影響的,我們就來看看圖的坑在哪?如圖五,如果單純從圖上看大家可以得出什么結(jié)論?

(圖五)

先看上半部分,其實(shí)只是因?yàn)樗臄?shù)標(biāo)軸不一樣,所以在看圖的時(shí)候,尤其是兩個(gè)月的圖形進(jìn)行比對(duì)的時(shí)候,先看的是大情況,基準(zhǔn)線很重要。一個(gè)是0起點(diǎn),一個(gè)是400起點(diǎn),那么400起點(diǎn)的波動(dòng)看上去肯定會(huì)更大。

再看下半部分,看起來感覺增長都是一樣的,但是這個(gè)會(huì)看得比較清楚一點(diǎn)。其實(shí)這兩個(gè)表達(dá)的是同一個(gè)意思,因?yàn)橐粋€(gè)是增量,一個(gè)是基礎(chǔ)量,這個(gè)是兩周期之間的差值,但是看上去一個(gè)增長明顯,一個(gè)增長緩慢。這并不是坑,而是說你該如何從圖形上表述你的觀點(diǎn)以及該用什么樣的圖形來表達(dá)這個(gè)事情是怎么樣一個(gè)情況和趨勢(shì)。

剛才已經(jīng)說了有用的信息是數(shù),三種數(shù)——真數(shù),半假數(shù)和假數(shù),我現(xiàn)在問一下還記得假數(shù)是哪個(gè)數(shù)嗎?平均數(shù),平均數(shù)必須要考慮什么?考慮異常值。

接下來我們會(huì)形成結(jié)論,對(duì)剛才的信息進(jìn)行判斷之后,我們要形成結(jié)論用什么樣的方法?會(huì)說到四種方法:1、對(duì)比。2、拆分。3、增維和減維。4、假設(shè)。

在這里,只會(huì)講一下對(duì)比和拆分,為什么?因?yàn)樵鼍S和減維是在你實(shí)際需要的過程中主要為了輔助你判斷使用的,而假設(shè)是你需要根據(jù)你得出的結(jié)果或者說你得不出結(jié)果的時(shí)候去進(jìn)行一次假設(shè),這個(gè)相對(duì)而言是比較抽象的,而對(duì)比和拆分就是我們平時(shí)使用得最多的兩種方法。

1、對(duì)比

對(duì)比的定義不需要過多解釋,因?yàn)樵谧耐瑢W(xué)應(yīng)該對(duì)于對(duì)比都比較清楚,平時(shí)也經(jīng)常使用,但是我在這里強(qiáng)調(diào)需要關(guān)注的四個(gè)點(diǎn):

(1)對(duì)比的對(duì)象要一致。什么意思?就是兩個(gè)值之間進(jìn)行比對(duì)的時(shí)候,它基本對(duì)象是一致的。這個(gè)可以回憶一下剛才我們看的報(bào)刊雜志里有些會(huì)誤導(dǎo)你的其實(shí)就是因?yàn)樗谋葘?duì)對(duì)象不一致造成的。

(2)時(shí)間屬性要一致。比如說有兩家企業(yè),一家企業(yè)跟你說“我的離職率是12%。”你大概心里有數(shù),然后問到下一家企業(yè)的時(shí)候,他說“你不要去那個(gè),那個(gè)12%不行,我這邊很穩(wěn)定,我才4%。”然后你說“不錯(cuò),那就去他那吧”。結(jié)果回頭一問,一個(gè)是年度的,一個(gè)是月度的,這坑就大了。所以你在時(shí)間屬性上一定要問清楚是否一致,當(dāng)然剛才那個(gè)數(shù)只是打個(gè)比方,月度和年度不可能差那么小。

(3)定義和計(jì)算方式一致。這就真的要非常注意,我在以前遇到過,當(dāng)時(shí)是做一個(gè)報(bào)告,要定位的人群是青年人。世界衛(wèi)生組織定義青年人的時(shí)間是從14歲到44歲。國家統(tǒng)計(jì)局定義青年人為15歲到34歲。所以再一次強(qiáng)調(diào),定義很重要。你說的青年人跟我說的青年人壓根就不是同一波人,所以在這塊上,定義非常重要。

(4)數(shù)據(jù)源要一致。這與剛才的定義是一樣的,你從國家統(tǒng)計(jì)局拿數(shù),我從世界衛(wèi)生組織拿數(shù),也許我們倆的數(shù)永遠(yuǎn)都對(duì)不上。所以你的數(shù)也是對(duì)的數(shù),我的數(shù)也是對(duì)的數(shù),我們倆的數(shù)就是對(duì)不上的數(shù)。所以這就是數(shù)據(jù)源的問題,一定要很清晰。

2、拆分

拆分是用來快速定位為有問題的字段的,比如說成交額出現(xiàn)了異常波動(dòng),你就要把成交額這個(gè)字段進(jìn)行拆分,拆成成交用戶×客單價(jià)。成交用戶又被拆分成訪問數(shù)以及轉(zhuǎn)化率。A有問題了,B有沒有問題?B和C哪個(gè)有問題?B下面的D和E哪個(gè)有問題?拆分是為了最快地找到出現(xiàn)異常問題的那個(gè)數(shù),也可以用排除法從下到上排。就是說哪一個(gè)出現(xiàn)了問題就可以快速地解決它,拆分是最大程度地快速定位到需要解決的那一個(gè)模塊上,它是一個(gè)聯(lián)動(dòng)的過程,每一個(gè)數(shù)值的變化后面可能是有原因的,這個(gè)原因是什么就能快速地找到。所以這是平時(shí)就要建立的一個(gè)邏輯問題,這邊也是單獨(dú)拿出來跟大家講,拆分這個(gè)東西真的非常重要,這個(gè)功課平時(shí)就要做,出現(xiàn)的時(shí)候才能夠找到是哪塊出現(xiàn)問題,而不是一到出現(xiàn)問題的時(shí)候再去找。

這就是我們先前看到的那些報(bào)刊雜志里的問題,我們?cè)賮砘厮菀幌碌降走@些數(shù)值誤導(dǎo)了我們什么。

1、有80%的家庭表示后悔要小孩。這就是剛才我說的你的統(tǒng)計(jì)對(duì)象必須要一致,為什么不一致?你得出的這個(gè)結(jié)論是情感專刊的專家通過讀者的反饋,比如說平時(shí)喜歡看一些情感專家的情感多少都有點(diǎn)問題,那么他有80%的家庭表示后悔要小孩似乎也能接受了,因?yàn)橐话闶钦l有問題誰吐槽。

2、這還是一個(gè)平均值的問題,更確切的表述應(yīng)該是“體感”吧,23度感覺會(huì)舒適,而不是平均,因?yàn)槟隳_踩火盆頭頂冰同樣也是平均23度,但是那樣會(huì)非常不舒服。所以“平均”這個(gè)詞的使用是要很小心的。

3、現(xiàn)在飛機(jī)喪生的人數(shù)是20年前的15倍,貌似很嚇人,但是它對(duì)比的是絕對(duì)值。從時(shí)間屬性上來說,20年前才多少人坐飛機(jī)?才有幾輛飛機(jī)對(duì)吧?其實(shí)這就是要考慮時(shí)間的問題,如果是這樣的表述,應(yīng)該是百分比,是說當(dāng)年的坐飛機(jī)人數(shù)和喪生的人數(shù)和與現(xiàn)在坐飛機(jī)的人數(shù)和喪生的人數(shù)的比,而不是用絕對(duì)值去直接比。

4、關(guān)于離婚率的問題。北京2010年的離婚率是39%,預(yù)計(jì)到2012年要超過50%。現(xiàn)在超了嗎?我也沒關(guān)注。反正這個(gè)數(shù)當(dāng)時(shí)辟謠了幾個(gè)月,最后得出的是統(tǒng)計(jì)方法上的問題。按結(jié)婚的跟離婚的比率就是39%。可能更科學(xué)的算法就是離婚的占總?cè)丝诘?,因?yàn)樗撬汶x婚率,所以離婚率應(yīng)該是按人口數(shù)來算的。

5、甲同學(xué)期末五科的總分是450分,乙同學(xué)期末五科的總分是460分,得出乙同學(xué)比甲同學(xué)優(yōu)秀。這其實(shí)是定義問題,就是優(yōu)秀怎么判斷的問題。優(yōu)秀是指分?jǐn)?shù)這句話可能問題不大,但是比如說中間有一個(gè)是特長生,他在他特長的那一塊,你也可以說他優(yōu)秀。這就是關(guān)于優(yōu)秀的定義不一樣。

6、平均薪酬不用說,出來的時(shí)候大家每年都吐槽,都是被馬云爸爸坑了,都是“被平均”的那個(gè)。

7、關(guān)于海軍死亡率的問題就是剛剛提到的關(guān)于統(tǒng)計(jì)對(duì)象的問題,海軍的死亡率雖然是千分之九,但是死的都是身體健康青壯年。而同期紐約死亡率雖然為千分之十六,它有可能是因?yàn)榻煌ㄊ鹿?、病、老等各種原因。本身的統(tǒng)計(jì)對(duì)象都不一樣,所以你要得出“參軍更安全”的結(jié)論本身就是誤導(dǎo),所以大家都不會(huì)相信。

第三章:數(shù)據(jù)分析的作用——職場(chǎng)發(fā)展需要

當(dāng)然,也不是說數(shù)據(jù)分析那么神乎其神,而是如果有這樣的數(shù)據(jù)分析的思維方式,會(huì)使工作更加便捷,就像得出結(jié)論或者說反饋一些信息的時(shí)候不至于誤導(dǎo)別人或者說被別人誤導(dǎo)。相對(duì)于職場(chǎng)發(fā)展的需要,前面兩塊幾乎都是一個(gè)基礎(chǔ),因?yàn)椴荒苷f數(shù)據(jù)分析是一個(gè)工具,而只能說是一種能力,這種能力需要經(jīng)常去培養(yǎng)。我講到職場(chǎng)發(fā)展的需要是在中間單獨(dú)拎出一塊來說,平時(shí)大家也遇到比較多的就是關(guān)于怎樣提數(shù)據(jù)需求。因?yàn)楹芏嗤瑢W(xué)不會(huì)直接接觸到數(shù)據(jù)庫,可能會(huì)提很多需求給提數(shù)據(jù)的那個(gè)人,中間會(huì)產(chǎn)生很多溝通成本,可能得出的結(jié)論也不是自己需要的。其實(shí)提數(shù)據(jù)的需求就是從Word轉(zhuǎn)成Excel的過程。

接下來我們說幾個(gè)點(diǎn),不說完全能覆蓋,但是這幾個(gè)點(diǎn)平時(shí)忽視得比較多,需要關(guān)注。就是Word的這句話如何拆分、如何定義、目的是什么、限制條件是什么,很多同學(xué)會(huì)問“目的難道不是應(yīng)該排在數(shù)據(jù)分析得第一位嗎?沒有目的怎么提數(shù)”但是有時(shí)候你想分析一個(gè)東西的時(shí)候,你是模糊的,你是不太知道你到底是為了干嘛,但是我就想知道,很多人會(huì)有這樣的想法。你在拆分和定義這句話的時(shí)候,你的目的會(huì)越來越清晰,所以我才把你最核心的目的放在第三塊,那么到了第三塊的時(shí)候,對(duì)于為什么要提這個(gè)數(shù),你已經(jīng)非常清晰了。

舉個(gè)簡(jiǎn)單的例子,這是一個(gè)初步的想法,他就說“我想知道近期有短標(biāo)投資行為的用戶的復(fù)投行為”??赡芫褪呛芎?jiǎn)單,就是說我想知道這個(gè)東西。然后我們對(duì)它進(jìn)行拆分,它的核心字段是定語后面的主語,他就是想看復(fù)投行為。它的定語是什么樣的復(fù)投行為?是近期的、買過短期的、有過投資行為的用戶的復(fù)投行為。那么就是把這樣一個(gè)Word的文字表達(dá)變成了字段的形式,這是第一步拆分。

然后我們要定義它。什么叫做復(fù)投?

(1)復(fù)投是指單筆到期之后再投還是說這個(gè)用戶第二次再投資了?這是要區(qū)分的。

(2)“復(fù)投”、“行為”是核心,行為是指質(zhì)還是量?我要的是復(fù)投的金額占比還是復(fù)投的次數(shù)?你到底是要分析什么?這個(gè)投資的行為到底是什么行為?

然后再是近期,近期是一個(gè)月、三個(gè)月還是半年?如果說你是單筆到期復(fù)投之后,你的近期就要和它的投資標(biāo)的相關(guān)。如果近一個(gè)月,你要說單筆到期再復(fù)投根本就不會(huì)有數(shù)。所以這需要考慮清楚。

然后就是短標(biāo)。短標(biāo)是15天還是30天的?你是怎么界定它的?這個(gè)標(biāo)包不包括新手標(biāo)?

然后就是投資行為。因?yàn)槟闵厦嬲f的是近期有短標(biāo)投資行為,是首次投資短標(biāo)行為還是只要近期有過投資的行為?

最后就是用戶。用戶好像也很容易界定,它是首投用戶還是復(fù)投用戶?當(dāng)然復(fù)投用戶在這里應(yīng)該是不存在,但是你還是要對(duì)用戶本身進(jìn)行界定,因?yàn)樗獙?duì)象清晰。

只有你自己把這些都理清楚了之后,你就知道你的目的是什么、你會(huì)得出什么結(jié)論,當(dāng)你把你的這句話拆成這樣的核心內(nèi)容以及定義完之后,你就會(huì)知道你這個(gè)數(shù)提出來會(huì)得到什么結(jié)論,那么你就知道你的目的是什么。像很多時(shí)候提數(shù)之前我會(huì)問“你要什么數(shù)你想清楚了沒有?”其實(shí)這就是想清楚的過程。

至于限制條件就是有些條件需要特別清晰,比如說短標(biāo)包不包括新手標(biāo),這是作為限制條件。如果你要的復(fù)投行為只是說他有沒有過,那么限制條件只要判斷他是否有復(fù)投行為,而不需要提到他復(fù)投了多少次、多少錢。

所以在提數(shù)據(jù)需求的時(shí)候,我當(dāng)時(shí)有幾個(gè)建議:不是非常必要的字段越少越好。因?yàn)橐粋€(gè)人能分析的字段是有限的,不可能一個(gè)人覆蓋到七、八個(gè)或者九、十個(gè)詞,這樣兩兩關(guān)聯(lián)會(huì)很難判斷,因?yàn)橹虚g的因素太多了,最好就是兩到三個(gè)詞,能聚焦到核心內(nèi)容。

其實(shí)這些就是實(shí)際工作中可能會(huì)涉及到的一些內(nèi)容,今天總共作了三個(gè)方面的分享:

第一、數(shù)據(jù)分析在生活中的一些情況。

第二、會(huì)誤導(dǎo)你的一些數(shù)。

第三、從實(shí)用的角度談?wù)勌釘?shù)據(jù)需求所關(guān)注的一些點(diǎn)。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

熱門排行

信息推薦