數(shù)據(jù)分析一般包括哪些內(nèi)容,?
數(shù)據(jù)分析這算是一個(gè)比較大的一個(gè)框架,,單從字面意思來講就是從數(shù)據(jù)中提取有用的規(guī)律或背后的邏輯。
工作中數(shù)據(jù)分析的職能主要分為以下6個(gè)步驟:
數(shù)據(jù)收集
數(shù)據(jù)清洗
數(shù)據(jù)儲(chǔ)存
指標(biāo)計(jì)算
數(shù)據(jù)統(tǒng)計(jì)分析與建模
數(shù)據(jù)可視化
第一步數(shù)據(jù)收集:在前期我們數(shù)據(jù)尚未形成特定的體系的時(shí)候亦或者是我們的業(yè)務(wù)正在進(jìn)行的時(shí)候,,需要我們通過各種各樣的途徑去獲取數(shù)據(jù),。數(shù)據(jù)收集的方法多種多樣,其中可以用程序自動(dòng)收集(數(shù)據(jù)埋點(diǎn)、網(wǎng)絡(luò)爬蟲、ERP或CRM系統(tǒng)自動(dòng)生成等),、手工統(tǒng)計(jì)(Excel統(tǒng)計(jì))、第三方網(wǎng)站提?。ㄍㄟ^公開數(shù)據(jù)網(wǎng)站下載,API等)等諸多方法,,方法的選擇跟隨業(yè)務(wù)形態(tài)進(jìn)行,。
第二步數(shù)據(jù)清洗:收集來的數(shù)據(jù)是臟數(shù)據(jù),需要通過數(shù)據(jù)清洗,,也就是取其精華去其糟粕,,這樣的數(shù)據(jù)才是我們能夠正常使用的數(shù)據(jù)。這一步的操作主要使用的是正則表達(dá)式進(jìn)行數(shù)據(jù)清洗,,收集來的數(shù)據(jù)各種格式都有,,需要轉(zhuǎn)碼成特定的格式以及編碼。
第三步數(shù)據(jù)存儲(chǔ):由于現(xiàn)在的公司數(shù)據(jù)越來越大,,互聯(lián)網(wǎng)時(shí)代已經(jīng)從IT轉(zhuǎn)變?yōu)镈T的時(shí)代,,現(xiàn)在每個(gè)公司的業(yè)務(wù)數(shù)據(jù)都是呈現(xiàn)幾何倍數(shù)的增長,那么在存儲(chǔ)數(shù)據(jù)的時(shí)候肯定不可能還用以前那種用紙筆記錄的時(shí)代?,F(xiàn)在對(duì)于小數(shù)據(jù)量的公司一般也是用Excel文件進(jìn)行數(shù)據(jù)存儲(chǔ),,許多公司以及采用數(shù)據(jù)庫產(chǎn)品進(jìn)行數(shù)據(jù)存儲(chǔ),市面也有很多性能很好的數(shù)據(jù)庫產(chǎn)品,,例如Oracle,、MySQL、SqlServer,,現(xiàn)在對(duì)大數(shù)據(jù)還專門有對(duì)應(yīng)的hive數(shù)據(jù)倉庫產(chǎn)品,。這些產(chǎn)品都很好用,并且部分還是開源產(chǎn)品,。就我們公司而言,,之前使用的Oracle和MySQL以及SqlServer數(shù)據(jù)庫,目前因?yàn)闃I(yè)務(wù)線條的調(diào)整,,已經(jīng)將數(shù)據(jù)從單一的數(shù)據(jù)庫轉(zhuǎn)向hive數(shù)據(jù)倉庫存儲(chǔ),,更方便了技術(shù)、業(yè)務(wù),、分析師等角色對(duì)數(shù)據(jù)的應(yīng)用提取,。
第四步指標(biāo)計(jì)算:在進(jìn)行指標(biāo)計(jì)算之前,需要數(shù)據(jù)分析師建立當(dāng)前部門的KPI指標(biāo),,對(duì)應(yīng)著業(yè)務(wù)部門針對(duì)不同的業(yè)務(wù)場景反饋出業(yè)務(wù)好壞的數(shù)據(jù)與規(guī)則,。這一步繁雜而持續(xù),并且可能這項(xiàng)工作會(huì)貫穿整個(gè)數(shù)據(jù)分析生涯。什么是指標(biāo),?指標(biāo)就是衡量目標(biāo)的方法,,比如商品管理常用的庫存周轉(zhuǎn)率、毛利率等,,運(yùn)營??吹穆窂睫D(zhuǎn)換,maketing??吹腞OI等等,,對(duì)應(yīng)的指標(biāo)反映出不同的業(yè)務(wù)場景的好壞,隨著業(yè)務(wù)的變換,,企業(yè)階段的變換,,指標(biāo)也會(huì)一直在跟隨著變換。
第五步數(shù)據(jù)統(tǒng)計(jì)分析與建模:這個(gè)環(huán)節(jié)是整個(gè)數(shù)據(jù)分析流程中最有意思的一個(gè)環(huán)節(jié),,沒有之一,。相比于之前的環(huán)節(jié),在此環(huán)節(jié)你將會(huì)面臨各種各樣的挑戰(zhàn),。什么假設(shè)檢驗(yàn),,什么線性回歸、什么特征工程,、什么貝葉斯等都會(huì)遇到,,在這里你將會(huì)看到各種數(shù)據(jù)背后的邏輯以及數(shù)據(jù)所產(chǎn)生的價(jià)值。并且在數(shù)據(jù)分析的過程中可能會(huì)遇到第二步的數(shù)據(jù)清洗過程,,處理缺失值,、處理異常值等。
第六步數(shù)據(jù)可視化:也就是數(shù)據(jù)展現(xiàn),,需要將第五步統(tǒng)計(jì)分析及建模的結(jié)果使用圖的形式體現(xiàn)出來,,俗話說字不如表,表不如圖,。市面上使用的比較多的數(shù)據(jù)可視化產(chǎn)品主要是Tableau,、PowerBI、finebi,、PPT等幾種,。其中前三種主要是呈現(xiàn)交互式表格,也就是存儲(chǔ)于線上的報(bào)表,,而PPT主要是以報(bào)告的形式呈現(xiàn),。
現(xiàn)在的數(shù)據(jù)分析可按照職能簡單劃分為幾個(gè)方向:
商業(yè)數(shù)據(jù)分析師
數(shù)據(jù)挖掘工程師
大數(shù)據(jù)開發(fā)工程師
以上幾種是當(dāng)前的招聘時(shí)長相對(duì)比較常見的幾種崗位,各崗位之前各有不同,。商業(yè)數(shù)據(jù)分析師主要是以業(yè)務(wù)為導(dǎo)向,,將數(shù)據(jù)應(yīng)用到企業(yè)的決策中,,主要的工具是Python、R,、Excel,、SPSS、tableau,、PowerBI等,;數(shù)據(jù)挖掘工程師比較側(cè)重技術(shù)方向,主要反欺詐,、垃圾郵件識(shí)別等數(shù)據(jù)應(yīng)用,,主要的工具是Python、Java,、C、C++等,;大數(shù)據(jù)開發(fā)工程師主要負(fù)責(zé)搭建數(shù)據(jù)平臺(tái),,利用hadoop、hive,、spark,、Python、Java,、C,、C++等工具開發(fā)適合公司數(shù)據(jù)流的數(shù)據(jù)平臺(tái)。數(shù)據(jù)分析是一個(gè)目前為止比較新興的崗位,,因此大多數(shù)人都是在不斷的學(xué)習(xí)改進(jìn),。
以上為我的一些拙見,有什么不足的地方歡迎補(bǔ)充交流,。
本網(wǎng)站文章僅供交流學(xué)習(xí) ,不作為商用,, 版權(quán)歸屬原作者,部分文章推送時(shí)未能及時(shí)與原作者取得聯(lián)系,,若來源標(biāo)注錯(cuò)誤或侵犯到您的權(quán)益煩請告知,,我們將立即刪除.