數(shù)據(jù)分析一般包括哪些內容,?
數(shù)據(jù)分析這算是一個比較大的一個框架,,單從字面意思來講就是從數(shù)據(jù)中提取有用的規(guī)律或背后的邏輯。
工作中數(shù)據(jù)分析的職能主要分為以下6個步驟:
數(shù)據(jù)收集
數(shù)據(jù)清洗
數(shù)據(jù)儲存
指標計算
數(shù)據(jù)統(tǒng)計分析與建模
數(shù)據(jù)可視化
第一步數(shù)據(jù)收集:在前期我們數(shù)據(jù)尚未形成特定的體系的時候亦或者是我們的業(yè)務正在進行的時候,,需要我們通過各種各樣的途徑去獲取數(shù)據(jù),。數(shù)據(jù)收集的方法多種多樣,,其中可以用程序自動收集(數(shù)據(jù)埋點,、網絡爬蟲,、ERP或CRM系統(tǒng)自動生成等)、手工統(tǒng)計(Excel統(tǒng)計),、第三方網站提?。ㄍㄟ^公開數(shù)據(jù)網站下載,API等)等諸多方法,,方法的選擇跟隨業(yè)務形態(tài)進行,。
第二步數(shù)據(jù)清洗:收集來的數(shù)據(jù)是臟數(shù)據(jù),,需要通過數(shù)據(jù)清洗,,也就是取其精華去其糟粕,這樣的數(shù)據(jù)才是我們能夠正常使用的數(shù)據(jù),。這一步的操作主要使用的是正則表達式進行數(shù)據(jù)清洗,,收集來的數(shù)據(jù)各種格式都有,需要轉碼成特定的格式以及編碼,。
第三步數(shù)據(jù)存儲:由于現(xiàn)在的公司數(shù)據(jù)越來越大,,互聯(lián)網時代已經從IT轉變?yōu)镈T的時代,現(xiàn)在每個公司的業(yè)務數(shù)據(jù)都是呈現(xiàn)幾何倍數(shù)的增長,,那么在存儲數(shù)據(jù)的時候肯定不可能還用以前那種用紙筆記錄的時代?,F(xiàn)在對于小數(shù)據(jù)量的公司一般也是用Excel文件進行數(shù)據(jù)存儲,許多公司以及采用數(shù)據(jù)庫產品進行數(shù)據(jù)存儲,,市面也有很多性能很好的數(shù)據(jù)庫產品,,例如Oracle、MySQL,、SqlServer,,現(xiàn)在對大數(shù)據(jù)還專門有對應的hive數(shù)據(jù)倉庫產品。這些產品都很好用,,并且部分還是開源產品,。就我們公司而言,之前使用的Oracle和MySQL以及SqlServer數(shù)據(jù)庫,,目前因為業(yè)務線條的調整,,已經將數(shù)據(jù)從單一的數(shù)據(jù)庫轉向hive數(shù)據(jù)倉庫存儲,,更方便了技術、業(yè)務,、分析師等角色對數(shù)據(jù)的應用提取,。
第四步指標計算:在進行指標計算之前,需要數(shù)據(jù)分析師建立當前部門的KPI指標,,對應著業(yè)務部門針對不同的業(yè)務場景反饋出業(yè)務好壞的數(shù)據(jù)與規(guī)則,。這一步繁雜而持續(xù),并且可能這項工作會貫穿整個數(shù)據(jù)分析生涯,。什么是指標,?指標就是衡量目標的方法,比如商品管理常用的庫存周轉率,、毛利率等,,運營常看的路徑轉換,,maketing??吹腞OI等等,對應的指標反映出不同的業(yè)務場景的好壞,,隨著業(yè)務的變換,,企業(yè)階段的變換,指標也會一直在跟隨著變換,。
第五步數(shù)據(jù)統(tǒng)計分析與建模:這個環(huán)節(jié)是整個數(shù)據(jù)分析流程中最有意思的一個環(huán)節(jié),,沒有之一。相比于之前的環(huán)節(jié),,在此環(huán)節(jié)你將會面臨各種各樣的挑戰(zhàn),。什么假設檢驗,什么線性回歸,、什么特征工程,、什么貝葉斯等都會遇到,在這里你將會看到各種數(shù)據(jù)背后的邏輯以及數(shù)據(jù)所產生的價值,。并且在數(shù)據(jù)分析的過程中可能會遇到第二步的數(shù)據(jù)清洗過程,,處理缺失值、處理異常值等,。
第六步數(shù)據(jù)可視化:也就是數(shù)據(jù)展現(xiàn),,需要將第五步統(tǒng)計分析及建模的結果使用圖的形式體現(xiàn)出來,俗話說字不如表,,表不如圖,。市面上使用的比較多的數(shù)據(jù)可視化產品主要是Tableau、PowerBI、finebi,、PPT等幾種,。其中前三種主要是呈現(xiàn)交互式表格,也就是存儲于線上的報表,,而PPT主要是以報告的形式呈現(xiàn),。
現(xiàn)在的數(shù)據(jù)分析可按照職能簡單劃分為幾個方向:
商業(yè)數(shù)據(jù)分析師
數(shù)據(jù)挖掘工程師
大數(shù)據(jù)開發(fā)工程師
以上幾種是當前的招聘時長相對比較常見的幾種崗位,各崗位之前各有不同,。商業(yè)數(shù)據(jù)分析師主要是以業(yè)務為導向,,將數(shù)據(jù)應用到企業(yè)的決策中,主要的工具是Python,、R,、Excel、SPSS,、tableau,、PowerBI等;數(shù)據(jù)挖掘工程師比較側重技術方向,,主要反欺詐,、垃圾郵件識別等數(shù)據(jù)應用,主要的工具是Python,、Java,、C、C++等,;大數(shù)據(jù)開發(fā)工程師主要負責搭建數(shù)據(jù)平臺,,利用hadoop,、hive,、spark、Python,、Java,、C、C++等工具開發(fā)適合公司數(shù)據(jù)流的數(shù)據(jù)平臺,。數(shù)據(jù)分析是一個目前為止比較新興的崗位,,因此大多數(shù)人都是在不斷的學習改進。
以上為我的一些拙見,,有什么不足的地方歡迎補充交流,。
本網站文章僅供交流學習 ,不作為商用, 版權歸屬原作者,,部分文章推送時未能及時與原作者取得聯(lián)系,,若來源標注錯誤或侵犯到您的權益煩請告知,我們將立即刪除.