對于超級菜鳥來說,首要任務是要了解什麽是數據分析?
數據分析是一種從數據中獲取洞見,並驅動商業決策的知識發現行爲。
這裏分兩點來講,一是如何從數據中獲取洞見?數據往往是冰冷的,不會說話,作爲專業的數據分析人員,無疑是要具備非常豐富的業務知識,才能通過數據知道已經發生了什麽?即將要發生什麽?諸如python、excel、Fine BI是實現數據分析挖掘的重要工具,很多初學者往往重視工具,而忽略作爲數據分析人員應該要具備的專業素養。
二是如何驅動商業決策?這可能不是普通數據分析師所能決定的層面,但作爲優秀的數據分析人員,需要具備敏銳的商業眼光。單純的數據分析結果是沒有任何助益的,將分析結果與真實場景結合,産生有指導性的結論,才是一個數據分析師的價值所在。
我知道,大家很在意怎麽去學習數據分析過程,對于python、R、sql、tableau、FineBI等等充滿了疑惑和向往,這也是我當初接觸數據分析時候的心態。很多東西要學,該學哪一樣?怎麽學習?學到什麽程度?下面就要講到數據分析工具。
分析工具的選擇
一般來說,如果想要成爲高階的數據分析師,至少要掌握三類工具——自助式BI工具、取數工具、編程語言。這三類工具的選型標准都是不一樣的,對于超級菜鳥來說,優先級是先學會自助式工具,保證能夠盡快上手數據分析,掌握數據分析的基本知識;其次,再學一種取數工具,接觸數據庫的概念;最後,再高一等級要學會編程,甚至是數據分析庫,具體選型我下面一一介紹。
1、自助式BI工具
什麽叫做自助式分析工具呢?其實很簡單,就是專門面向業務人員的BI分析工具,可以完全擺脫IT人的束縛,對于超級菜鳥來說,學習成本和門檻也比較低,能夠很容易上手,獨立完成數據分析工作。
這裏我推薦FineBI,它是一種能連接各類數據源,對原始數據(尤其是大數據量)進行快速分析,制作明細報表和酷炫可視化圖表的工具,在IT信息部門分類准備好數據業務包的前提下,給與數據,讓業務人員或領導自行分析,滿足即席數據分析需求,是分析型産品。
其實FineBI的使用感同Tableau類似,都主張可視化的探索性分析,有點像加強版的數據透視表。上手簡單,可視化庫豐富。可以充當數據報表的門戶,也可以充當各業務分析的平台。
而對于新手來說,FineBI的學習難度比較低,但是分析性能很強大,更重要的是個人版免費,完全可以支持個人進行自助式分析;即使你已經成爲了企業的數據分析師,仍然需要FineBI來脫離IT部門,去IT化是一種大趨勢,所以說不得不學。
(下載鏈接見文末)
2、取數工具
一般企業的數據保存在本地數據庫或者公有雲裏,有的會采用mysql、oracle、mongodb等,有的會采用hbase、parquet等。我會建議初學者把sql學精,有余力者可以看看hbase、parquet等大數據存儲方式。
sql是數據領域最常用的語言,無論是hive、spark、flink都支持sql,以至于機器學習也支持sql,像阿裏開源的sqlflow。sql永不落伍。
3、編程語言
Python和R是數據分析領域的絕代雙驕,我覺得這兩個都適合作爲數據分析的核心語言,但最好選擇一個來學。
由于很多咨詢我的人問的都是關于python的問題,我自己也是在用python工作,所以這裏講一下用python來做數據分析的利與弊。
python這幾年的火爆程度堪稱編程界的小鮮肉,雖然它誕生也快30年了,但風頭正勁。作爲一門高級編程語言,python除了不善于開發底層應用,幾乎可以做任何事情。拿數據分析來說,從數據庫操作、數據IO、數據清洗、數據可視化,到機器學習、批量處理、腳本編寫、模型優化、深度學習,python都能完美地完成,而且提供了不同的庫供你選擇。
除此之外,Jupyter notebook是進行數據分析非常優秀的交互式工具,爲初學者提供了方便的實驗平台。
4、數據分析庫
除了上面提高的三類工具,其實還有一類數據分析庫,是比較適合高等數據分析師的,如果你還是一名剛剛入門的新手,可以忽略這一小節的內容。
pandas是一款不斷進步的python數據科學庫,它的數據結構十分適合做數據處理,並且pandas納入了大量分析函數方法,以及常用統計學模型、可視化處理。如果你使用python做數據分析,在數據預處理的過程,幾乎九成的工作需要使用pandas完成。
numpy是python的數值計算庫,包括pandas之類的很多分析庫都建立在numpy基礎上。
numpy的核心功能包括:
- ndarray,一個具有矢量算術運算和複雜廣播能力的快速且節省空間的多維數組。
- 用于對整組數據進行快速運算的標准數學函數(無需編寫循環)。
- 用于讀寫磁盤數據的工具以及用于操作內存映射文件的工具。
- 線性代數、隨機數生成以及傅裏葉變換功能。
- 用于集成由C、C++、Fortran等語言編寫的代碼的A C API。
numpy之于數值計算特別重要是因爲它可以高效處理大數組的數據。這是因爲:
- 比起Python的內置序列,numpy數組使用的內存更少。
- numpy可以在整個數組上執行複雜的計算,而不需要Python的for循環。
matplotlib和seaborn是python主要的可視化工具,建議大家都去學學,數據的展現和數據分析同樣重要。
sklearn和keras,sklearn是python機器學庫,涵蓋了大部分機器學習模型。keras是深度學習庫,它包含高效的數值庫Theano和TensorFlow。
最後
FineBI5.0個人免費版下載地址獲取方式,見下方評論區↓↓↓