Pandas使用Python進行數據處理
除了Smucker的Goober開玩笑之外,Pandas僅僅通過內置Python就能使Python成爲Data Science更可行的語言。 這並不是說Python沒有許多可以模仿這種效果的出色軟件包,因爲Python擁有數量衆多的用于機器學習和數據處理的軟件包。 Pandas使得相對困難的事情,或者在其他語言中更加痛苦的事情,在Python中變得異常容易。
IPython的
支持Pandas的最大事情是-Pandas本身。 該軟件包來自第一方,旨在合並數據科學的主要內容,例如IPython Notebooks和Numpy。 將它們組合在一起的方式很有道理,但我不只是告訴您,我還將向您展示使用其他語言的軟件包的感覺,這是我的最愛:
Julia
有趣的是,我們用來創建數據框架的軟件包是DataFrames.jl。 當然,我們現在將使用逗號分隔值文件(CSV文件)。 所以第一步就是讀取我們的數據……但是我們該怎麽做呢? 在更改日志中,簡要提到了一種稱爲read_table的方法,但是在大多數情況下,這似乎已被棄用。
“省略了12列打印”
好吧,一切都很好,但是爲什麽呢? 出于某種奇怪的原因,他們選擇根據列的特定長度,在Iframe外部渲染數據幀,並省略列。 那麽我們如何顯示所有列? 顯示所有列非常容易,只需在show方法中添加bool類型參數即可,如下所示:
相信我,R的數據框架也不如Pandas好,在大多數情況下,使用R和Julia的人傾向于PyCall Pandas,而不是使用各自語言的數據框架包。
脾氣暴躁的
重要的是要記住,由于這是一種編程語言,因此香草Python和線性代數實際上並沒有您想象的那樣好。 我認爲這僅僅是因爲Python比”線性代數”具有更高的水平,而且當然不應該期望它成爲許多公司現在深陷其中的統計語言。當然,我的df.dropna()示例是非常輕巧的,但可以保證在某些時候與Numpy的緊密集成將使您的生活比以前更加輕松!
Pandas本身
除了Pandas與其他Python軟件包的出色集成和方法論之外,Pandas還具有許多好處,它們所做的所有出色的開源工作都提供了這些好處。 每一次轉彎,分度,連接,融化,旋轉,甚至交叉制表都可以與Pandas一起完成。 這些任務確實可以使用其他程序包提供一整小時的工作,但是使用Pandas可以輕松,即時地完成任務。
借助replace()函數之類的簡單工具,可以更輕松地使用Pandas,該工具可用于替換NaN或只是奇怪的數據。 Pandas做了很多工作,做了一點工作,這就是它如此受歡迎和令人印象深刻的原因。 但是Pandas還有其他一些巨大的好處。
字符串訪問器
是的,傳說是正確的:
數據框是榮耀的字典。
但是,並非所有字典都是一樣的。 首先,在我所知道的語言中,熊貓的條件屏蔽是迄今爲止最好的。
如您所見,典型的字符串命名方案在Julia中不起作用。 取而代之的是,Julia使用的符號是通過在變量名前加一個冒號而創建的。 因此,讓我們嘗試使用符號代替:




