友情提醒:文末有….
一次完整的python數據分析流程是怎麽樣的?
使用python從網站抓取數據,並將這些數據保存到SQLite數據庫中,然後對數據進行清洗,最後對數據進行數據可視化分析。
可是熟悉的人應該知道,python爬取簡單,但是分析起來是很困難的,SQL語句、Pandas和Matplotlib這些十分繁瑣,一般人也不會。
于是我想到了用一種更簡單的方式進行數據分析,那就是python爬取+BI分析。什麽是BI就不用我多做介紹了吧,python強大的數據獲取能力,配合敏捷BI簡單快捷的數據可視化操作,分析效果那肯定是杠杠的!
那這次我們就來看看“人均985,年薪百萬”的知乎背後,到底有什麽秘密?話不多說,開爬!
一、我們想要哪些數據?
知乎用戶的學校和公司肯定是首當其沖的,我想看看到底這些人是編的還是真的哈哈哈。
每頁有20個問題,所以你可以獲得到20個問題的鏈接,之後就是對每個問題的處理:
三、用BI進行數據可視化分析
首先在官網下載FineBI,雖說是企業級的數據分析平台,但是它對于個人是永久免費的,文末給大家准備了下載鏈接~
然後直接通過FineBI提供的數據配置端的功能,添加SQL數據集(或者直接添加表也行),查看和驗證剛剛爬取並且入庫的數據是否已經真正成功入庫到MySQL中了。
1、哪個城市的知乎用戶最多?
杭州處在第三名了,果然互聯網的發源之地之一不是吹的,阿裏網易起到了很大的作用,爲什麽這麽說?等你看到職業就明白了。
2、他們都是哪些學校的?
不過也不奇怪,知乎主打的就是高知識份子的聚集地,而且學生比起上班族,有更多的時間玩手機。
既然分析到學校了,我們肯定要來看看各個高校上玩知乎的男女比例:
別說了,知乎人均985實錘了,我流下了羨慕的淚水,我想請問同學,是怎麽做到玩和學習同時兼顧的?你如果教教我,我高考距離清華的錄取分數線可能就更近一點了….
3、知乎的職業比例
除去學生之後,我們發現知乎的人都是….
可以看到,除了一些互聯網公司的常見職位外,教師和律師用戶在知乎中也占據不小的比重。
我們再用一張熱力圖來觀察知乎主流職業(前四名)在各個地區的分布情況,顔色越深,代表該職業在該地區的人數越多:








