Dcard成大板之使用者特性及文章分析
Dcard目前為全台最大的大學生匿名社群交流平台,每個人可隱匿姓名甚至可以隱匿系級、學校,在此平台上自由發言,因此有極大的言論自由,由此平台之文章可真切了解到在線學生們的真實感受。卡友每天都能抽一張卡,透過對方的自我介紹決定是否加入對方好友,若兩方皆同意,便能互相成為卡友,互相聊天。 Dcard中除了有各種喜好看板,也有校園看板,讓同校的學生能夠互相分享有關於校園的人事物。
由於個人也算是常在Dcard板上遊蕩的卡友,平時較喜歡看熱門看板的貼文,但也總是會點進成大的看板,看最近有沒有發生什麼事。然而,常常看到「成大116廢文板」等類似貼文或留言回覆。便不禁讓我好奇,Dcard成大板的使用者有哪些特性、最常使用那些字詞、還有最令成大學生們的文章有哪些、發文頻率等等。 分析完使用者特性後,我們便可得知發文者大都來自何系,以及知道大部分的文章類型,若有任何需要透過校園傳遞之消息,便可得知此板的最大客群為哪些類型,透過Dcard傳遞重要訊息,建立有效溝通之平台。
原本是要直接使用Dcard的API去作爬蟲,但發現他爬一次只能爬30筆文章資料,要作分析的化資料量相當不足。後來在網路上查到了這支「Dcard-spider」爬蟲程式。他透過使用者輸入資料數,將此數除以30,計算需爬的page數,再把資料都爬下來。除了爬文章,他也可以下載圖片、文章,並可以針對特定資料作爬蟲,因此速度相當快。
- python article_by_month.py
- python content.py
- python department.py
- python gender.py
- python tag.py
- python worldcloud.py
- setuptools==39.1.0
- numpy==1.14.3
- wordcloud==1.4.1
- requests==2.18.4
- jieba==0.39
- pandas==0.23.0
- matplotlib==2.2.2
- six==1.11.0
- scipy==1.1.0
- pytest==3.5.1