爬取豆瓣短評,劉若英導演的電影《後來的我們》發現愛情是這樣的

爬取豆瓣短評,劉若英導演的電影《後來的我們》發現愛情是這樣的

去年劉若英的電影《後來的我們》上映了,相信大家有點小期待吧,不知道看完了之後,有多少小夥伴想起了前塵往事,畢竟大家都年輕過,尤其是影片的主題曲《我們》,不知道聽哭了多少人。電影能否跟歌曲一樣深入人心,懷著這樣的一種心情,我們一起來分析一下它的影評吧。

要點:

用selenium爬取資料

資料清洗並存入Mongodb

用echart視覺化分析

用jieba分詞

用WordCloud做雲圖

01。爬取資料

透過試探知道:豆瓣影評設定許可權,沒有登陸的話,只能夠看到前面的幾十條短評,並且登入的時候需要輸入驗證碼。所以考慮使用

selenium

來獲取資料。登入時需要的驗證碼,透過儲存圖片,然後手動輸入

爬取豆瓣短評,劉若英導演的電影《後來的我們》發現愛情是這樣的

所以構造兩個方法,先登入,然後獲取驗證碼,但是驗證碼不是每次都需要的

1)。登入方法

爬取豆瓣短評,劉若英導演的電影《後來的我們》發現愛情是這樣的

我們用web自動化神器selenium來模擬登入,然後找到username和passwd框,輸入我們用的使用者名稱和密碼即可。

2)。獲取驗證碼

爬取豆瓣短評,劉若英導演的電影《後來的我們》發現愛情是這樣的

驗證碼的解析,我們這裡用一種比較原始的方法

我們首先用selenium找到驗證碼的圖片,然後儲存下來

接著用人眼解析,然後在input輸入

當然不是每一次都要驗證碼的,如果不需要驗證碼,大家可以略過這一步

3)。進入詳情頁面

登陸成功之後,接著我們就可以透過搜尋框搜尋《後來的我們》,進入詳情頁,隨後進入短評列表

爬取豆瓣短評,劉若英導演的電影《後來的我們》發現愛情是這樣的

爬取豆瓣短評,劉若英導演的電影《後來的我們》發現愛情是這樣的

找到文字搜尋框inp-query,然後輸入“後來的我們”,然後點選搜尋按鈕,獲取短評的列表。

4)。檢視具體短評的內容

爬取豆瓣短評,劉若英導演的電影《後來的我們》發現愛情是這樣的

分析一下短評列表的網頁元素,然後用xpath找到短評的列表每個評論的具體內容

爬取豆瓣短評,劉若英導演的電影《後來的我們》發現愛情是這樣的

爬取豆瓣短評,劉若英導演的電影《後來的我們》發現愛情是這樣的

4)。進行翻頁,然後重新獲取短評資訊

一共有24頁,我們直接簡單的迴圈爬取

爬取豆瓣短評,劉若英導演的電影《後來的我們》發現愛情是這樣的

02。資料簡單分析

資料分析其實是最精彩的地方,用資料來講故事,玩資料分析的庫有很多。比如可以用matplotlib,pandas,sns或者Tableau,也可以用互動性比較好的js庫,這裡用百度的開源庫echart來處理,比較方便直觀。

1)。看一下點贊數

爬取豆瓣短評,劉若英導演的電影《後來的我們》發現愛情是這樣的

js的程式碼比較簡單,直接構造一個json格式的資料列表

爬取豆瓣短評,劉若英導演的電影《後來的我們》發現愛情是這樣的

從圖中可以看出短評中最受歡迎的大概有2500票,並且大部分集中在前排,(這是後面沒有多少人看,所以點贊少嘛?)看來前排很重要呀

2)。把評論製作成詞雲圖

爬取豆瓣短評,劉若英導演的電影《後來的我們》發現愛情是這樣的

大部分人在

評論周冬雨

、感慨

我們後來沒有故事

3)。統計一下贊同數前十的評論

爬取豆瓣短評,劉若英導演的電影《後來的我們》發現愛情是這樣的

也許是主題曲提前預熱了市場,讓觀眾的期望值變高了,《後來的我們》在豆瓣上的評分只有6。2分,並且現在又出現了退票事件。單就電影來說,感覺還是可以的。或許是豆瓣的使用者眼光有點高了。

愛情有一種結局,就是後來的我們,只能從情侶變成愛了很久的朋友。電影裡有句很扎心的文案,

“再後來,我什麼都有了,卻獨獨沒有了我們”。希望我們好好珍惜。