PTT-NTU版變了嗎?我爬了過去一年4000篇文,跑了個統計

王宏恩@UNLV
4 min readMay 8, 2018

隨著最近台大校長遴選爭議,無論是Ptt擁有14年歷史的NTU版,或是臉書出現後的台大學生交流版,都對這次選舉過程、乃至於對於大學自治的意義有許多討論。其中,我一些朋友覺得Ptt的NTU版似乎跟以前的風氣不太一樣了,這一來可能只是因為討論激烈導致大家情緒比較高亢,二來則可能是這次的議題讓更多的人想加入討論,所以風格與內容都可能不同。

當然,這種現象是可以透過統計來觀察一下的。於是,我就透過R抓了昨天往前算的3998篇文章,這數字是隨意選的,但正好是從去年6月1日開始。

在這過去十二個月中,PTT-NTU版有什麼變化呢?

要驗證變化有很多方法,無論是文字探勘看語氣、或是看推噓文等。但在現在反串流行、而且機器驗證效果還不佳時,我想最簡單的方法,就是看這4000篇文的發文作者ip是否有顯著的變化。畢竟,連現在Ptt-NTU版版主掛上的板名標題也正好跟ip有關:

所以,我查了過去4000篇文的作者ip,然後依照時間跟每天發文來做出趨勢圖,結果如下:

自從去年六月開始,NTU版上非112 ip (台大校內網域)的每日貼文數就穩定的大於校內貼文者。這並不會很奇怪,因為假如是台北人住家裡,晚上去發個文就不會是112 ip了。

但是如上圖所見,校內與校外的貼文差距在今年1月以後開始擴大,無論數量上或比例上皆然。

在去年6月到12月,112ip貼文比例是43%。

在今年1月到3月,112ip貼文比例降到35%。

在今年4月以後,112ip貼文比例再降到28%。

假如我們把時間軸依據這次的校長遴選大事記來分類的話,可以看到112 ip在NTU版的貼文數的確有隨著事件而有所上升,但上升的數量遠低於非112 ip的貼文增加數。1月4日是選出校長,2月20是學生第一次抗議,在這之間貼文都跟過去半年一樣。2月20抗議之後,到4月27教育部正式拒絕前,非112 ip貼文開始增加,112 ip貼文則變動不大。在4月27日後,兩者皆有上升,但變動幅度有差異。

假如我們更進一步,來區分這些ip來源國家的話,可以看到這樣的趨勢:

在今年1月以後,Ptt-NTU版上不只是非112的國內ip增加,甚至開始也出現為數不少的外國ip貼文,這些貼文在去年之前出現的比例跟數量都還很低。

這些數字跟圖表的背後只代表一件事:PTT-NTU版的發文者組成,在今年1月以後的確跟過去不太一樣了,到今年4月以後變得更不一樣。至少,這結果呼應了Ptt-NTU版現任版主們的板標,第一線的直覺總是比較準。

當然,這並不代表組成改變是有甚麼特別的力量在運作,畢竟台大校長遴選是舉國關注的事件,而Ptt最大的優點就是大家可以匿名的在不同看板來去自如發表意見、分類討論。所以,就算有些非台大網友想參與、海外校友關心也都實屬正常。不過,這些結果也暗示著台大學生自己在使用Ptt-NTU版上討論的狀況,平均而言,可能並沒有隨著這次校長遴選而有增加,否則校內外ip應該都是等比例增加的,不會由43%掉到35%甚至28%。

另外,貼文ip也不一定代表示支持或反對這次校長遴選的過程,要做到這一步就需要針對每篇文的內容進行討論,這還要包括納入反串跟引戰文,這有太多主觀的成分,機器學習也還做不好。

這也不是我第一次分析Ptt-NTU版。我過去曾經統計過在Ptt-NTU版發問卷的回覆率(結果發現:在標題寫清楚題目數跟有贈品最容易有人幫填問卷,聽起來有點直覺),也曾統計過PTT發文與推噓文的時間(結果最多人是在下午3點跟晚上10點發文推噓文)。

最後,要不要用同樣的方法分析臉書的台大版呢?這是個好題目,但是臉書最近因為出包,所以現在抓資料分析變得非常困難,也只能在這邊先to be continued了…(假如對這次的R code有興趣,我也很樂意分享,寫個email給我即可)

--

--

王宏恩@UNLV

政治。選舉。資料。杜克大學政治學博士。內華達大學拉斯維加斯分校政治系助理教授。