【調查報導幕後】風向戰爭與它的推手(IT背景的請進,利用python爬蟲破解謠言的方法)

考慮了一下到底要不要傳播,因為剛剛看隔壁樓說品蔥有網警再監看,但是又想這方法其實並不是什麼秘密,我覺得把它攤在陽光下大家,等於就讓大家手上都有武器可以對抗那些造謠和帶風向者。

【調查報導幕後】風向戰爭與它的推手 : 我們使用哪些數位工具協助調查?



文/許家瑜、柯皓翔

《報導者》2018年刊出資訊戰首部曲《金錢輿論》;2019年二部曲《揭祕跨國網軍製造地》則追蹤北馬其頓和印尼的網軍如何操弄資訊、金錢、仇恨;在進入2020年的前幾日,我們推出系列報導第三部《風向戰爭與它的推手》,透過數位足跡調查,我們嘗試從線上到線下,揭開這群跨越台、星、中、馬的「資訊戰商人」的神祕面紗。

在這次的專題中,報導團隊除了使用程式語言(R & Python)進行資料抓取、清洗和分析外,也用到大量數位工具輔助追查及核實,這篇文章整理了我們所使用到的資源,與讀者分享相關工具的使用心得。


一、誰在分享內容農場?
打不死的內容農場──揭開「密訊」背後操盤手和中國因素〉一文中,我們關注「密訊」這個內容農場,它在2018年九合一大選前,成為泛藍粉絲頁最常分享的網站,表現甚至超過許多主流媒體,然而該網站過去許多文章也遭指為不實訊息,引發爭議。因此,我們第一步要搞清楚資訊流向,到底這個內容農場的文章都是誰在分享,觸及哪些受眾。

工具1、Ahrefs:找出網站間的互連關係
這是一個SEO流量分析網站,可以提供網頁有歷史紀錄以來所有的反向連結(backlinks)

反向連結是什麼呢?舉例而言,當網站A的頁面有放置網站B的連結,就會稱網站A是網站B的反向連結。從下面的圖我們可以看到,「密訊」主網域(mission-tw.com)有眾多反向連結,而「怒吼」這個內容農場(nooho.net)大量分享「密訊」的文章,是「密訊」反向連結的主要來源,在SEO上有機會提高能見度。

剛好當時有把整個分析過程與SEO專家確認,在這邊就直接分享文件檔給所有人→ http://短网址/2tt76FS

https://miro.medium.com/max/60/0*F11RKXdrCqNjtfMc?q=20
https://miro.medium.com/max/1478/0*F11RKXdrCqNjtfMc
將密訊所有反向連結歸類、視覺化後,就可以發現內容網站怒吼是密訊的SEO好夥伴。

工具2、CrowdTangle:挖掘文章在社群媒體的擴散節點
前面Ahrefs主要可以分析的對象是網站,但內容農場的傳散非常仰賴社群媒體,所以我們使用CrowdTangle調查資訊流向,這是一個社群媒體觀測平台,在2016年被Facebook收購,我們以媒體組織身份申請權限,觀測即時的社群動向,這次是我們首次透過該工具進行調查報導。未正式申請CrowdTangle權限的一般使用者,也可以透過Chrome插件,快速查閱特定網頁在社群平台上的重要傳播節點。

透過CrowdTangle的輔助,我們觀察到從2018年至2019年,「密訊」這個平台的文章持續大量流入泛藍粉絲頁及公開社團,其中幾個節點追蹤人數超越10萬人。

https://miro.medium.com/max/60/0*htdAkgVsI6gG9jeZ?q=20
https://miro.medium.com/max/2000/0*htdAkgVsI6gG9jeZ
在CrowdTangle建立了四個觀測清單,用以觀察內容農場文章的擴散。

接著,我們將這些影響力大的節點列入觀察清單,並結合後文的QSearch資料庫交叉比對,逐步擴充、勾勒「密訊」的傳播網絡。CrowdTangle也有下載csv檔的功能,方便記者後續用R & Python 進一步分析。

我們根據下載下來的資料,進一步觀察粉絲專頁、公開社團的貼文特性,發現不少粉絲專頁存在集體發文的行為。

CrowdTangle還有一項「Link Search」的新功能,可以查找特定網域影響力最大、最早、最新的貼文。這項功能除了協助我們確認影響力最大的節點外,也幫助我們觀察Facebook大約是在什麼時間點封鎖某內容農場網域。

工具3、QSearch:社群時代的備份資料庫
QSearch是一個社群監測、議題分析平台工具,定時追蹤台灣超過80萬個公開粉絲專頁,可以回溯2年的貼文。這對報導團隊來說是相當重要的備份線索,由於報導過程中歷經Facebook封鎖特定網域,許多貼文已無法查閱,而許多粉專管理員也可能主動刪文,面對這些狀況,QSearch可以協助記者還原證據和線索。

截至目前,相較CrowdTangle,QSearch平台能讓使用者透過關鍵字進行搜尋,也能藉此找到使用相同小編口吻的協同發文粉專。不過若欲觀察「公開社團」貼文資料,QSearch平台既有功能較無法支持,適合透過CrowdTangle輔助。

二、是誰在創建、經營內容農場?
工具4、 Website Informer / DomainBigData:在網站資訊海撈到大魚
尋找跨國內容農場的幕後推手時,我們從特定幾個內容農場出發,逐步找到 Evan 的 email (如果你現在很疑惑Evan是誰,請走文章通道,認識這位幕後「老闆」) ,為了釐清Evan的事業版圖,我們使用 Website Informer 和 DomainBigData 等網頁資訊查詢工具。

第一種使用方式是輸入網址,它就會返回許多網站基礎資訊,包含登記email、IP位置、網站何時建立等。第二種使用方式是輸入email,它就可以幫我們找到email所有人位置在哪、使用者還有哪些email、分別又建立了哪些網站。

要注意的是,透過這些工具,我們報導所採納的部分,只有哪些網站是透過這個email所建立、網站創建時間為何,其他資訊僅做為參考。這是考量網站IP位置可以偽裝、同樣名稱的網站有可能是註銷之後,由不相干的人重新註冊使用,或販賣網域給他人,所以我們也會用Wayback Machine等其他工具相互驗證。

(這部分工程師也有幫我們查詢,再次感謝工程師們在這次報導中提供很多domain knowledge。)

工具5、Wayback Machine:時光回溯照妖鏡,破解網頁變身術
這個工具就像網頁的照妖鏡一樣,包含網頁樣式在內,過去是什麼顏色、形狀都無所遁形,也看得到網頁原始碼。因為「密訊」與它的分身網站不斷地失效、再生,有些網址已經失效,但透過Wayback Machine工具,我們就像是搭上時光機,得以觀察過去樣貌、貼文來源;Cofacts資料庫裡被查核為不實的文章,許多也已經從原網站移除,對此,我們也用時光機查找,儘量找出原文,並檢視作者究竟是誰。

另外,在做跨國內容網站追蹤時,我們也大量使用Wayback Machine,交叉比對網站過去/現在的名稱、過去/現在第三方服務的辨識ID,觀察有無變化,驗證出這些網站之間的關係。

然而,要能回溯過去的網頁,需要感謝不知名的網友,曾在某個時間點對該網頁進行備份,我們才能找到相關線索。Wayback Machine也有Chrome外掛插件可安裝,遇到欲備份的網頁時,使用者可以快速點擊,收錄至資料庫中。

三、網站背後是否為相同人士經營?
工具6、Google Analytics ID /Google AdSense ID/Taboola Advertising ID:以追蹤碼反向追蹤
這幾個追蹤方法,是由於網站有時候會使用第三方的流量管理、廣告服務,在網頁原始碼裡就得埋進一段script,裡面含有識別用的ID。

確定要以GA ID、AdSense ID作為追蹤工具時,首先我們先去把追蹤碼的格式搞清楚,大致上都是長得像下面表格裡的樣子,其中以紅色加粗的便是辨識ID:GA帳號會是UA-XXXXXXXX-XX,AdSense會是ca-pub-xxxxxxxxxxxxxxxx。

我們發現,這些內容農場只有少部分是用 Google AdSense ,大多都是用 Taboola 廣告(這部分記者採訪Evan時有問過此事,是因為 Google 有封鎖過他們的帳號),因此網頁原始碼裡面我們會同時尋找 GA / AdSense / Taboola 三組辨識碼。

再來,因為我們也同時要備份原始碼作為證據,所以我們也使用 R 抓下整個網頁的原始碼存檔,再從中偵測這些識別ID的位置,然後提取出 ID 存成dataframe。為了核實,我們也再透過人工檢查。

而因為內容農場時常消失、換個名字捲土重來,因此我們也用前一個工具Wayback Machine搭乘時光機確認已消失、或改過名的網站,也意外發現UA-19409266、 UA-59929351兩個GA ID都屬於 Evan 的事業版圖。

(具體一點的說明:我們在比對各網站原始碼時發現,使用同一組Taboola ID的網站們,所埋藏的GA ID有上述兩種;另有部分網站,在2018年使用UA-59929351這組GA ID,但到了2019年,GA ID換成UA-19409266。記者進一步交互比對後,才確認這些網站彼此間的關聯。)

https://miro.medium.com/max/60/0*dScu4msKC351W7Oo?q=20
https://miro.medium.com/max/1548/0*dScu4msKC351W7Oo
在網頁原始碼中,我們可找到埋入的流量監測、廣告服務辨識ID(紅色粗體)。

工具7、PublicWWW:網頁原始碼查詢工具
知道這個查詢工具時,團隊有種相見恨晚的感覺,當時我們已經追到大約五十多個內容網站,也基本上確認這些網站是屬於同一個組織,但因為無法確定找到的是否就是所有,當時也沒想要列舉出全部。

直到發現只要在PublicWWW輸入「UA-XXXXXXXX」,它就會列出所有網頁原始碼裡有這串 GA ID 的網站,而且能下載csv檔,非常方便。我們也透過此工具,一舉抓出 Evan事業版圖下399個網站(如下圖)。

https://miro.medium.com/max/34/1*vW_R-ibUTSGVu-0PTUt8Kw.png?q=20
https://miro.medium.com/max/726/1*vW_R-ibUTSGVu-0PTUt8Kw.png
除了內容農場之外,399個網站也包括新加坡天氣、求職網、匯率計算、情色內容等網站。

四、這些內容是真的嗎?查找不實資訊來源
工具8、Cofacts謠言資料庫
這個事實查核網站大家應該都不陌生,過去幾年他們已累積一定數量的查核案例,可供比對參照。

這次專題報導,我們需要了解「密訊」有哪些被確認的不實訊息,但假如我們要自己查核,時間成本太高了,所以透過Cofacts資料庫,尋找過去有沒有民眾上報要求查證「密訊」文章內容。

過程中,我們使用了兩種方法交互驗證。

第一種方法,因為我們已經透過Ahrefs取得「密訊」全部的反向連結,可檢查其中有無來自Cofacts者,若有便可直接上Cofacts資料庫將查證結果、內容一起抓回。

第二種方法,則是直接搜尋謠言資料庫。

https://miro.medium.com/max/60/0*NTOCGVQaT15bnLSN?q=20
https://miro.medium.com/max/2000/0*NTOCGVQaT15bnLSN
Cofacts謠言資料庫中,「密訊」被查證的文章。

以上這8個就是這次《風向戰爭與它的推手》調查報導中,《報導者》使用到的工具,分享給所有人,有興趣的人可以安裝擴充元件使用看看,也許你的一個回報、一個查核、一個備份,也會是未來某個調查報導的重要養分。

最後和大家分享,報導刊出後,我們無意間又看到2019年發表於《端傳媒》的資訊戰文章,作者林雨蒼透過「專頁儀表板」數據分析,製作一張泛藍/泛綠分享次數最多的網域排行榜,我們報導提到的「密訊」、「鬼島狂新聞」、「閃文聯盟」等都在榜上,可見內容農場的影響力不容小覷。

對抗不實資訊猶如一場耐力賽,面對品質不一、可能摻雜半真半假訊息的農場文章,民眾不可不慎。

※所有版權皆歸報導者所有
本人只是傳播苦海畢業的一條蟲,猶記得大學那年台灣反媒體壟斷的大遊行,那個時候還是學生的我們只能不停地像身邊的人講解媒體識讀,但聽者依然一知半解的回望我們,最後往往只能得出不要相信任何媒體這個結論。
多麼慶幸科技昌明的今日我們能用利用科學的方法去查證真相,在此僅分享給所有的人。
6
分享 2020-01-15

1 个评论

一篇追溯文,今日头条的算法工程师待遇非常好。他们想做现代周汉,形成了信息污染搞脏中文网络文化。

要发言请先登录注册

要发言请先登录注册

发起人

状态

  • 最新活动: 2020-01-17
  • 浏览: 2559