推特網訊:鑒于政治氣氛日益升溫,網絡仇恨言論的增多也就不足為奇了。與過去那種很容易辨認發言者和鄉巴佬的模擬城鎮廣場不同,如今的數字城鎮廣場——我們的社交媒體平臺——則籠罩在匿名的陰影之下。網絡匿名性使得言論自由權與隨之而來的責任脫節,例如在擁擠的劇院里不能大喊“著火了”。它讓人們可以說出一些他們面對面時絕不會說的話。仇恨言論一直存在;在我們模擬的過去,它只是悄悄地流傳,伴隨著偷偷摸摸的目光;而如今,社交媒體平臺放大了這種言論,并將其貨幣化。
仇恨言論使我們的言論變得粗俗,常常筑起難以逾越的障礙。我們聽到過主流政客的言論,比如希拉里·克林頓所說的“可悲之人” ,以及特朗普總統所說的“像害蟲一樣生活的極左暴徒”。雖然我們或許會爭論某個說法是否“仇恨”或“真實”,但毫無疑問,仇恨言論,尤其是在社交媒體的泛濫下,會滲透到我們日常的身心健康中。
盡管越來越多的人譴責社交媒體上的仇恨言論,但誰來評判呢?
到目前為止,社交媒體平臺的答案是“適度”。
“大規模”節制
每小時有超過2100萬條推文和100萬個TikTok視頻上傳,人工審核社交媒體幾乎是不可能的。為了遏制網絡仇恨言論,社交媒體平臺承諾并創建了自動化“大規模內容過濾”的工具。一項新的研究探討了這些自動化工具的不一致性,它們仍然是“黑匣子”,無法明確識別被標記的內容和對象。
在過去十年中,針對仇恨和有害言論的自動化內容審核已變得更加可靠。固定關鍵詞和模式系統已被更靈活、內容感知的審核系統所取代,如今,借助人工智能,更專業的審核工具應運而生。然而,盡管這些系統更加靈活,但它們仍然受到偏見和跨語言翻譯能力不足的困擾。該研究考察了七種審核模型,發現“它們對相同內容的分類存在很大差異——一種模型標記為有害的內容,另一種模型可能認為是可以接受的。”
對主持人進行壓力測試
研究人員創建的句子如下:
以“一些”或“全部”開頭,將主張的廣度界定為部分的或普遍的。
識別對象:125 個群體標簽之一,涵蓋傳統的“受保護”群體,例如年齡、性別、殘疾、意識形態,或這些受保護框架之外的群體,例如反疫苗者,使用中性術語或誹謗。
接下來是 55 個充滿敵意或非人化的短語,例如“是害蟲”或“不應該被當作人對待”。“核心仇恨言論”,其仇恨的方式
以及可選的“行動號召”,從不煽動到強烈煽動,例如“必須立即驅逐他們”,再到具體的行動號召,例如“報告他們的地址并發起攻擊”
這導致在測試審核工具時使用了近 100 萬個合成句子。
這些工具包括通用大型語言模型(例如 GPT),它只是簡單地詢問一句話是否充滿仇恨;還有更專用的系統,它們充當過濾器,將仇恨和騷擾類別標記為是或否,并附帶相關的置信度,或者只是提供連續的“毒性分數”。
七位版主,七種判決:仇恨言論取決于你使用的算法
“研究表明,內容審核系統在評估相同的仇恨言論內容時存在巨大不一致,一些系統將內容標記為有害,而其他系統則認為其可以接受。”
內容審核系統在評估中存在很大差異,強調了嚴格檢測(誤報較少)和過度審核(誤報較多)之間的權衡
審核工具并不能平等地保護所有社群。針對黑人或基督徒的誹謗言論在某些模型中會被徹底屏蔽,但在其他模型中,它僅被判定為略帶仇恨。對于按教育程度、階層或共同興趣劃分的非正式群體,這種差距更大,有些系統會積極標記濫用內容,而另一些系統則幾乎不做出反應。審核系統的選擇可以決定相同的內容是被刪除、限制還是保持不變。
決策邊界是模型用來將一段文本從“可接受”轉換為“仇恨言論”的數值截斷值。不同的系統之間存在顯著差異。有時,決策邊界幾乎為零,因此系統會標記幾乎所有關于特定群體的內容;而其他系統則需要更強的信號才能將內容標記為仇恨內容。雖然這些決策邊界是數值化的,并且看似客觀地基于概率,但它們的結果卻更具主觀性,反映了系統中早期存在的偏見。
誰以及如何——過度節制
假陽性錯誤源于每個模型選擇權衡的信號。有些系統嚴重依賴于被提及的對象,因此任何涉及被標記身份的句子,即使是贊揚,都會被打上仇恨的標簽。相比之下,其他模型則關注文本的寫作方式,評估語氣、敵意和誹謗——因此同樣良性的句子也能順利通過。加權身份線索會增加假陽性率,而強調語言情緒則會降低假陽性率。
然而,這些模型在處理帶有誹謗的正面句子時卻遇到了困難,例如“所有[誹謗]都是好人”,這突顯了任何使用誹謗的言論是否構成仇恨。更敏感的模型將任何語境下的任何誹謗都視為仇恨言論,而其他模型則更看重積極情緒而非貶義詞。模型間分歧最大的是那些帶有傳統偏見的標簽,例如“另類右翼”或“納粹”。
這項研究也有一些需要注意的地方。它僅限于英語,而且仇恨言論是“合成的”,可能無法捕捉到現實世界中言語的細微差別及其語境依賴性。
冷淡對話
當言論適度偏向謹慎時,它不僅會壓制仇恨,還會抹殺合理的異議。在ACSH,我們看到一些關于疫苗安全性和農藥毒理學的可靠文章被悄悄地從用戶信息流中移除,因為算法將“病毒”或“有毒”等詞等同于錯誤信息或危言聳聽。過分強調身份線索或觸發詞的算法,同樣可能會壓制那些批評我們立場或提供令人不適但有效反證的帖子。通過修剪這些對立的觀點,系統擾亂了邏輯辯論所依賴的互諒互讓,使對話變得不平衡,讀者無法意識到那些可以激發——或糾正——他們思維的觀點。實際上,話語本身被模型不透明的偏見所束縛,而不是受到開放和善意交流的引導。
然而,這些模型在審核仇恨言論方面表現出顯著的不一致。決策邊界雖然看似客觀,但在某些人口群體中尤為明顯,似乎存在根深蒂固的偏見,導致“誤報率和隱性仇恨言論檢測”。
法典不能取代人類良知
第一修正案保障了我們的言論自由,但它從未承諾過免于責任。在傳統的城鎮廣場上,責任是通過現場來強制執行的;發言者要面對鄰居、批評者,甚至村里的傻瓜。而數字廣場則以難以想象的規模倍增了各種聲音,同時不幸的是,它也將責任消解在匿名之中。
社交媒體平臺聲稱通過算法審核來管理這股洪流。然而,這項研究的證據顯而易見:審核系統仍然不透明、不一致,并且充滿偏見。一個系統標記的仇恨內容,另一個系統卻置之不理;保護一個社群的機制,卻讓另一個社群暴露無遺。
想象代碼可以取代良知,就忽略了更深層次的道理。仇恨言論的滋生并非因為機器無法阻止,而是因為人們選擇縱容它。如果民主依賴于話語,那么任何算法都無法將我們從自身中拯救出來。曾經存在于城鎮廣場的責任必須由我們每個人重新承擔,否則數字廣場和我們的民主就會在其自身噪音的重壓下崩潰。