<video id="7plxr"></video><dl id="7plxr"></dl>
<video id="7plxr"><output id="7plxr"><font id="7plxr"></font></output></video>
<video id="7plxr"><output id="7plxr"></output></video>
您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發私信給我在思考中
發送

0

新技術,老問題:NLP領域中沒有被聽到的「聲音」

本文作者:我在思考中 2022-04-18 10:38
導語:你被代表了嗎?

新技術,老問題:NLP領域中沒有被聽到的「聲音」

作者 | Ben Batorsky

編譯|錢磊、Ailleurs

編輯 | 陳彩嫻

受到技術進步和開源數據集的推動,過去十年中人工智能經歷了一次復興,其進步之處主要集中在計算機視覺和自然語言處理(NLP)等領域。ImageNet在2010年制作了一個包含2萬張內容標簽的圖片的公開語料庫。谷歌于2006年發布了萬億詞語料庫(Trillion Word Corpus),并從大量的公共網頁中獲得了n-gram頻率。NLP的進步使得機器翻譯質量大幅提高,數字助理的應用也迅速擴大,諸如“人工智能是新的電力”和“人工智能將取代醫生”之類的言論也越來越多。

像Allen Institute、Hugging Face和Explosion等組織也發布了開放源代碼庫和在大型語言語料庫上預先訓練的模型,這使得NLP領域飛速進展。最近,NLP技術通過發布公共注釋研究數據集和創建公共響應資源促進了對COVID-19的研究。

然而,其實人工智能領域早已形成。艾倫·圖靈(Alan Turing)在1950年就提出了“能思考的機器”的想法,這反映在人們當時對算法能力的研究上,當時人們希望研究出能夠解決一些過于復雜而無法自動化的問題(例如翻譯)的算法。在接下來的十年里,投資人看好 AI 研究并投入了大量資金,使得翻譯、物體識別和分類等研究獲得了很大進步。到了1954年,先進的機械詞典已經能夠進行基于詞匯和短語的合理翻譯。在一定條件下,計算機可以識別并解析莫爾斯電碼。然而,到了20世紀60年代末,這些研究明顯受到限制,實際用途有限。數學家詹姆斯·萊特希爾(James Lighthill)在1973年發表的一篇論文中指出,在將自己研究的系統應用于現實世界中的問題時,人工智能研究人員無法處理各種因素的“組合爆炸”。社會上批評聲不斷,投入資金日益枯竭,人工智能進入了第一個“冬天”,開發基本上停滯不前。

新技術,老問題:NLP領域中沒有被聽到的「聲音」

圖注:AI 的發展時間線

在過去的幾十年里,人們對人工智能的興趣又復蘇了,技術也突飛猛進。NLP最近的研究熱點主要與基于 Transformer 的架構有關。然而實際應用的問題仍然值得提出,因為人們對于“這些模型真正在學習什么”感到擔憂。2019年的一項研究使用BERT來解決論證理解(argument comprehension)的困難挑戰,該模型必須根據一系列事實來確定一個說法是否合理。BERT的表現達到了SOTA,但進一步的研究發現,該模型利用的是語言中的特定線索,而這些線索與論證的“推理”無關。

有時研究員能夠在應用算法前就解決好系統里的一切問題,但有時AI系統還是會帶有其不應有的學習模式。一個典型例子是COMPAS算法,這種算法在佛羅里達州用來確定一個罪犯是否會再次犯罪。ProPublica 在2016年的一項調查發現,這種算法預估黑人被告比白人被告犯下暴力犯罪的可能性高出77%。更令人擔憂的是,高達48%再次犯罪的白人被告會被該算法標記為低風險,而黑人只有28%,兩者相差20%。由于該算法是專用算法,其可能利用的線索的透明度有限。但由于這種算法當中不同種族之間的差異如此明顯,這表明該算法“眼中”有種族不平等的嫌疑,這既不利于算法自身的性能,也不利于司法系統。

新技術,老問題:NLP領域中沒有被聽到的「聲音」

圖注:COMPAS算法的應用

在人工智能領域,這種高調的失敗并不少見。亞馬遜最近廢除了一種人工智能招聘算法,因為這種算法更有可能推薦男性擔任技術職位,其原因可能是該算法利用了以往的招聘模式。而最頂尖的機器翻譯也經常會遇到性別不平等問題和語言資源不足的問題。

現代NLP的缺陷有很多來由。本文將專注于幾個代表性問題:在數據和NLP模型的發展中,什么人或物被代表了?這種不平等的代表是如何導致NLP技術利益的不平等分配的?



1

”就一定“”?

一般來說,機器學習模型,尤其是深度學習模型,數據越多,其表現就會越好。Halevy等人(2009)解釋說,對于翻譯任務來說,與比較小的數據集上訓練的更復雜的概率模型相比,在大型數據集上訓練的簡單模型的表現更好。Sun等人在2017年也重新審視了機器學習可擴展性的想法,指出視覺任務的性能隨著提供的示例數量呈對數增長。

人工智能從業者已將這一原則牢記于心,特別是在NLP研究中。自監督目標的出現,如BERT的掩碼語言模型(該模型可以根據上下文學習預測單詞),基本上使整個互聯網都可以用于模型訓練。2019年的原始BERT模型是在16 GB的文本數據上訓練的,而近期的模型,如GPT-3(2020)是在570 GB的數據上訓練的(從45 TB的CommonCrawl中過濾)。Bender等人(2021)將“數據越多越好”這一格言作為模型規模增長背后的驅動思想。但他們的文章引起我的一個思考:這些大型數據集中包含了什么思維?

新技術,老問題:NLP領域中沒有被聽到的「聲音」

圖注:語言模型的規模隨時間的推移而增大

Wikipedia是BERT、GPT和許多其他語言模型的來源。但Wikipedia研究發現,其編輯所代表的觀點存在問題。大約90%的文章編輯是男性,他們往往是來自發達國家的受過正規教育的白人。他們的身份可能會對維基百科的內容產生影響,比如只有17%的傳記是關于女性的,可是被編輯提名刪除的傳記中卻有41%是關于女性的,女性傳記被刪除內容明顯高于常規比例。

NLP模型的另一個主要來源是Google News,包括原始的word2vec算法。從歷史上看,新聞編輯室一直由白人男性主導,這種模式在過去十年中沒有多大改變。實際上,在過去幾十年,這種差異變得更大,這意味著當模型使用舊的新聞數據集時,這種被代表的問題只會變得更糟。

此外,互聯網用戶傾向于年輕、高收入和白人。GPT模型的來源之一CommonCrawl使用了Reddit的數據,Reddit有67%的用戶是男性,70%是白人。Bender等人(2021)指出,GPT-2這樣的模型有包容/排斥方法,可能會刪除代表特定社區的語言(例如通過排除潛在的冒犯性詞匯,就會將代表LGBTQ群體的語言排除在外)。

當前NLP中的許多先進性能都需要大型數據集,這種對數據如饑似渴的勁頭已經蓋過了人們對數據中所代表的觀點看法的關注。然而,從上面的證據可以清楚地看出,有些數據源并不是“中立的”,反而放大了那些歷史上、在社會上占據主導地位的人的聲音。

而且,即便是有缺陷的數據源也不能平等地用于模型開發。絕大多數標記和非標記數據僅以7種語言存在,約占所有使用者的1/3。這使得世界上其他2/3的國家無法達到這種表現。為了彌補這一差距,NLP研究人員探索了在高資源語言中預訓練的BERT模型和低資源語言微調(通常稱為Multi-BERT),并使用“適配器”跨語言遷移學習。但是通常來說,這些跨語言方法的表現要比單語言方法差。

這些模型很難跨語言泛化,這一事實可能指向一個更大的問題。喬希等人(2021年)這樣解釋:“NLP系統接受訓練和測試的少數幾種語言通常是相關的……這會導致形成一種類型學的回聲室。因此,我們的NLP系統從未看到過絕大多數類型多樣化的語言現象?!?/span>

新技術,老問題:NLP領域中沒有被聽到的「聲音」

The State and Fate of Linguistic Diversity and Inclusion in the NLP World

圖注:語言多樣性和包容性在自然語言處理領域的現狀和命運

新技術,老問題:NLP領域中沒有被聽到的「聲音」

圖注:語言多樣性和包容性在自然語言處理領域的現狀和命運

如上所述,這些系統非常擅長挖掘語言中的線索。因此,它們很可能是在利用一組特定的語言模式,所以當這些系統應用于資源較低的語言時,性能會崩潰。



2

輸入的是垃圾,輸出的也是垃圾

在上文中,我描述了現代NLP數據集和模型是如何為一組特定的視角「代言」的,這些視角往往是白人、男性和英語使用者的視角。但是,每一個數據集都必須從它的來源入手,解決數據代表的不均衡問題,比如ImageNet 在2019年的更新中刪除了60萬張圖像。這種調整不僅僅是為了統計的穩健性,也是對那些傾向于對女性和有色人種使用性別歧視或種族主義標簽的模型的一種回應。

新技術,老問題:NLP領域中沒有被聽到的「聲音」

圖注:一位Twitter用戶在基于ImageNet的模型所生成的圖像標簽中發現偏見

無論我上傳什么樣的圖片,使用擁有2500個標簽的AI來進行分類的ImageNet Roulette,都會把我看成是「Black」(黑人)、「Black African」(非裔黑人)、「Negroid」(黑色人種的)、「Negro」(黑人)。

其它可能出現的標簽還有「Doctor」(醫生)、「Parent」(父親)、「Handsome」(帥氣的)。

所有的模型都會出錯,所以在決定是否使用一個模型時,總是要權衡風險和收益。為了便于對這種風險效益進行評估,我們可以使用現有的常用性能指標,來獲得「錯誤」的發生頻率,比如準確率。但是我們非常缺乏了解的是,這些錯誤是如何分布的?如果一個模型在一個群體中的表現不如另一個群體,這意味著該模型可能會讓一個群體受益,而犧牲另一個群體的利益。

我把這種不平等的風險收益分配稱為「偏見」。統計偏差被定義為“結果的期望值與被估計的真正潛在定量參數之間的差異”。機器學習中存在許多類型的偏差,但我會主要討論“歷史偏差”和“表征偏差”。歷史偏差是指世界上已經存在的偏差和社會技術問題在數據中得到的反映。例如,當一個在ImageNet上訓練的模型輸出種族主義或性別歧視標簽時,它是在復制訓練數據的種族主義和性別歧視。表征偏差是由我們從總體中定義和抽樣的方式造成的。因為我們的訓練數據來自于一個特定群體的視角,因而我們期望訓練出的模型會代表這個群體的視角。

在NLP領域,存在于詞嵌入模型word2vec和GloVe中的偏見已經被深入研究。這些模型是許多下游任務的基礎,它們提供包含句法和語義信息的單詞表示。它們都基于自監督技術,根據上下文來對單詞進行表示。如果這些表示反映了一個詞的真正“意義”,那么我們可以想象,與職業相關的詞語(如“工程師”或“管家”)在性別和種族上具有中立性,因為職業類型并不與特定人群關聯起來。

然而,Garg等人(2019)發現,職業詞匯的表示并非性別中立或種族中立的。與男性性別詞匯相比,“管家”這類職業詞匯與女性性別詞匯(如“she”、“her”)關聯更強,而“工程師”這類職業的嵌入詞則更接近男性性別詞匯。這些問題還延伸到了種族上,與西班牙裔有關的詞匯更接近于“管家”,而與亞洲人有關的詞匯與“教授”或“化學家”更接近。

新技術,老問題:NLP領域中沒有被聽到的「聲音」

圖注:該表顯示了分別與西班牙裔、亞裔、白人三個種族最密切相關的十大職業類型。引自Garg等(2019)論文“Word embeddings quantify 100 years of gender and ethnic stereotypes”(《詞嵌入量化100年來的性別和種族刻板印象》)。

這些問題也存在于大型的語言模型中。比如,Zhao等人(2019)的工作表明,ELMo嵌入把性別信息納入到職業術語中,并且對男性的性別信息編碼比對女性做得更好。Sheng等人(2019)的工作也發現,在使用GPT-2來對完成含有人口統計信息(即性別、種族或性取向)的句子時,會對典型的邊緣化群體(即女性、黑人和同性戀者)產生偏見性結果。

新技術,老問題:NLP領域中沒有被聽到的「聲音」

圖注:該表顯示了用OpenAI的GPT-2在給定的不同提示下生成的文本示例。引自Sheng等(2019)論文“The Woman Worked as a Babysitter: On Biases in Language Generation”(《當保姆的女人:論語言生成中的偏見》)。

詞嵌入模型ELMo和GPT-2,都是在來自互聯網的不同數據集上進行訓練的。如上所述,互聯網上所代表的觀點往往來自那些在歷史上處于優勢地位并獲得更多媒體關注的人。這些觀點很可能是偏見問題的根源,因為模型已經內化了那些有偏見的觀點。正如Ruha Benjamin在他的《追逐科技》(Race After Technology)一書中所言:

「將世界的美、丑和殘忍喂給AI系統卻期望它只反映美,這是一種幻想?!?/span>

這些NLP模型不僅復制了他們所訓練的優勢群體的觀點,而且建立在這些模型上的技術也加強了這些群體的優勢性。如上文所述,目前只有一部分語言擁有數據資源來開發有用的NLP技術(如機器翻譯)。但即使是在那些資源豐富的語言中,如果口音不標準,機器翻譯和語音識別之類的技術也表現不佳。

例如,Koenecke等人(2020年)發現,亞馬遜和谷歌等公司的語音識別軟件對非裔美國人的誤差率幾乎是白人的兩倍。這會造成一些不便,因為谷歌助手(Google Assistant)或Alexa對非標準口音的用戶來說表現得不太好。這也會對一個人的生活造成重大影響,比如移民工人很難與邊境管理人員溝通。因為訓練數據中表現出了偏見,所以可以預想,這些應用程序對具有數據「優勢」的用戶人群的幫助會比其他人群更大。

除了翻譯和口譯,一個流行的NLP使用場景是內容審核/管理。很難找到一個不包含至少一個垃圾郵件檢測訓練的NLP項目。但在現實世界中,內容審核意味著它要決定什么類型的言論是「可以接受的」。研究發現,Facebook和Twitter的算法在審核內容時,對非裔美國用戶內容進行標記的可能性是白人用戶的兩倍。一名非裔美國臉書用戶因為引用了電視劇《親愛的白種人》中的一句臺詞而被凍結了賬戶,而她的白人朋友則沒有受到任何懲罰。

從上面這些例子中,我們可以看到,數據訓練中的代表性不均衡造成了不均衡的后果。這些后果更嚴重地落在了歷史上從新技術中獲益較少的人群(即女性和有色人種)身上。因此,除非對自然語言處理技術的發展和部署作出實質性的改變,否則它不僅不會給世界帶來積極的變化,而且還會加強現有的不平等制度。



2

如何步上“正”軌

我在本文前面提到過,AI 領域現在被炒得很熱,這在歷史上其實已經出現過一次。在20世紀50年代,工業界和政府對這項令人興奮的新技術寄予厚望。但是,當實際的應用開始達不到它的承諾時,人工智能的一個「寒冬」就會來臨,這個領域得到的關注和資金投入都會變少。盡管現代社會受益于免費、廣泛可用的數據集和巨大的處理能力,但如果人工智能仍然只關注全球人口中的一小部分,那么在這次熱潮中,也將很難看到它如何兌現自己的承諾。

對于NLP來說,這種「包容性」需求更加迫切,因為大多數應用程序只關注7種最流行的語言。為此,專家們已經開始呼吁更多地關注低資源語言。DeepMind的科學家Sebastian Ruder在2020年發出了一項呼吁,指出“如果技術只面向標準口音的英語使用者,那么它就無法普及”。計算語言學協會(ACL)最近也宣布了2022年會議的「語言多樣性」分主題。

然而,包容性不應僅僅被視為數據采集問題。2006年,微軟發布了智利土著馬普切人(Mapuche)的語言版本的Windows。然而,這項工作是在沒有馬普切人參與或同意的情況下進行的,馬普切部落的人們一點也沒有覺得自己被微軟的倡議所「接納」,因為微軟未經許可使用他們的語言,他們起訴了微軟。要解決NLP技術覆蓋范圍方面的差距,就需要更多地關注代表性不足的群體。這些群體已經加入了NLP社區,并且已經啟動了他們自己的倡議,以擴大NLP技術的效用。像這樣的舉措,不僅可以將NLP技術應用于更加多樣化的數據集,還可以讓各種語言的母語人士參與該技術的開發。

正如我之前提到的,當前用于確定什么是「最先進」的NLP的指標,在估計一個模型可能會犯多少錯誤方面會很有用。然而,它們并不能衡量這些錯誤在不同人群中是否分布不均(即是否存在偏見)。對此,麻省理工學院的研究人員發布了一個數據集StereSet,用于測量語言模型在多個維度上的偏差。這項工作的結果是一套衡量模型總體表現的指標,以及它與偏好刻板印象關聯的傾向性,這很容易讓它本身成為一個“排行榜”框架。Drivennda在其Deon ethics checklist(Deon倫理清單)中提出了一種更注重過程的方法。

然而,我們仍在處理一些始終困擾著技術的重大問題:進步往往會讓強者受益,并加劇強者與弱者的現有「分野」。要想實現NLP技術的革命性進步,就需要將它變得更好,并與現在不同。Bender等人(2021年)提出了一種更具「價值敏感性」的設計,在這種研究的設計中,可以實現監控哪些觀點被納入,哪些被排除,以及該混合觀點的風險效益計算。因此,「成功」并不在于準確率多高,而是在于技術能否推動體現利益相關者的價值觀。

這是一個非常有力的建議,但這意味著,如果一項倡議不太可能促進關鍵價值觀的進步,那么它可能就不值得追求。Paullada等人(2020年)指出,“一個映射可以被學習并不意味著它有意義”。如上文所舉例,一種算法會被用來確定一個罪犯是否可能再次實施犯罪。據報道,該算法的AUC分數很高,但是,它學到了什么?如上所述,模型是它的訓練數據的產物,因此它很可能會重現司法系統中已經存在的任何一種偏見。這就對這種特殊算法的價值提出了質疑,也對判決算法的大規模使用提出了挑戰。而我們會看到,對價值敏感的設計可能會帶來一種非常不同的方法。

歸功于研究人員、開發人員和整個開源社區的努力,NLP最近取得了令人震驚的進步。從機器翻譯到語音助手,再到病毒研究(如COVID-19),NLP從根本上改變了我們所使用的技術。但要取得進一步的進展,不僅需要整個NLP社區的工作,還需要跨職能團體和學科的工作。我們不應該追求指標上的邊際收益,而應該著眼于真正具有「變革性」的改變,這意味著我們要去理解誰正在被「落在后面」,并在研究中納入他們的價值觀。

參考鏈接:

https://thegradient.pub/nlp-new-old/

https://www.mdpi.com/2072-666X/12/6/665

https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing

https://arxiv.org/pdf/1910.01108.pdf

https://arxiv.org/abs/2004.09095

https://twitter.com/lostblackboy/status/1174112872638689281

新技術,老問題:NLP領域中沒有被聽到的「聲音」

雷峰網(公眾號:雷峰網)

雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。

新技術,老問題:NLP領域中沒有被聽到的「聲音」

分享:
相關文章
最新文章
請填寫申請人資料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說
18禁超污无遮挡无码免费应用
<video id="7plxr"></video><dl id="7plxr"></dl>
<video id="7plxr"><output id="7plxr"><font id="7plxr"></font></output></video>
<video id="7plxr"><output id="7plxr"></output></video>