亚洲精品无码AⅤ片青青在线观看_国产在线播放不卡一区二区三区_无码中文字幕视频一区二区三区_久久夜色精品亚洲av三区_国产综合欧美无毒不卡怡红院

?
投資 干貨 消費(fèi) 評(píng)論 學(xué)院 滾動(dòng)
風(fēng)投 科技 創(chuàng)業(yè) 業(yè)內(nèi) 要聞
確保強(qiáng)大的機(jī)器學(xué)習(xí)模型中后門的安全
發(fā)布日期: 2023-06-29 10:06:22 來源: 萬能網(wǎng)

軟件系統(tǒng)就在我們身邊——從計(jì)算機(jī)操作系統(tǒng)到搜索引擎再到工業(yè)應(yīng)用中使用的自動(dòng)化。所有這一切的核心是數(shù)據(jù),數(shù)據(jù)用于機(jī)器學(xué)習(xí)(ML)組件,這些組件可用于各種應(yīng)用,包括自動(dòng)駕駛汽車和大型語言模型(LLM)。由于許多系統(tǒng)都依賴于機(jī)器學(xué)習(xí)組件,因此保證其安全性和可靠性非常重要。


(資料圖)

對(duì)于使用魯棒優(yōu)化方法訓(xùn)練的ML模型(魯棒ML模型),其針對(duì)各種攻擊的有效性尚不清楚。主要攻擊媒介的一個(gè)例子是后門中毒,它指的是輸入模型的訓(xùn)練數(shù)據(jù)受到損害。在標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)模型中檢測(cè)后門攻擊的技術(shù)是存在的,但穩(wěn)健的模型需要不同的后門攻擊檢測(cè)方法,因?yàn)樗鼈兊男袨榕c標(biāo)準(zhǔn)模型不同,并且持有不同的假設(shè)。

新加坡科技設(shè)計(jì)大學(xué)(SUTD)信息系統(tǒng)技術(shù)與設(shè)計(jì)(ISTD)支柱部門助理教授SudiptaChattopadhyay博士旨在彌合這一差距。

在《計(jì)算機(jī)與安全》雜志上發(fā)表的研究“在穩(wěn)健的機(jī)器學(xué)習(xí)模型中實(shí)現(xiàn)后門攻擊和防御”。Chattopadhyay教授和SUTD研究人員研究了如何在稱為圖像分類器的特定ML組件中注入魯棒模型并防御后門攻擊。具體來說,所研究的模型是使用最先進(jìn)的投影梯度下降(PGD)方法進(jìn)行訓(xùn)練的。

后門問題既緊迫又危險(xiǎn),特別是考慮到當(dāng)前軟件管道的開發(fā)方式。Chattopadhyay表示:“現(xiàn)在沒有人從頭開始開發(fā)ML模型管道和數(shù)據(jù)收集。他們可能從互聯(lián)網(wǎng)上下載訓(xùn)練數(shù)據(jù),甚至使用預(yù)訓(xùn)練的模型。如果預(yù)訓(xùn)練的模型或數(shù)據(jù)集中毒,生成的軟件,使用這些模型將是不安全的。通常,只需要1%的數(shù)據(jù)中毒就可以創(chuàng)建后門?!?/p>

后門攻擊的困難在于只有攻擊者知道中毒模式。用戶無法通過此中毒模式來識(shí)別他們的ML模型是否已被感染。

“這個(gè)問題的難度讓我們著迷。我們推測(cè)后門模型的內(nèi)部結(jié)構(gòu)可能與干凈模型不同,”Chattopadhyay說。

為此,Chattopadhyay研究了穩(wěn)健模型的后門攻擊,發(fā)現(xiàn)它們非常容易受到攻擊(成功率67.8%)。他還發(fā)現(xiàn),中毒訓(xùn)練集會(huì)為中毒類創(chuàng)建混合輸入分布,從而使魯棒模型能夠?qū)W習(xí)特定預(yù)測(cè)類的多個(gè)特征表示。相比之下,干凈的模型只會(huì)學(xué)習(xí)特定預(yù)測(cè)類別的單個(gè)特征表示。

Chattopadhyay與其他研究人員一起利用這一事實(shí)開發(fā)了AEGIS,這是第一個(gè)用于經(jīng)過PGD訓(xùn)練的穩(wěn)健模型的后門檢測(cè)技術(shù)。AEGIS分別使用t-分布式隨機(jī)鄰域嵌入(t-SNE)和均值平移聚類作為降維技術(shù)和聚類方法,能夠檢測(cè)類中的多個(gè)特征表示并識(shí)別受后門感染的模型。

AEGIS的運(yùn)行分為五個(gè)步驟-(1)使用算法生成翻譯圖像,(2)從干凈訓(xùn)練和干凈/后門翻譯圖像中提取特征表示,(3)通過t-SNE減少提取特征的維度,(4)采用均值平移來計(jì)算減少的特征表示的聚類,并且(5)對(duì)這些聚類進(jìn)行計(jì)數(shù)以確定模型是否受后門感染或干凈。

如果模型中有兩個(gè)集群(訓(xùn)練圖像和翻譯圖像),則AEGIS會(huì)將該模型標(biāo)記為干凈。如果有兩個(gè)以上的集群(訓(xùn)練圖像、干凈的翻譯圖像和有毒的翻譯圖像),則AEGIS會(huì)將此模型標(biāo)記為可疑且受后門感染。

此外,AEGIS有效檢測(cè)了91.6%的后門感染魯棒模型,誤報(bào)率僅為11.1%,顯示出其高效性。由于即使是標(biāo)準(zhǔn)模型中頂級(jí)的后門檢測(cè)技術(shù)也無法在魯棒模型中標(biāo)記后門,因此AEGIS的開發(fā)非常重要。需要注意的是,AEGIS專門用于檢測(cè)穩(wěn)健模型中的后門攻擊,而在標(biāo)準(zhǔn)模型中則無效。

除了能夠在穩(wěn)健的模型中檢測(cè)后門攻擊之外,AEGIS還非常高效。與需要數(shù)小時(shí)到數(shù)天才能識(shí)別后門感染模型的標(biāo)準(zhǔn)后門防御相比,AEGIS平均只需要5到9分鐘。未來,Chattopadhyay的目標(biāo)是進(jìn)一步完善AEGIS,使其能夠處理不同且更復(fù)雜的數(shù)據(jù)分布,以防御除后門攻擊之外的更多威脅模型。

Chattopadhyay承認(rèn)當(dāng)今環(huán)境下人工智能(AI)的熱度,表示:“我們希望人們意識(shí)到與人工智能相關(guān)的風(fēng)險(xiǎn)。ChatGPT等由法學(xué)碩士支持的技術(shù)正在流行,但存在巨大風(fēng)險(xiǎn),后門攻擊只是其中之一。通過我們的研究,我們的目標(biāo)是實(shí)現(xiàn)值得信賴的人工智能的采用?!?/p>

關(guān)鍵詞:
24小時(shí)熱點(diǎn) 精彩推薦
資訊新聞
?