Forskare visar hur nätverksbeskärning kan skeva modeller för djupinlärning

Datavetenskapsforskare har visat att en allmänt använd teknik som kallas neural nätverksbeskärning kan negativt påverka prestandan hos modeller för djupinlärning, detaljerat vad som orsakar dessa prestandaproblem och visat en teknik för att hantera utmaningen.

Deep learning är en typ av artificiell intelligens som kan användas för att klassificera saker, som bilder, text eller ljud. Den kan till exempel användas för att identifiera individer utifrån ansiktsbilder. Dock kräver djupinlärningsmodeller ofta mycket datorresurser för att fungera. Detta innebär utmaningar när en modell för djupinlärning omsätts i praktiken för vissa tillämpningar.

För att möta dessa utmaningar ägnar vissa system sig åt “neurala nätverksbeskärning”. Detta gör den djupa inlärningsmodellen mer kompakt och kan därför fungera samtidigt som den använder färre datorresurser.

“Men vår forskning visar att denna nätverksbeskärning kan försämra förmågan hos modeller för djupinlärning att identifiera vissa grupper”, säger Jung-Eun Kim, medförfattare till en artikel om arbetet och biträdande professor i datavetenskap vid North Carolina State Universitet.

“Till exempel, om ett säkerhetssystem använder djupinlärning för att skanna människors ansikten för att avgöra om de har tillgång till en byggnad, måste djupinlärningsmodellen göras kompakt så att den kan fungera effektivt. Detta kan fungera bra för det mesta, men nätverksbeskärningen kan också påverka djupinlärningsmodellens förmåga att identifiera vissa ansikten.”

I sin nya artikel beskriver forskarna varför nätverksbeskärning negativt kan påverka modellens prestanda vid identifiering av vissa grupper – som litteraturen kallar ”minoritetsgrupper” – och demonstrerar en ny teknik för att hantera dessa utmaningar.

Två faktorer förklarar hur nätverksbeskärning kan försämra prestandan hos modeller för djupinlärning.

I tekniska termer är dessa två faktorer: skillnader i gradientnormer mellan grupper; och skillnader i hessiska normer förknippade med felaktigheter i en grupps data. Rent praktiskt innebär detta att modeller för djupinlärning kan bli mindre exakta när det gäller att känna igen specifika kategorier av bilder, ljud eller text. Specifikt kan nätverksbeskärningen förstärka noggrannhetsbrister som redan fanns i modellen.

Till exempel, om en modell för djupinlärning är tränad att känna igen ansikten med hjälp av en datauppsättning som inkluderar ansikten på 100 vita personer och 60 asiatiska personer, kan den vara mer exakt när det gäller att känna igen vita ansikten, men kan fortfarande uppnå tillräcklig prestanda för att känna igen asiatiska ansikten . Efter nätverksbeskärning är det mer sannolikt att modellen inte kan känna igen vissa asiatiska ansikten.

“Bristen kanske inte märktes i den ursprungliga modellen, men eftersom den förstärks av nätverksbeskärningen kan bristen bli märkbar”, säger Kim.

“För att mildra detta problem har vi visat ett tillvägagångssätt som använder matematiska tekniker för att utjämna grupperna som modellen för djupinlärning använder för att kategorisera dataprover,” säger Kim. “Med andra ord, vi använder algoritmer för att ta itu med gapet i noggrannhet mellan grupper.”

I tester visade forskarna att användningen av deras begränsningsteknik förbättrade rättvisan hos en modell för djupinlärning som hade genomgått nätverksbeskärning, vilket i huvudsak återställde den till precisionsnivåer före beskärningen.

“Jag tror att den viktigaste aspekten av detta arbete är att vi nu har en mer grundlig förståelse för exakt hur nätverksbeskärning kan påverka prestandan hos modeller för djupinlärning för att identifiera minoritetsgrupper, både teoretiskt och empiriskt”, säger Kim. “Vi är också öppna för att arbeta med partners för att identifiera okända eller förbisedda effekter av modellreduktionstekniker, särskilt i verkliga tillämpningar för modeller för djupinlärning.”

Uppsatsen, “Pruning Has a Disparate Impact on Model Precision”, kommer att presenteras vid den 36:e konferensen om neurala informationsbehandlingssystem (NeurIPS 2022), som hålls i november. 28-dec. 9 i New Orleans. Första författare till uppsatsen är Cuong Tran från Syracuse University. Tidningen var medförfattare av Ferdinando Fioretto från Syracuse och av Rakshit Naidu från Carnegie Mellon University.

Arbetet utfördes med stöd från National Science Foundation, under anslag SaTC-1945541, SaTC-2133169 och CAREER-2143706; samt ett Google Research Scholar Award och ett Amazon Research Award.

-fartygsman-

Kommentar till redaktörerna: Studiesammandraget följer.

“Beskärning har olika inverkan på modellnoggrannhet”

Författare: Cuong Tran och Ferdinando Fioretto, Syracuse University; Jung-Eun Kim, North Carolina State University; och Rakshit Naidu, Carnegie Mellon University

Presenteras: nov. 28-dec. 9, 36:e konferensen om neurala informationsbehandlingssystem (NeurIPS 2022)

Abstrakt: Nätverksbeskärning är en allmänt använd komprimeringsteknik som avsevärt kan skala ner överparameteriserade modeller med minimal förlust av noggrannhet. Detta dokument visar att beskärning kan skapa eller förvärra olika effekter. Uppsatsen belyser de faktorer som orsakar sådana skillnader, och föreslår skillnader i gradientnormer och avstånd till beslutsgränser över grupper för att vara ansvariga för denna kritiska fråga. Den analyserar dessa faktorer i detalj, ger både teoretiskt och empiriskt stöd, och föreslår en enkel, men effektiv, lösning som mildrar de olika effekterna orsakade av beskärning.

Leave a Comment

Your email address will not be published. Required fields are marked *