En enklare väg till bättre datorseende | MIT Nyheter

Innan en maskinlärande modell kan utföra en uppgift, som att identifiera cancer i medicinska bilder, måste modellen tränas. Att träna bildklassificeringsmodeller innebär vanligtvis att man visar modellen miljontals exempelbilder samlade i en massiv datauppsättning.

Men att använda riktig bilddata kan ge upphov till praktiska och etiska problem: bilderna kan strida mot upphovsrättslagar, kränka människors integritet eller vara partiska mot en viss ras eller etnisk grupp. För att undvika dessa fallgropar kan forskare använda bildgenereringsprogram för att skapa syntetiska data för modellträning. Men dessa tekniker är begränsade eftersom expertkunskap ofta behövs för att handdesigna ett bildgenereringsprogram som kan skapa effektiv träningsdata.

Forskare från MIT, MIT-IBM Watson AI Lab och på andra ställen tog ett annat tillvägagångssätt. Istället för att designa skräddarsydda bildgenereringsprogram för en viss utbildningsuppgift samlade de en datauppsättning med 21 000 allmänt tillgängliga program från internet. Sedan använde de denna stora samling av grundläggande bildgenereringsprogram för att träna en datorseendemodell.

Dessa program producerar olika bilder som visar enkla färger och texturer. Forskarna kurerade eller ändrade inte programmen, som var och en bestod av bara några rader kod.

Modellerna de tränade med denna stora datauppsättning av program klassificerade bilder mer exakt än andra syntetiskt tränade modeller. Och medan deras modeller underpresterade dem som tränats med riktiga data, visade forskarna att ett ökat antal bildprogram i datamängden också ökade modellens prestanda, vilket avslöjar en väg till att uppnå högre noggrannhet.

“Det visar sig att det faktiskt är bättre att använda massor av program som är okurerade än att använda en liten uppsättning program som folk behöver manipulera. Data är viktiga, men vi har visat att du kan komma ganska långt utan riktiga data”, säger Manel Baradad, en doktorand i elektroteknik och datavetenskap (EECS) som arbetar i Computer Science and Artificial Intelligence Laboratory (CSAIL) och huvudförfattare till uppsatsen som beskriver denna teknik.

Medförfattare inkluderar Tongzhou Wang, en EECS-student i CSAIL; Rogerio Feris, huvudforskare och chef vid MIT-IBM Watson AI Lab; Antonio Torralba, Delta Electronics professor i elektroteknik och datavetenskap och medlem av CSAIL; och senior författare Phillip Isola, docent i EECS och CSAIL; Tillsammans med andra på JPMorgan Chase Bank och Xyla, Inc. Forskningen kommer att presenteras vid konferensen om neurala informationsbehandlingssystem.

Omtänka förträning

Maskininlärningsmodeller är vanligtvis förtränade, vilket innebär att de tränas på en datauppsättning först för att hjälpa dem att bygga parametrar som kan användas för att hantera en annan uppgift. En modell för att klassificera röntgenstrålar kan vara förtränad med hjälp av en enorm datauppsättning av syntetiskt genererade bilder innan den tränas för sin faktiska uppgift med en mycket mindre datauppsättning av riktiga röntgenstrålar.

Dessa forskare visade tidigare att de kunde använda en handfull bildgenereringsprogram för att skapa syntetisk data för modellförträning, men programmen behövde vara noggrant utformade så att de syntetiska bilderna matchade vissa egenskaper hos riktiga bilder. Detta gjorde tekniken svår att skala upp.

I det nya verket använde de istället en enorm datauppsättning av okurerade bildgenereringsprogram.

De började med att samla in en samling av 21 000 bildgenereringsprogram från internet. Alla program är skrivna i ett enkelt programmeringsspråk och består av bara några få kodavsnitt, så de genererar bilder snabbt.

“De här programmen har designats av utvecklare över hela världen för att producera bilder som har några av de egenskaper vi är intresserade av. De producerar bilder som ser ut som abstrakt konst”, förklarar Baradad.

Dessa enkla program kan köras så snabbt att forskarna inte behövde ta fram bilder i förväg för att träna modellen. Forskarna fann att de kunde generera bilder och träna modellen samtidigt, vilket effektiviserar processen.

De använde sin enorma datauppsättning av bildgenereringsprogram för att förträna datorseendemodeller för både övervakade och oövervakade bildklassificeringsuppgifter. Vid övervakat lärande märks bilddata, medan vid oövervakat lärande lär sig modellen att kategorisera bilder utan etiketter.

Förbättrar noggrannheten

När de jämförde sina förtränade modeller med toppmoderna datorseendemodeller som hade förtränats med hjälp av syntetiska data, var deras modeller mer exakta, vilket innebär att de placerade bilder i rätt kategorier oftare. Även om noggrannhetsnivåerna fortfarande var lägre än modeller som tränats på verklig data, minskade deras teknik prestandagapet mellan modeller som tränats på verklig data och de som tränats på syntetisk data med 38 procent.

“Det viktiga är att vi visar att för antalet program du samlar in, skalas prestanda logaritmiskt. Vi mättar inte prestanda, så om vi samlar in fler program skulle modellen prestera ännu bättre. Så det finns ett sätt att utöka vår strategi, säger Manel.

Forskarna använde också varje enskilt bildgenereringsprogram för förträning, i ett försök att avslöja faktorer som bidrar till modellens noggrannhet. De fann att när ett program genererar en mer varierad uppsättning bilder, presterar modellen bättre. De fann också att färgglada bilder med scener som fyller hela duken tenderar att förbättra modellens prestanda mest.

Nu när de har visat framgången med denna förträningsmetod vill forskarna utöka sin teknik till andra typer av data, till exempel multimodala data som inkluderar text och bilder. De vill också fortsätta att utforska sätt att förbättra prestanda för bildklassificering.

“Det finns fortfarande ett gap att sluta med modeller som tränats på riktiga data. Detta ger vår forskning en riktning som vi hoppas att andra kommer att följa, säger han.

.

Leave a Comment

Your email address will not be published. Required fields are marked *