Inom maskininlärning kan syntetisk data erbjuda verkliga prestandaförbättringar | MIT Nyheter

Att lära en maskin att känna igen mänskliga handlingar har många potentiella tillämpningar, som att automatiskt upptäcka arbetare som faller på en byggarbetsplats eller att göra det möjligt för en smart hemrobot att tolka en användares gester.

För att göra detta tränar forskare maskininlärningsmodeller med hjälp av stora datauppsättningar av videoklipp som visar människor utföra handlingar. Men det är inte bara dyrt och mödosamt att samla in och märka miljontals eller miljarder videor, utan klippen innehåller ofta känslig information, som människors ansikten eller registreringsnummer. Att använda dessa videor kan också bryta mot upphovsrätts- eller dataskyddslagar. Och detta förutsätter att videodata är allmänt tillgängliga i första hand – många datauppsättningar ägs av företag och är inte gratis att använda.

Så forskare förvandlas till syntetiska datamängder. Dessa är gjorda av en dator som använder 3D-modeller av scener, objekt och människor för att snabbt producera många olika klipp av specifika handlingar – utan potentiella upphovsrättsproblem eller etiska problem som kommer med verklig data.

Men är syntetisk data lika “bra” som riktig data? Hur bra presterar en modell tränad med dessa data när den ombeds klassificera verkliga mänskliga handlingar? Ett team av forskare vid MIT, MIT-IBM Watson AI Lab och Boston University försökte svara på denna fråga. De byggde en syntetisk datauppsättning med 150 000 videoklipp som fångade ett brett spektrum av mänskliga handlingar, som de använde för att träna maskininlärningsmodeller. Sedan visade de dessa modeller sex datauppsättningar av verkliga videor för att se hur väl de kunde lära sig att känna igen handlingar i dessa klipp.

Forskarna fann att de syntetiskt tränade modellerna presterade ännu bättre än modeller som tränats på riktiga data för videor som har färre bakgrundsobjekt.

Detta arbete kan hjälpa forskare att använda syntetiska datauppsättningar på ett sådant sätt att modeller uppnår högre noggrannhet på verkliga uppgifter. Det kan också hjälpa forskare att identifiera vilka maskininlärningsapplikationer som skulle vara bäst lämpade för träning med syntetiska data, i ett försök att mildra några av de etiska, integritets- och upphovsrättsliga problemen med att använda riktiga datamängder.

“Det slutliga målet med vår forskning är att ersätta riktig dataförträning med syntetisk dataförträning. Det finns en kostnad i att skapa en handling i syntetisk data, men när det väl är gjort kan du generera ett obegränsat antal bilder eller videor genom att ändra pose, belysning etc. Det är skönheten med syntetisk data”, säger Rogerio Feris, huvudforskare och chef vid MIT-IBM Watson AI Lab, och medförfattare till en artikel som beskriver denna forskning.

Tidningen är författad av huvudförfattaren Yo-whan “John” Kim ’22; Aude Oliva, chef för strategiskt industriengagemang vid MIT Schwarzman College of Computing, MIT-chef för MIT-IBM Watson AI Lab och en senior forskare vid Computer Science and Artificial Intelligence Laboratory (CSAIL); och sju andra. Forskningen kommer att presenteras vid konferensen om neurala informationsbehandlingssystem.

Bygga en syntetisk datauppsättning

Forskarna började med att sammanställa en ny datauppsättning med hjälp av tre allmänt tillgängliga datauppsättningar av syntetiska videoklipp som fångade mänskliga handlingar. Deras datauppsättning, kallad Synthetic Action Pre-training and Transfer (SynAPT), innehöll 150 åtgärdskategorier, med 1 000 videoklipp per kategori.

De valde ut så många åtgärdskategorier som möjligt, som att människor vinkade eller faller på golvet, beroende på tillgängligheten av klipp som innehöll ren videodata.

När datamängden väl förbereddes använde de den för att förträna tre maskininlärningsmodeller för att känna igen åtgärderna. Förträning innebär att man tränar en modell för en uppgift för att ge den ett försprång för att lära sig andra uppgifter. Inspirerad av hur människor lär sig – vi återanvänder gammal kunskap när vi lär oss något nytt – kan den förtränade modellen använda parametrarna den redan har lärt sig för att hjälpa den att lära sig en ny uppgift med en ny datauppsättning snabbare och mer effektivt.

De testade de förtränade modellerna med hjälp av sex datauppsättningar av riktiga videoklipp, som var och en fångar klasser av åtgärder som skilde sig från dem i träningsdatan.

Forskarna blev förvånade över att se att alla tre syntetiska modeller överträffade modeller tränade med riktiga videoklipp på fyra av de sex datamängderna. Deras noggrannhet var högst för datauppsättningar som innehöll videoklipp med “låg scenobjektsbias”.

Låg scen-objekt-bias innebär att modellen inte kan känna igen handlingen genom att titta på bakgrunden eller andra objekt i scenen – den måste fokusera på själva handlingen. Till exempel, om modellen har till uppgift att klassificera dykställningar i videoklipp av människor som dyker ner i en pool, kan den inte identifiera en pose genom att titta på vattnet eller plattorna på väggen. Det måste fokusera på personens rörelse och position för att klassificera handlingen.

“I videor med låg scen-objektbias är den temporala dynamiken i handlingarna viktigare än utseendet på objekten eller bakgrunden, och det verkar vara väl fångat med syntetiska data,” säger Feris.

“Hög scen-objektbias kan faktiskt fungera som ett hinder. Modellen kan felklassificera en handling genom att titta på ett objekt, inte själva handlingen. Det kan förvirra modellen”, förklarar Kim.

Ökar prestanda

Utifrån dessa resultat vill forskarna inkludera fler actionklasser och ytterligare syntetiska videoplattformar i framtida arbete, och så småningom skapa en katalog med modeller som har förtränats med hjälp av syntetiska data, säger medförfattaren Rameswar Panda, en forskningsanställd vid MIT -IBM Watson AI Lab.

“Vi vill bygga modeller som har mycket liknande prestanda eller till och med bättre prestanda än de befintliga modellerna i litteraturen, men utan att vara bundna av någon av dessa fördomar eller säkerhetsproblem”, tillägger han.

De vill också kombinera sitt arbete med forskning som syftar till att generera mer exakta och realistiska syntetiska videor, vilket skulle kunna öka modellernas prestanda, säger SouYoung Jin, medförfattare och CSAIL postdoc. Hon är också intresserad av att utforska hur modeller kan lära sig annorlunda när de tränas med syntetisk data.

“Vi använder syntetiska datauppsättningar för att förhindra sekretessproblem eller kontextuella eller sociala fördomar, men vad lär modellen egentligen? Lär den sig något som är opartiskt?” hon säger.

Nu när de har visat denna potentiella användning för syntetiska videor hoppas de att andra forskare kommer att bygga vidare på deras arbete.

“Trots att det finns en lägre kostnad för att erhålla välkommenterade syntetiska data, har vi för närvarande ingen datauppsättning med skalan för att konkurrera med de största kommenterade datauppsättningarna med riktiga videor. Genom att diskutera de olika kostnaderna och problemen med riktiga videor och visa effektiviteten av syntetiska data hoppas vi kunna motivera ansträngningar i denna riktning”, tillägger medförfattaren Samarth Mishra, doktorand vid Boston University (BU).

Ytterligare medförfattare inkluderar Hilde Kuehne, professor i datavetenskap vid Goethe-universitetet i Tyskland och en associerad professor vid MIT-IBM Watson AI Lab; Leonid Karlinsky, forskningsanställd vid MIT-IBM Watson AI Lab; Venkatesh Saligrama, professor vid institutionen för elektro- och datateknik vid BU; och Kate Saenko, docent vid institutionen för datavetenskap vid BU och konsultprofessor vid MIT-IBM Watson AI Lab.

Denna forskning stöddes av Defense Advanced Research Projects Agency LwLL, såväl som MIT-IBM Watson AI Lab och dess medlemsföretag, Nexplore och Woodside.

.

Leave a Comment

Your email address will not be published. Required fields are marked *