Använda ljud för att modellera världen | MIT Nyheter

Föreställ dig de blomstrande ackorden från en piporgel som ekar genom den kavernösa helgedomen i en massiv stenkatedral.

Ljudet som en katedralbesökare kommer att höra påverkas av många faktorer, inklusive orgelns placering, var lyssnaren står, om några kolonner, bänkar eller andra hinder står mellan dem, vad väggarna är gjorda av, placeringen av fönster eller dörröppningar etc. Att höra ett ljud kan hjälpa någon att föreställa sig sin omgivning.

Forskare vid MIT och MIT-IBM Watson AI Lab undersöker användningen av rumslig akustisk information för att hjälpa maskiner att bättre föreställa sig sina miljöer också. De utvecklade en maskininlärningsmodell som kan fånga hur något ljud i ett rum kommer att fortplanta sig genom utrymmet, vilket gör att modellen kan simulera vad en lyssnare skulle höra på olika platser.

Genom att noggrant modellera akustiken i en scen kan systemet lära sig den underliggande 3D-geometrin i ett rum från ljudinspelningar. Forskarna kan använda den akustiska informationen som deras system fångar för att skapa korrekta visuella renderingar av ett rum, på samma sätt som hur människor använder ljud när de uppskattar egenskaperna hos sin fysiska miljö.

Utöver dess potentiella tillämpningar i virtuell och förstärkt verklighet, kan denna teknik hjälpa artificiell intelligens att utveckla bättre förståelser av världen omkring dem. Till exempel, genom att modellera de akustiska egenskaperna hos ljudet i sin omgivning, kan en undervattensutforskningsrobot känna av saker som är längre bort än vad den skulle kunna med enbart syn, säger Yilun Du, doktorand vid institutionen för elektroteknik och datavetenskap ( EECS) och medförfattare till en artikel som beskriver modellen.

“De flesta forskare har hittills bara fokuserat på modellering av syn. Men som människor har vi multimodal uppfattning. Inte bara synen är viktig, ljudet är också viktigt. Jag tror att det här arbetet öppnar upp en spännande forskningsriktning för att bättre använda ljud för att modellera världen, säger Du.

Med Du på tidningen är huvudförfattaren Andrew Luo, en student vid Carnegie Mellon University (CMU); Michael J. Tarr, Kavčić-Moura professor i kognitiv och hjärnvetenskap vid CMU; och seniorförfattarna Joshua B. Tenenbaum, professor vid MIT:s avdelning för hjärn- och kognitiva vetenskaper och medlem av Computer Science and Artificial Intelligence Laboratory (CSAIL); Antonio Torralba, Delta Electronics professor i elektroteknik och datavetenskap och medlem av CSAIL; och Chuang Gan, en ledande forskningsanställd vid MIT-IBM Watson AI Lab. Forskningen kommer att presenteras vid konferensen om neurala informationsbehandlingssystem.

Ljud och bild

Inom datorseendeforskning har en typ av maskininlärningsmodell som kallas en implicit neural representationsmodell använts för att generera jämna, kontinuerliga konstruktioner av 3D-scener från bilder. Dessa modeller använder neurala nätverk, som innehåller lager av sammankopplade noder, eller neuroner, som bearbetar data för att slutföra en uppgift.

MIT-forskarna använde samma typ av modell för att fånga hur ljud färdas kontinuerligt genom en scen.

Men de fann att visionmodeller drar nytta av en egenskap som kallas fotometrisk konsistens som inte gäller ljud. Om man tittar på samma objekt från två olika platser ser objektet ungefär likadant ut. Men med ljud, byt plats och ljudet man hör kan vara helt annorlunda på grund av hinder, avstånd osv. Detta gör det mycket svårt att förutsäga ljud.

Forskarna övervann detta problem genom att införliva två egenskaper hos akustik i sin modell: ljudets ömsesidiga karaktär och påverkan av lokala geometriska egenskaper.

Ljud är ömsesidigt, vilket innebär att om källan till ett ljud och en lyssnare byter position, är det personen hör oförändrat. Dessutom är det man hör i ett visst område starkt påverkat av lokala särdrag, såsom ett hinder mellan lyssnaren och ljudkällan.

För att införliva dessa två faktorer i sin modell, som kallas ett neuralt akustiskt fält (NAF), utökar de det neurala nätverket med ett rutnät som fångar objekt och arkitektoniska särdrag i scenen, som dörröppningar eller väggar. Modellen tar slumpvis punkter på det rutnätet för att lära sig funktionerna på specifika platser.

“Om du föreställer dig att stå nära en dörröppning, är det som mest påverkar det du hör närvaron av den dörröppningen, inte nödvändigtvis geometriska särdrag långt borta från dig på andra sidan rummet. Vi fann att denna information möjliggör bättre generalisering än ett enkelt helt uppkopplat nätverk, säger Luo.

Från att förutsäga ljud till att visualisera scener

Forskare kan mata NAF med visuell information om en scen och några spektrogram som visar hur ett ljudstycke skulle låta när sändaren och lyssnaren befinner sig på målplatser runt om i rummet. Sedan förutsäger modellen hur ljudet skulle låta om lyssnaren flyttar sig till någon punkt i scenen.

NAF matar ut ett impulssvar, som fångar hur ett ljud bör förändras när det fortplantar sig genom scenen. Forskarna tillämpar sedan detta impulssvar på olika ljud för att höra hur dessa ljud bör förändras när en person går genom ett rum.

Till exempel, om en låt spelas från en högtalare i mitten av ett rum, skulle deras modell visa hur det ljudet blir högre när en person närmar sig högtalaren och sedan blir dämpad när de går ut i en intilliggande hall.

När forskarna jämförde sin teknik med andra metoder som modellerar akustisk information, genererade det mer exakta ljudmodeller i varje fall. Och eftersom den lärde sig lokal geometrisk information, kunde deras modell generalisera till nya platser i en scen mycket bättre än andra metoder.

Dessutom fann de att applicering av den akustiska information som deras modell lär sig på en datorseendemodell kan leda till en bättre visuell rekonstruktion av scenen.

“När du bara har en gles uppsättning vyer, kan du använda dessa akustiska funktioner för att till exempel fånga gränser skarpare. Och kanske beror det på att för att exakt återge akustiken i en scen måste du fånga den underliggande 3D-geometrin för den scenen, säger Du.

Forskarna planerar att fortsätta att förbättra modellen så att den kan generaliseras till helt nya scener. De vill också tillämpa denna teknik på mer komplexa impulssvar och större scener, som hela byggnader eller till och med en stad eller stad.

“Denna nya teknik kan öppna upp nya möjligheter att skapa en multimodal uppslukande upplevelse i metaverseapplikationen”, tillägger Gan.

“Min grupp har arbetat mycket med att använda maskininlärningsmetoder för att påskynda akustisk simulering eller modellera akustiken i verkliga scener. Denna artikel av Chuang Gan och hans medförfattare är helt klart ett stort steg framåt i den här riktningen”, säger Dinesh Manocha, Paul Chrisman Iribe professor i datavetenskap och el- och datateknik vid University of Maryland, som inte var involverad i detta. arbete. “Särskilt introducerar denna artikel en trevlig implicit representation som kan fånga hur ljud kan fortplantas i verkliga scener genom att modellera det med ett linjärt tidsinvariant system. Det här arbetet kan ha många applikationer i AR/VR såväl som scenförståelse i verkligheten.”

Detta arbete stöds delvis av MIT-IBM Watson AI Lab och Tianqiao och Chrissy Chen Institute.

.

Leave a Comment

Your email address will not be published. Required fields are marked *