We współpracy z Blockade Labs firma Intel Labs wprowadziła Latent Diffusion for 3D (LDM3D), nowy model wykorzystujący generatywną sztuczną inteligencję do tworzenia realistycznych treści wizualnych 3D.
LDM3D to pierwszy w branży model do tworzenia mapy głębi przy użyciu procesu dyfuzji do tworzenia obrazów 3D z żywymi, wciągającymi widokami 360 stopni.
LDM3D został zaprojektowany, aby zrewolucjonizować tworzenie treści, aplikacje Metaverse i doświadczenia cyfrowe, przekształcając branże, od rozrywki i gier po architekturę i projektowanie.
„Technologia sztucznej inteligencji Genesis ma na celu zwiększenie i ulepszenie ludzkiej kreatywności oraz oszczędność czasu” — mówi Vasudev Lal, naukowiec zajmujący się sztuczną inteligencją/uczeniem maszynowym w Intel Labs.
„Jednak większość obecnych modeli sztucznej inteligencji ogranicza się do generowania obrazów 2D, a bardzo niewiele może generować obrazy 3D z monitów tekstowych”.
„W przeciwieństwie do obecnych modeli stabilnej latentnej dyfuzji, LDM3D umożliwia użytkownikom generowanie obrazu i mapy głębi z danego wektora tekstowego przy użyciu w przybliżeniu takiej samej liczby parametrów”.
„Zapewnia dokładniejszą względną głębię dla każdego piksela w obrazie niż standardowe metody przetwarzania końcowego do szacowania głębi i oszczędza programistom znaczną ilość czasu opracowywania scen” — mówi Lal.
Zaangażowanie firmy Intel w demokratyzację sztucznej inteligencji ma na celu umożliwienie szerszego dostępu do korzyści płynących ze sztucznej inteligencji poprzez otwarty ekosystem.
W przeciwieństwie do obecnych modeli dyfuzji, które generalnie generują tylko obrazy 2D RGB na podstawie monitów tekstowych, LDM3D umożliwia użytkownikom generowanie obrazu i mapy głębi na podstawie danego monitu tekstowego.
Wykorzystując w przybliżeniu taką samą liczbę parametrów jak utajona stabilna dyfuzyjność, LDM3D zapewnia dokładniejszą względną głębię dla każdego piksela obrazu niż standardowe metody przetwarzania końcowego szacowania głębi.
Obrazy i mapy głębi generowane przez LDM3D pozwalają użytkownikom przekształcić tekstowy opis spokojnej tropikalnej plaży, nowoczesnego drapacza chmur lub świata science fiction w szczegółową panoramę 360 stopni.
Ta zdolność do uzyskiwania dogłębnych informacji może natychmiast zwiększyć ogólny realizm i zanurzenie, umożliwiając innowacyjne aplikacje dla branż, od rozrywki i gier po projektowanie wnętrz i wykazy nieruchomości, a także wirtualne muzea i wciągające doświadczenia rzeczywistości wirtualnej (VR).
LDM3D został przeszkolony na zbiorze danych wygenerowanym z 10 000-próbkowego podzbioru bazy danych LAION-400M, która zawiera ponad 400 milionów par adnotacji obrazu. Zespół opisał zestaw treningowy za pomocą modelu szacowania głębokości z gęstym transformatorem predykcyjnym (DPT) (wcześniej opracowanym w Intel Labs).
Model LDM3D został przeszkolony na superkomputerze firmy Intel wyposażonym w procesory Intel Xeon i akceleratory Intel Habana Gaudi AI. Powstały model i potok łączą wygenerowany obraz RGB i mapę głębi, tworząc 360-stopniowe widoki wciągających wrażeń.
Aby zademonstrować potencjał LDM3D, naukowcy z firm Intel i Blockade opracowali DepthFusion, aplikację, która wykorzystuje standardowe obrazy 2D RGB i mapy głębi do tworzenia wciągających i interaktywnych wrażeń wizualnych w zakresie 360 stopni.
DepthFusion wykorzystuje TouchDesigner, wizualny język programowania oparty na węzłach do tworzenia interaktywnych treści multimedialnych w czasie rzeczywistym, do przekształcania komunikatów tekstowych w interaktywne i wciągające wrażenia cyfrowe.
Wprowadzenie LDM3D i DepthFusion toruje drogę dalszym postępom w wizji komputerowej i sztucznej inteligencji z wieloma wyświetlaczami.
Firma Intel będzie nadal badać wykorzystanie generatywnej sztucznej inteligencji w celu zwiększenia ludzkich możliwości i zbudowania solidnego ekosystemu badań i rozwoju sztucznej inteligencji typu open source, który demokratyzuje dostęp do tej technologii.
LDM3D jest odblokowywany przez HuggingFace, umożliwiając naukowcom i praktykom sztucznej inteligencji dalsze ulepszanie tego systemu i dostrajanie go do niestandardowych aplikacji.
„Nieuleczalny myśliciel. Miłośnik jedzenia. Subtelnie czarujący badacz alkoholu. Zwolennik popkultury”.
More Stories
Emdoor przygotowuje się do zaprezentowania swoich osiągnięć w zakresie nowej technologii sztucznej inteligencji podczas targów Global Sources Mobile Electronics Show 2024.
LinkedIn wykorzystuje Twoje dane do szkolenia Microsoft, OpenAI i jego modeli AI – oto jak to wyłączyć
Zapomnij o Apple Watch Series 10 — Apple Watch Ultra 2 w kolorze Satin Black to smartwatch, który warto mieć