We współpracy z Blockade Labs firma Intel Labs wprowadziła Latent Diffusion for 3D (LDM3D), nowy model wykorzystujący generatywną sztuczną inteligencję do tworzenia realistycznych treści wizualnych 3D.
LDM3D to pierwszy w branży model do tworzenia mapy głębi przy użyciu procesu dyfuzji do tworzenia obrazów 3D z żywymi, wciągającymi widokami 360 stopni.
LDM3D został zaprojektowany, aby zrewolucjonizować tworzenie treści, aplikacje Metaverse i doświadczenia cyfrowe, przekształcając branże, od rozrywki i gier po architekturę i projektowanie.
„Technologia sztucznej inteligencji Genesis ma na celu zwiększenie i ulepszenie ludzkiej kreatywności oraz oszczędność czasu” — mówi Vasudev Lal, naukowiec zajmujący się sztuczną inteligencją/uczeniem maszynowym w Intel Labs.
„Jednak większość obecnych modeli sztucznej inteligencji ogranicza się do generowania obrazów 2D, a bardzo niewiele może generować obrazy 3D z monitów tekstowych”.
„W przeciwieństwie do obecnych modeli stabilnej latentnej dyfuzji, LDM3D umożliwia użytkownikom generowanie obrazu i mapy głębi z danego wektora tekstowego przy użyciu w przybliżeniu takiej samej liczby parametrów”.
„Zapewnia dokładniejszą względną głębię dla każdego piksela w obrazie niż standardowe metody przetwarzania końcowego do szacowania głębi i oszczędza programistom znaczną ilość czasu opracowywania scen” — mówi Lal.
Zaangażowanie firmy Intel w demokratyzację sztucznej inteligencji ma na celu umożliwienie szerszego dostępu do korzyści płynących ze sztucznej inteligencji poprzez otwarty ekosystem.
W przeciwieństwie do obecnych modeli dyfuzji, które generalnie generują tylko obrazy 2D RGB na podstawie monitów tekstowych, LDM3D umożliwia użytkownikom generowanie obrazu i mapy głębi na podstawie danego monitu tekstowego.
Wykorzystując w przybliżeniu taką samą liczbę parametrów jak utajona stabilna dyfuzyjność, LDM3D zapewnia dokładniejszą względną głębię dla każdego piksela obrazu niż standardowe metody przetwarzania końcowego szacowania głębi.
Obrazy i mapy głębi generowane przez LDM3D pozwalają użytkownikom przekształcić tekstowy opis spokojnej tropikalnej plaży, nowoczesnego drapacza chmur lub świata science fiction w szczegółową panoramę 360 stopni.
Ta zdolność do uzyskiwania dogłębnych informacji może natychmiast zwiększyć ogólny realizm i zanurzenie, umożliwiając innowacyjne aplikacje dla branż, od rozrywki i gier po projektowanie wnętrz i wykazy nieruchomości, a także wirtualne muzea i wciągające doświadczenia rzeczywistości wirtualnej (VR).
LDM3D został przeszkolony na zbiorze danych wygenerowanym z 10 000-próbkowego podzbioru bazy danych LAION-400M, która zawiera ponad 400 milionów par adnotacji obrazu. Zespół opisał zestaw treningowy za pomocą modelu szacowania głębokości z gęstym transformatorem predykcyjnym (DPT) (wcześniej opracowanym w Intel Labs).
Model LDM3D został przeszkolony na superkomputerze firmy Intel wyposażonym w procesory Intel Xeon i akceleratory Intel Habana Gaudi AI. Powstały model i potok łączą wygenerowany obraz RGB i mapę głębi, tworząc 360-stopniowe widoki wciągających wrażeń.
Aby zademonstrować potencjał LDM3D, naukowcy z firm Intel i Blockade opracowali DepthFusion, aplikację, która wykorzystuje standardowe obrazy 2D RGB i mapy głębi do tworzenia wciągających i interaktywnych wrażeń wizualnych w zakresie 360 stopni.
DepthFusion wykorzystuje TouchDesigner, wizualny język programowania oparty na węzłach do tworzenia interaktywnych treści multimedialnych w czasie rzeczywistym, do przekształcania komunikatów tekstowych w interaktywne i wciągające wrażenia cyfrowe.
Wprowadzenie LDM3D i DepthFusion toruje drogę dalszym postępom w wizji komputerowej i sztucznej inteligencji z wieloma wyświetlaczami.
Firma Intel będzie nadal badać wykorzystanie generatywnej sztucznej inteligencji w celu zwiększenia ludzkich możliwości i zbudowania solidnego ekosystemu badań i rozwoju sztucznej inteligencji typu open source, który demokratyzuje dostęp do tej technologii.
LDM3D jest odblokowywany przez HuggingFace, umożliwiając naukowcom i praktykom sztucznej inteligencji dalsze ulepszanie tego systemu i dostrajanie go do niestandardowych aplikacji.
„Nieuleczalny myśliciel. Miłośnik jedzenia. Subtelnie czarujący badacz alkoholu. Zwolennik popkultury”.
More Stories
Ding! Christopher Ward ogłasza nowe Bel Canto
Najlepszą reklamą podczas wydarzenia Apple Mac była bezpłatna aktualizacja pamięci RAM dla MacBooka Air
Startup zajmujący się obserwacją Ziemi wychodzi z zapomnienia z 12 milionami dolarów