Intel Labs wprowadza nowy model wdrażania sztucznej inteligencji w 3D

We współpracy z Blockade Labs firma Intel Labs wprowadziła Latent Diffusion for 3D (LDM3D), nowy model wykorzystujący generatywną sztuczną inteligencję do tworzenia realistycznych treści wizualnych 3D.

LDM3D to pierwszy w branży model do tworzenia mapy głębi przy użyciu procesu dyfuzji do tworzenia obrazów 3D z żywymi, wciągającymi widokami 360 stopni.

LDM3D został zaprojektowany, aby zrewolucjonizować tworzenie treści, aplikacje Metaverse i doświadczenia cyfrowe, przekształcając branże, od rozrywki i gier po architekturę i projektowanie.

„Technologia sztucznej inteligencji Genesis ma na celu zwiększenie i ulepszenie ludzkiej kreatywności oraz oszczędność czasu” — mówi Vasudev Lal, naukowiec zajmujący się sztuczną inteligencją/uczeniem maszynowym w Intel Labs.

„Jednak większość obecnych modeli sztucznej inteligencji ogranicza się do generowania obrazów 2D, a bardzo niewiele może generować obrazy 3D z monitów tekstowych”.

„W przeciwieństwie do obecnych modeli stabilnej latentnej dyfuzji, LDM3D umożliwia użytkownikom generowanie obrazu i mapy głębi z danego wektora tekstowego przy użyciu w przybliżeniu takiej samej liczby parametrów”.

„Zapewnia dokładniejszą względną głębię dla każdego piksela w obrazie niż standardowe metody przetwarzania końcowego do szacowania głębi i oszczędza programistom znaczną ilość czasu opracowywania scen” — mówi Lal.

Zaangażowanie firmy Intel w demokratyzację sztucznej inteligencji ma na celu umożliwienie szerszego dostępu do korzyści płynących ze sztucznej inteligencji poprzez otwarty ekosystem.

W przeciwieństwie do obecnych modeli dyfuzji, które generalnie generują tylko obrazy 2D RGB na podstawie monitów tekstowych, LDM3D umożliwia użytkownikom generowanie obrazu i mapy głębi na podstawie danego monitu tekstowego.

Wykorzystując w przybliżeniu taką samą liczbę parametrów jak utajona stabilna dyfuzyjność, LDM3D zapewnia dokładniejszą względną głębię dla każdego piksela obrazu niż standardowe metody przetwarzania końcowego szacowania głębi.

Obrazy i mapy głębi generowane przez LDM3D pozwalają użytkownikom przekształcić tekstowy opis spokojnej tropikalnej plaży, nowoczesnego drapacza chmur lub świata science fiction w szczegółową panoramę 360 stopni.

READ Cotygodniowa ankieta: Sony Xperia 5 IV dostarcza praktycznych argumentów, dlaczego warto ją kupić, prawda?

Ta zdolność do uzyskiwania dogłębnych informacji może natychmiast zwiększyć ogólny realizm i zanurzenie, umożliwiając innowacyjne aplikacje dla branż, od rozrywki i gier po projektowanie wnętrz i wykazy nieruchomości, a także wirtualne muzea i wciągające doświadczenia rzeczywistości wirtualnej (VR).

LDM3D został przeszkolony na zbiorze danych wygenerowanym z 10 000-próbkowego podzbioru bazy danych LAION-400M, która zawiera ponad 400 milionów par adnotacji obrazu. Zespół opisał zestaw treningowy za pomocą modelu szacowania głębokości z gęstym transformatorem predykcyjnym (DPT) (wcześniej opracowanym w Intel Labs).

Model LDM3D został przeszkolony na superkomputerze firmy Intel wyposażonym w procesory Intel Xeon i akceleratory Intel Habana Gaudi AI. Powstały model i potok łączą wygenerowany obraz RGB i mapę głębi, tworząc 360-stopniowe widoki wciągających wrażeń.

Aby zademonstrować potencjał LDM3D, naukowcy z firm Intel i Blockade opracowali DepthFusion, aplikację, która wykorzystuje standardowe obrazy 2D RGB i mapy głębi do tworzenia wciągających i interaktywnych wrażeń wizualnych w zakresie 360 stopni.

DepthFusion wykorzystuje TouchDesigner, wizualny język programowania oparty na węzłach do tworzenia interaktywnych treści multimedialnych w czasie rzeczywistym, do przekształcania komunikatów tekstowych w interaktywne i wciągające wrażenia cyfrowe.

Wprowadzenie LDM3D i DepthFusion toruje drogę dalszym postępom w wizji komputerowej i sztucznej inteligencji z wieloma wyświetlaczami.

Firma Intel będzie nadal badać wykorzystanie generatywnej sztucznej inteligencji w celu zwiększenia ludzkich możliwości i zbudowania solidnego ekosystemu badań i rozwoju sztucznej inteligencji typu open source, który demokratyzuje dostęp do tej technologii.

LDM3D jest odblokowywany przez HuggingFace, umożliwiając naukowcom i praktykom sztucznej inteligencji dalsze ulepszanie tego systemu i dostrajanie go do niestandardowych aplikacji.

Vasya Lebedev

„Nieuleczalny myśliciel. Miłośnik jedzenia. Subtelnie czarujący badacz alkoholu. Zwolennik popkultury”.

Intel Labs wprowadza nowy model wdrażania sztucznej inteligencji w 3D

Emdoor przygotowuje się do zaprezentowania swoich osiągnięć w zakresie nowej technologii sztucznej inteligencji podczas targów Global Sources Mobile Electronics Show 2024.

LinkedIn wykorzystuje Twoje dane do szkolenia Microsoft, OpenAI i jego modeli AI – oto jak to wyłączyć

Zapomnij o Apple Watch Series 10 — Apple Watch Ultra 2 w kolorze Satin Black to smartwatch, który warto mieć

W Polsce odkryto setki artefaktów, w tym hełm celtycki z brązu

Stopy procentowe w Wielkiej Brytanii: Bank Anglii wkrótce ujawni swoją kolejną decyzję

Zdjęcia do „Pasji” rozpoczną się na początku 2025 roku

Bardziej ekologiczne wybory, bystrzejsze umysły: badania łączą zrównoważony rozwój i zdrowie mózgu

Dodaj komentarz Anuluj pisanie odpowiedzi

More Stories