Biegowelove.pl

informacje o Polsce. Wybierz tematy, o których chcesz dowiedzieć się więcej

Model AI VLOGGER AI firmy Google może tworzyć awatary wideo ze zdjęć – co może pójść nie tak?

google-2024-vlogger-spalsh-image.png

VLOGGER może wykonać pojedyncze zdjęcie danej osoby i stworzyć klipy w wysokiej rozdzielczości o różnej długości, z precyzyjną mimiką i ruchami ciała w mgnieniu oka, wykraczając poza dotychczasowe typy oprogramowania „gadającej głowy”.

Google

Społeczność sztucznej inteligencji (AI) stała się tak dobra w tworzeniu fałszywych gifów — spójrz na wprowadzoną w zeszłym miesiącu Sorę OpenAI z jej fantastycznymi lotami wyobraźni — że trzeba zadać intelektualne i praktyczne pytanie: Co? Co powinniśmy zrobić z tymi wszystkimi filmami?

Również: OpenAI przedstawia swój model konwersji tekstu na wideo, a rezultaty są zdumiewające.Sami zobaczcie

Kontroluj je za pomocą naszego narzędzia VLOGGER – odpowiedział w tym tygodniu badacz Google Enrique Corona i współpracownicy. VLOGGER może tworzyć wideo HD rozmawiających ludzi na podstawie jednego obrazu. Co najważniejsze, VLOGGER może animować wideo na podstawie próbki mowy, co oznacza, że ​​technologia ta może animować filmy jako kontrolowane podobieństwo osoby – „awatar” w wysokiej rozdzielczości.

To narzędzie może umożliwić wszelkiego rodzaju kreatywność. Mówiąc prościej, zespół Corona sugeruje, że VLOGGER może mieć duży wpływ na awatary działu pomocy technicznej, ponieważ bardziej realistycznie wyglądający, sztucznie mówiący ludzie mogą „kultywować empatię”. Wskazują, że technologia ta mogłaby „umożliwić zupełnie nowe zastosowania, takie jak ulepszona komunikacja online, edukacja lub osobiści wirtualni asystenci”.

VLOGGER może także wytyczyć nowe granice w postaci deepfake’ów, podobizny przypominającej życie, które mówią i robią rzeczy, których prawdziwa osoba nigdy by nie zrobiła. Zespół Corona zamierza uwzględnić w dodatkowych materiałach pomocniczych wpływ społeczny VLOGGERA. Jednak ten materiał nie jest dostępny Na stronie projektu w GitHubie. ZDNET skontaktował się z firmą Corona, aby zapytać o materiały pomocnicze, ale nie otrzymał odpowiedzi w momencie publikacji.

Również: Naukowcy twierdzą, że w miarę rozprzestrzeniania się agentów sztucznej inteligencji zwiększa się również ryzyko

Jak opisano w białej księdze „VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis”, zespół Corony zamierza wyjść poza niedokładności najnowocześniejszych awatarów. „Tworzenie realistycznych filmów przedstawiających ludzi jest nadal złożone i pełne artefaktów” – napisał zespół Corona.

Zespół zauważył, że awatary na filmie często odcinały ciało i dłonie, ukazując jedynie twarz. VLOGGER może pokazać pełny tors za pomocą ruchów rąk. Inne narzędzia zazwyczaj charakteryzują się ograniczonymi różnicami w wyrazie twarzy lub pozach, zapewniając jedynie podstawową synchronizację ust. VLOGGER może tworzyć „wideo o wysokiej rozdzielczości przedstawiające ruchy głowy i górnej części ciała […] Charakteryzuje się bardzo różnorodną mimiką i gestami” i jest „pierwszym sposobem na wygenerowanie mówiących, animowanych ludzi na podstawie mowy”.

Jak wyjaśnił zespół badawczy: „To w szczególności automatyzacja i realizm behawioralny [are] Cel, do którego dążymy w tej pracy: VLOGGER to multimodalny interfejs dla ucieleśnionego agenta konwersacyjnego, wyposażony w dźwięk i animowaną reprezentację wizualną, charakteryzujący się złożoną mimiką i zwiększonym poziomem ruchu ciała, zaprojektowany do wspierania naturalnych rozmów z człowiekiem użytkownik.”

przykład-vloggera-google-2024

Na podstawie pojedynczego obrazu po lewej stronie VLOGGER przewiduje, które klatki wideo po prawej stronie powinny towarzyszyć każdemu momentowi pliku audio mówiącej osoby, korzystając z procesu zwanego „dyfuzją”, a następnie tworzy te klatki wideo z dużą szybkością -jakość definicji.

Google

VLOGGER skupia kilka najnowszych trendów w głębokim uczeniu się.

Multimedia łączą wiele trybów, które narzędzia AI mogą przyjmować i syntetyzować, w tym tekst, dźwięk, obrazy i wideo.

Duże modele językowe, takie jak GPT-4 OpenAI, umożliwiają używanie języka naturalnego jako danych wejściowych do kierowania wszelkiego rodzaju działaniami, niezależnie od tego, czy jest to tworzenie akapitów tekstu, piosenki czy obrazu.

W ostatnich latach badacze znaleźli także wiele sposobów na tworzenie realistycznych obrazów i filmów poprzez poprawę „rozpowszechniania”. Termin ten wywodzi się z fizyki molekularnej i odnosi się do tego, jak wraz ze wzrostem temperatury cząsteczki substancji przestają być silnie skoncentrowane na danym obszarze, a stają się coraz bardziej rozproszone. Analogicznie, fragmenty informacji cyfrowych można postrzegać jako „rozprzestrzenione”, w miarę jak stają się one niespójne z szumem cyfrowym.

Również: Przechodząc do Gemini, przekonasz się, że sztuczna inteligencja typu open source ma własne sztuczki wideo

Wdrożona sztuczna inteligencja wprowadza szum do obrazu i rekonstruuje oryginalny obraz, aby wytrenować sieć neuronową w celu znalezienia reguł, według których został wygenerowany. Diffusion leży u podstaw tworzenia wspaniałych obrazów w Stable Diffusion Stability AI i DALL-E OpenAI. To także sposób, w jaki OpenAI tworzy świetne filmy w Sorze.

W przypadku VLOGGERa zespół Corony wytrenował sieć neuronową, aby kojarzyła głos mówiącego z poszczególnymi klatkami wideo tego mówcy. Zespół połączył proces wdrażania, aby zrekonstruować klatkę wideo z dźwięku, korzystając z kolejnej najnowszej innowacji – transformatora.

Konwerter wykorzystuje metodę uwagi do przewidywania klatek wideo na podstawie klatek, które wystąpiły w przeszłości, w połączeniu z dźwiękiem. Przewidując działania, sieć neuronowa uczy się precyzyjnie odtwarzać ruchy dłoni i ciała oraz mimikę, klatka po klatce, w synchronizacji z dźwiękiem.

Ostatnim krokiem jest wykorzystanie przewidywań z pierwszej sieci neuronowej do późniejszego zasilania generowania klatek wideo o wysokiej rozdzielczości przy użyciu drugiej sieci neuronowej, która również wykorzystuje dyfuzję. Ten drugi etap również stanowi wysoką ocenę w danych.

Również: Generatywna sztuczna inteligencja zawodzi w tej aż nazbyt powszechnej zdolności ludzkiego myślenia

Aby utworzyć obrazy w wysokiej rozdzielczości, zespół Corona skompilował MENTOR, zbiór danych obejmujący 800 000 „tożsamości” z filmów przedstawiających mówiące osoby. MENTOR składa się z 2200 godzin filmów wideo, które zdaniem zespołu stanowią „największy dotychczas wykorzystany zbiór danych pod względem tożsamości i długości” i są dziesięciokrotnie większe niż poprzednie podobne zbiory danych.

Autorzy odkryli, że mogliby usprawnić ten proces poprzez kolejny etap zwany „dostrajaniem”. Wysyłając pełny film do serwisu VLOGGER, po „wstępnym przeszkoleniu” w programie MENTOR, mogą oni w bardziej realistyczny sposób uchwycić charakterystyczne ruchy głowy danej osoby, takie jak mruganie: „Dzięki dostrojeniu naszego modelu dyfuzji przy użyciu większej ilości danych w jednym W przypadku danej osoby VLOGGER może dowiedzieć się, jak lepiej uchwycić tożsamość, na przykład gdy obraz referencyjny przedstawia zamknięte oczy, co zespół nazywa „personalizacją”.

architektura-google-2024-vlogger

Sieć neuronowa VLOGGERA to połączenie dwóch różnych sieci neuronowych. Pierwsza wykorzystuje „zamaskowaną uwagę” za pośrednictwem przetwornika, aby przewidzieć, co powinno się wydarzyć w klatce wideo na podstawie dźwięku pochodzącego z sygnału audio nagranego przez wzmacniacz. Druga sieć neuronowa wykorzystuje dyfuzję do stworzenia statycznej sekwencji klatek wideo, wykorzystując wskazówki dotyczące ruchu ciała i ekspresji z pierwszej sieci neuronowej.

Google

Najważniejszym punktem tego podejścia – połączeniem prognoz w pojedynczej sieci neuronowej z obrazami o wysokiej rozdzielczości i tym, co czyni VLOGGER ekscytującym – jest to, że oprogramowanie nie tylko tworzy wideo, jak robi to Sora. VLOGGER kojarzy ten film z możliwymi do kontrolowania działaniami i wyrażeniami. Realistycznymi filmami można manipulować w miarę ich pojawiania się, niczym marionetki.

Również: Dyrektor generalny Nvidii, Jensen Huang, prezentuje na targach GTC rodzinę chipsetów „Blackwell” nowej generacji

„Naszym celem jest wypełnienie luki między najnowszymi wysiłkami w zakresie syntezy wideo, które umożliwiają tworzenie dynamicznych filmów bez kontrolowania tożsamości lub pozy, a kontrolowanymi metodami generowania obrazu” – napisał zespół Corona.

VLOGGER może nie tylko być awatarem sterowanym głosem, ale może także pełnić funkcje edycyjne, takie jak zmiana ust lub oczu mówiącej osoby. Na przykład domyślną osobę, która dużo mruga w filmie, można zmienić na mrugającą rzadko lub wcale. Metodę mówienia szerokimi ustami można zawęzić do wyraźniejszego ruchu warg.

google-2024-vlogger-edited-videos.png

Osiągnąwszy sposób na kontrolowanie wideo w wysokiej rozdzielczości za pomocą sygnałów audio, VLOGGER otwiera drogę do manipulacji, takich jak zmiana ruchów warg mówiącego w każdym segmencie wideo, tak aby różniły się od oryginalnego źródła wideo.

Bloger wideo

Teraz, gdy osiągnęliśmy nowy stan postępu w symulacji człowieka, zespołem Corona nie zajął się pytanie, czego świat powinien się spodziewać po jakimkolwiek niewłaściwym wykorzystaniu technologii. Łatwo sobie wyobrazić, na przykład, że politycy mówią coś całkowicie katastrofalnego na temat zbliżającej się wojny nuklearnej.

Prawdopodobnie kolejnym etapem tej gry w awatary będą sieci neuronowe, takie jak 'Test Voighta-Kampfa„W filmie Blade Runner może pomóc społeczności dowiedzieć się, którzy z nich są prawdziwymi mówcami, a którzy tylko fałszywymi, o niezwykle żywej moralności.

READ  Tańczące niedźwiedzie, drony i zegarki: najdziwniejsze urządzenia Alexa, jakie do tej pory widzieliśmy