Społeczność sztucznej inteligencji (AI) stała się tak dobra w tworzeniu fałszywych gifów — spójrz na wprowadzoną w zeszłym miesiącu Sorę OpenAI z jej fantastycznymi lotami wyobraźni — że trzeba zadać intelektualne i praktyczne pytanie: Co? Co powinniśmy zrobić z tymi wszystkimi filmami?
Również: OpenAI przedstawia swój model konwersji tekstu na wideo, a rezultaty są zdumiewające.Sami zobaczcie
Kontroluj je za pomocą naszego narzędzia VLOGGER – odpowiedział w tym tygodniu badacz Google Enrique Corona i współpracownicy. VLOGGER może tworzyć wideo HD rozmawiających ludzi na podstawie jednego obrazu. Co najważniejsze, VLOGGER może animować wideo na podstawie próbki mowy, co oznacza, że technologia ta może animować filmy jako kontrolowane podobieństwo osoby – „awatar” w wysokiej rozdzielczości.
To narzędzie może umożliwić wszelkiego rodzaju kreatywność. Mówiąc prościej, zespół Corona sugeruje, że VLOGGER może mieć duży wpływ na awatary działu pomocy technicznej, ponieważ bardziej realistycznie wyglądający, sztucznie mówiący ludzie mogą „kultywować empatię”. Wskazują, że technologia ta mogłaby „umożliwić zupełnie nowe zastosowania, takie jak ulepszona komunikacja online, edukacja lub osobiści wirtualni asystenci”.
VLOGGER może także wytyczyć nowe granice w postaci deepfake’ów, podobizny przypominającej życie, które mówią i robią rzeczy, których prawdziwa osoba nigdy by nie zrobiła. Zespół Corona zamierza uwzględnić w dodatkowych materiałach pomocniczych wpływ społeczny VLOGGERA. Jednak ten materiał nie jest dostępny Na stronie projektu w GitHubie. ZDNET skontaktował się z firmą Corona, aby zapytać o materiały pomocnicze, ale nie otrzymał odpowiedzi w momencie publikacji.
Również: Naukowcy twierdzą, że w miarę rozprzestrzeniania się agentów sztucznej inteligencji zwiększa się również ryzyko
Jak opisano w białej księdze „VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis”, zespół Corony zamierza wyjść poza niedokładności najnowocześniejszych awatarów. „Tworzenie realistycznych filmów przedstawiających ludzi jest nadal złożone i pełne artefaktów” – napisał zespół Corona.
Zespół zauważył, że awatary na filmie często odcinały ciało i dłonie, ukazując jedynie twarz. VLOGGER może pokazać pełny tors za pomocą ruchów rąk. Inne narzędzia zazwyczaj charakteryzują się ograniczonymi różnicami w wyrazie twarzy lub pozach, zapewniając jedynie podstawową synchronizację ust. VLOGGER może tworzyć „wideo o wysokiej rozdzielczości przedstawiające ruchy głowy i górnej części ciała […] Charakteryzuje się bardzo różnorodną mimiką i gestami” i jest „pierwszym sposobem na wygenerowanie mówiących, animowanych ludzi na podstawie mowy”.
Jak wyjaśnił zespół badawczy: „To w szczególności automatyzacja i realizm behawioralny [are] Cel, do którego dążymy w tej pracy: VLOGGER to multimodalny interfejs dla ucieleśnionego agenta konwersacyjnego, wyposażony w dźwięk i animowaną reprezentację wizualną, charakteryzujący się złożoną mimiką i zwiększonym poziomem ruchu ciała, zaprojektowany do wspierania naturalnych rozmów z człowiekiem użytkownik.”
VLOGGER skupia kilka najnowszych trendów w głębokim uczeniu się.
Multimedia łączą wiele trybów, które narzędzia AI mogą przyjmować i syntetyzować, w tym tekst, dźwięk, obrazy i wideo.
Duże modele językowe, takie jak GPT-4 OpenAI, umożliwiają używanie języka naturalnego jako danych wejściowych do kierowania wszelkiego rodzaju działaniami, niezależnie od tego, czy jest to tworzenie akapitów tekstu, piosenki czy obrazu.
W ostatnich latach badacze znaleźli także wiele sposobów na tworzenie realistycznych obrazów i filmów poprzez poprawę „rozpowszechniania”. Termin ten wywodzi się z fizyki molekularnej i odnosi się do tego, jak wraz ze wzrostem temperatury cząsteczki substancji przestają być silnie skoncentrowane na danym obszarze, a stają się coraz bardziej rozproszone. Analogicznie, fragmenty informacji cyfrowych można postrzegać jako „rozprzestrzenione”, w miarę jak stają się one niespójne z szumem cyfrowym.
Również: Przechodząc do Gemini, przekonasz się, że sztuczna inteligencja typu open source ma własne sztuczki wideo
Wdrożona sztuczna inteligencja wprowadza szum do obrazu i rekonstruuje oryginalny obraz, aby wytrenować sieć neuronową w celu znalezienia reguł, według których został wygenerowany. Diffusion leży u podstaw tworzenia wspaniałych obrazów w Stable Diffusion Stability AI i DALL-E OpenAI. To także sposób, w jaki OpenAI tworzy świetne filmy w Sorze.
W przypadku VLOGGERa zespół Corony wytrenował sieć neuronową, aby kojarzyła głos mówiącego z poszczególnymi klatkami wideo tego mówcy. Zespół połączył proces wdrażania, aby zrekonstruować klatkę wideo z dźwięku, korzystając z kolejnej najnowszej innowacji – transformatora.
Konwerter wykorzystuje metodę uwagi do przewidywania klatek wideo na podstawie klatek, które wystąpiły w przeszłości, w połączeniu z dźwiękiem. Przewidując działania, sieć neuronowa uczy się precyzyjnie odtwarzać ruchy dłoni i ciała oraz mimikę, klatka po klatce, w synchronizacji z dźwiękiem.
Ostatnim krokiem jest wykorzystanie przewidywań z pierwszej sieci neuronowej do późniejszego zasilania generowania klatek wideo o wysokiej rozdzielczości przy użyciu drugiej sieci neuronowej, która również wykorzystuje dyfuzję. Ten drugi etap również stanowi wysoką ocenę w danych.
Również: Generatywna sztuczna inteligencja zawodzi w tej aż nazbyt powszechnej zdolności ludzkiego myślenia
Aby utworzyć obrazy w wysokiej rozdzielczości, zespół Corona skompilował MENTOR, zbiór danych obejmujący 800 000 „tożsamości” z filmów przedstawiających mówiące osoby. MENTOR składa się z 2200 godzin filmów wideo, które zdaniem zespołu stanowią „największy dotychczas wykorzystany zbiór danych pod względem tożsamości i długości” i są dziesięciokrotnie większe niż poprzednie podobne zbiory danych.
Autorzy odkryli, że mogliby usprawnić ten proces poprzez kolejny etap zwany „dostrajaniem”. Wysyłając pełny film do serwisu VLOGGER, po „wstępnym przeszkoleniu” w programie MENTOR, mogą oni w bardziej realistyczny sposób uchwycić charakterystyczne ruchy głowy danej osoby, takie jak mruganie: „Dzięki dostrojeniu naszego modelu dyfuzji przy użyciu większej ilości danych w jednym W przypadku danej osoby VLOGGER może dowiedzieć się, jak lepiej uchwycić tożsamość, na przykład gdy obraz referencyjny przedstawia zamknięte oczy, co zespół nazywa „personalizacją”.
Najważniejszym punktem tego podejścia – połączeniem prognoz w pojedynczej sieci neuronowej z obrazami o wysokiej rozdzielczości i tym, co czyni VLOGGER ekscytującym – jest to, że oprogramowanie nie tylko tworzy wideo, jak robi to Sora. VLOGGER kojarzy ten film z możliwymi do kontrolowania działaniami i wyrażeniami. Realistycznymi filmami można manipulować w miarę ich pojawiania się, niczym marionetki.
Również: Dyrektor generalny Nvidii, Jensen Huang, prezentuje na targach GTC rodzinę chipsetów „Blackwell” nowej generacji
„Naszym celem jest wypełnienie luki między najnowszymi wysiłkami w zakresie syntezy wideo, które umożliwiają tworzenie dynamicznych filmów bez kontrolowania tożsamości lub pozy, a kontrolowanymi metodami generowania obrazu” – napisał zespół Corona.
VLOGGER może nie tylko być awatarem sterowanym głosem, ale może także pełnić funkcje edycyjne, takie jak zmiana ust lub oczu mówiącej osoby. Na przykład domyślną osobę, która dużo mruga w filmie, można zmienić na mrugającą rzadko lub wcale. Metodę mówienia szerokimi ustami można zawęzić do wyraźniejszego ruchu warg.
Teraz, gdy osiągnęliśmy nowy stan postępu w symulacji człowieka, zespołem Corona nie zajął się pytanie, czego świat powinien się spodziewać po jakimkolwiek niewłaściwym wykorzystaniu technologii. Łatwo sobie wyobrazić, na przykład, że politycy mówią coś całkowicie katastrofalnego na temat zbliżającej się wojny nuklearnej.
Prawdopodobnie kolejnym etapem tej gry w awatary będą sieci neuronowe, takie jak 'Test Voighta-Kampfa„W filmie Blade Runner może pomóc społeczności dowiedzieć się, którzy z nich są prawdziwymi mówcami, a którzy tylko fałszywymi, o niezwykle żywej moralności.
„Nieuleczalny myśliciel. Miłośnik jedzenia. Subtelnie czarujący badacz alkoholu. Zwolennik popkultury”.
More Stories
Ding! Christopher Ward ogłasza nowe Bel Canto
Najlepszą reklamą podczas wydarzenia Apple Mac była bezpłatna aktualizacja pamięci RAM dla MacBooka Air
Startup zajmujący się obserwacją Ziemi wychodzi z zapomnienia z 12 milionami dolarów