To przywilej być jednym z ostatnich ludzi.
Bardziej technicznie niepoprawny
Zdaję sobie sprawę, że w namacalnej przyszłości artyści znani wcześniej jako ludzie będą przejmującą mieszanką mięsa z frytkami.
Prawdopodobnie nie powinienem być zaskoczony, kiedy badacze Microsoftu przybyli, aby nieco przyspieszyć beznadziejną przyszłość.
To wszystko brzmiało tak niewinnie i tak naukowo. Tytuł pracy naukowców To było twórczo nieprzejrzyste: „Paradygmaty języka kodowania neuronowego to skrypty bez migawek do składania mowy”.
Jak myślisz, co to może oznaczać? Jest nowy i szybszy sposób Maszyna do pisania wypowiadanych słów?
Podsumowanie badaczy zaczyna się dość ładnie. Używa wielu słów, zwrotów i skrótów, które są nieznane, powiedzmy, wielu formom normalnego ludzkiego języka. Pokazuje, że model języka kodowania neuronowego nazywa się VALL-E.
Z pewnością ta nazwa ma cię zmiękczyć. Co może być przerażającego w technologii, która wygląda prawie jak ten uroczy mały robot z porywającego filmu?
będziemy, Może to: „VALL-E podkreśla możliwości uczenia się w kontekście i może być używany do syntezy wysokiej jakości osobistej mowy z zaledwie 3-sekundowym nagraniem niewidocznego mówcy jako podpowiedzi głosowej”.
Często chciałem podkreślić zdolności uczenia się. Zamiast tego musiałem uciekać się do czekania, aż się pojawią.
To, co wyłania się z ostatniego zdania badaczy, wywołuje dreszcze. Wielkie mózgi Microsoftu potrzebują teraz tylko 3 sekund, aby coś powiedzieć, aby udawać dłuższe zdania i być może wielkie przemówienia, których nie wygłosiłeś, ale brzmią tak jak ty.
Nie będę się zbytnio zagłębiał w naukę, bo żadne z nas nie odniesie z tego korzyści.
Wspomnę tylko, że VALL-E korzysta z biblioteki audio opracowanej przez jedną z najbardziej imponujących i niezawodnych firm na świecie – Meta. o nazwie Wolna liteTo magazyn 7000 osób mówiących łącznie 60 000 godzin.
Oczywiście słuchałem pracy VALL-E.
także: „Zobaczymy zupełnie nowy rodzaj komputera” — mówi pionier sztucznej inteligencji, Jeff Hinton
Słuchałem, jak mężczyzna mówi przez 3 sekundy. Następnie wysłuchałem ośmiosekundowego nagrania, które jego kopia VALL-E miała powiedzieć: „Następnie poruszali się ostrożnie wokół chaty po omacku, aby znaleźć coś, co pokazałoby, że Warrenton wykonał swoje zadanie”.
Ośmielam się zauważyć dużą, jeśli w ogóle, różnicę.
Prawdą jest, że wiele z tych twierdzeń brzmiało jak bardzo kiepskie fragmenty literatury osiemnastowiecznej. Przykład: „Tak więc ten zdrowy ludzki ojciec pocieszał swoją nieszczęśliwą córkę, a jej matka ponownie ją objęła, robiąc wszystko, co w jej mocy, by pocieszyć jej uczucia”.
Ale co mogę zrobić poza słuchaniem większej liczby przykładów podanych przez badaczy? Niektóre wersje VALL-E były bardziej podejrzane niż inne. Pisownia się nie zgadzała. Czuli się podzieleni.
Ogólny efekt jest jednak intymnie mrożący krew w żyłach.
Zostałeś już ostrzeżony, bo. Wiesz, że gdy dzwonią do ciebie oszuści, nie powinieneś z nimi rozmawiać, na wypadek gdyby cię nagrali, a następnie odtworzyli twój styl, aby twój nagi głos zamówił drogie produkty.
Wydaje się jednak, że jest to inny poziom złożoności. Prawdopodobnie widziałeś już za dużo odcinków Peacock”schwytaćTam, gdzie deepfake’i służą jako normalna część rządu.Może naprawdę nie powinienem się martwić, ponieważ Microsoft jest obecnie tak miłą, nieobraźliwą firmą.
Jednak myśl, że ktoś może łatwo dać się nabrać, myśląc, że mówię coś, czego nie zrobiłem – i nigdy nie zrobię – nie sprawia, że czuję się swobodnie. Tym bardziej, że naukowcy twierdzą, że potrafią symulować „środowisko emocjonalne i wokalne” pierwszych trzech sekund mowy.
Poczujesz więc ulgę, że naukowcy odkryli ten potencjał dyskomfortu. przedstawiają: „Ponieważ VALL-E może syntetyzować mowę, która zachowuje tożsamość mówiącego, może wiązać się z potencjalnym ryzykiem nadużyć modelu, takich jak fałszowanie rozpoznawania głosu lub podszywanie się pod konkretnego mówcę”.
rozwiązanie? Zbuduj system wykrywania, mówią naukowcy.
Co może sprawić, że jedna lub dwie osoby będą się zastanawiać: „Więc dlaczego w ogóle to zrobiłem?”
Często w technologii odpowiedź brzmi: „Ponieważ możemy”.
„Nieuleczalny myśliciel. Miłośnik jedzenia. Subtelnie czarujący badacz alkoholu. Zwolennik popkultury”.
More Stories
Emdoor przygotowuje się do zaprezentowania swoich osiągnięć w zakresie nowej technologii sztucznej inteligencji podczas targów Global Sources Mobile Electronics Show 2024.
LinkedIn wykorzystuje Twoje dane do szkolenia Microsoft, OpenAI i jego modeli AI – oto jak to wyłączyć
Zapomnij o Apple Watch Series 10 — Apple Watch Ultra 2 w kolorze Satin Black to smartwatch, który warto mieć