Biegowelove.pl

informacje o Polsce. Wybierz tematy, o których chcesz dowiedzieć się więcej

Stability AI debiutuje w modelu Stable Audio 2.0 do tworzenia klipów audio

Stability AI debiutuje w modelu Stable Audio 2.0 do tworzenia klipów audio

Stabilność AI spółka z ograniczoną odpowiedzialnością Dzisiaj stopa Nowa wersja Static Audio, systemu AI do tworzenia klipów audio, oferuje znacznie rozszerzony zestaw funkcji.

Oryginalna wersja AI Pojawił się po raz pierwszy Ostatni wrzesień. Stable Audio 1.0, jak nazywa się model pierwszej generacji, potrafi tworzyć pliki audio o długości do 90 sekund. Model Stable Audio 2.0 wprowadzony dzisiaj przez Stability AI może tworzyć ścieżki nawet dwukrotnie dłuższe z większą liczbą dostosowań wprowadzanych przez użytkownika.

Poprzednia iteracja systemu generowała dźwięk na podstawie komunikatów tekstowych. Tymczasem Stable Audio 2.0 jest w stanie pomieścić nie tylko tekst, ale także istniejące klipy audio dostarczone przez użytkownika. Sztuczna inteligencja może dopasować tworzony przez siebie wzór dźwiękowy do tych klipów, umożliwiając klientom dokładniejsze dopasowanie powstałych plików do ich wymagań.

Stable Audio 2.0 oferuje także inne ulepszenia. Stability AI twierdzi, że model może tworzyć „ustrukturyzowane kompozycje zawierające wprowadzenie, rozwinięcie i zakończenie”. Kolejnym ulepszeniem w stosunku do systemu poprzedniej generacji jest to, że Stable Audio 2.0 może tworzyć efekty dźwiękowe.

Nowe możliwości są wynikiem istotnej aktualizacji infrastruktury AI.

Podobnie jak jego poprzednik, Stable Audio 2.0 opiera się na tak zwanym modelu dyfuzyjnym. Modele dyfuzyjne to sieci neuronowe powszechnie stosowane do tworzenia plików multimedialnych. Tym, co odróżnia je od innych algorytmów AI, jest sposób, w jaki są szkolone: ​​podczas opracowywania otrzymują zestaw klipów audio zawierających błędy i mają za zadanie przywrócenie oryginalnego dźwięku.

Stable Audio 2.0 wykorzystuje wyspecjalizowaną technologię znaną jako model dyfuzji utajonej. Podobnie jak inne sieci neuronowe, modele te są szkolone na zbiorze danych podobnym do plików, które będą przetwarzać w środowisku produkcyjnym. Zanim jednak rozpocznie się szkolenie, zbiór danych zostaje przekształcony w strukturę matematyczną zwaną przestrzenią ukrytą, która sprawia, że ​​proces rozwoju sztucznej inteligencji jest bardziej efektywny.

READ  Tobias Dingle z WillowTree w nowym wywiadzie opowiada o nowej książce, o potędze technologii głosowej i dostępności

Przestrzeń ukryta zawiera tylko najważniejsze szczegóły ze zbioru danych, na którym się opiera. Mniej istotne szczegóły są usuwane, co zmniejsza całkowitą ilość informacji, które modele AI muszą przetworzyć podczas szkolenia. To zmniejszenie objętości danych zmniejsza ilość sprzętu potrzebnego do szkolenia sztucznej inteligencji, co z kolei zmniejsza koszty.

Pierwsza iteracja dźwięku spółgłoskowego również opierała się na modelu dyfuzji ukrytej. Wydana dzisiaj nowa wersja zawiera wydajniejszy mechanizm generowania ukrytych przestrzeni. „Przechwytuje istotne cechy i odtwarza je, odfiltrowując mniej ważne szczegóły dla bardziej spójnych pokoleń” – wyjaśniła firma w poście na blogu.

Inżynierowie Stability AI dodali także nową sieć neuronową opartą na architekturze Transformer. Architektura ta została opracowana przez Google LLC w 2017 roku i służy głównie do budowania modeli językowych. Transformator może uwzględnić dużą ilość informacji kontekstowych podczas interpretacji fragmentu danych, dzięki czemu może uzyskać dokładniejsze wyniki niż poprzednie sieci neuronowe.

„Połączenie tych dwóch elementów skutkuje modelem zdolnym do rozpoznawania i odtwarzania wielkoskalowych struktur, które są niezbędne w przypadku wysokiej jakości kompozycji muzycznych” – wyjaśnia Stability AI.

Stable Audio 2.0 jest dostępne bezpłatnie dla konsumentów za pośrednictwem: strona internetowa Stworzony przez firmę dla modelu. Dostępność za pośrednictwem interfejsu API ma nastąpić „wkrótce”. API umożliwi innym firmom integrację Stable Audio 2.0 ze swoimi aplikacjami.

zdjęcie: Usuń rozpryski

Twój głos jest dla nas ważny i pomaga nam zachować wolność treści.

Jedno kliknięcie poniżej wspiera naszą misję zapewniania bezpłatnych, szczegółowych i odpowiednich treści.

Dołącz do naszej społeczności na YouTube

Dołącz do społeczności ponad 15 000 ekspertów #CubeAlumni, w tym dyrektora generalnego Amazon.com Andy'ego Jassy'ego, założyciela i dyrektora generalnego firmy Dell Technologies Michaela Della, dyrektora generalnego firmy Intel Pata Gelsingera oraz wielu innych znanych osobistości i ekspertów.

„TheCUBE jest ważnym partnerem branży. Wy naprawdę jesteście częścią naszych wydarzeń i naprawdę doceniamy wasze przybycie i wiem, że ludzie też doceniają treści, które tworzycie. ” -Andy Jassy

Dziękuję

READ  Recenzja: Androidy to ścieżka komentarzy deweloperów w erze Androida 1.0