Stabilność AI spółka z ograniczoną odpowiedzialnością Dzisiaj stopa Nowa wersja Static Audio, systemu AI do tworzenia klipów audio, oferuje znacznie rozszerzony zestaw funkcji.
Oryginalna wersja AI Pojawił się po raz pierwszy Ostatni wrzesień. Stable Audio 1.0, jak nazywa się model pierwszej generacji, potrafi tworzyć pliki audio o długości do 90 sekund. Model Stable Audio 2.0 wprowadzony dzisiaj przez Stability AI może tworzyć ścieżki nawet dwukrotnie dłuższe z większą liczbą dostosowań wprowadzanych przez użytkownika.
Poprzednia iteracja systemu generowała dźwięk na podstawie komunikatów tekstowych. Tymczasem Stable Audio 2.0 jest w stanie pomieścić nie tylko tekst, ale także istniejące klipy audio dostarczone przez użytkownika. Sztuczna inteligencja może dopasować tworzony przez siebie wzór dźwiękowy do tych klipów, umożliwiając klientom dokładniejsze dopasowanie powstałych plików do ich wymagań.
Stable Audio 2.0 oferuje także inne ulepszenia. Stability AI twierdzi, że model może tworzyć „ustrukturyzowane kompozycje zawierające wprowadzenie, rozwinięcie i zakończenie”. Kolejnym ulepszeniem w stosunku do systemu poprzedniej generacji jest to, że Stable Audio 2.0 może tworzyć efekty dźwiękowe.
Nowe możliwości są wynikiem istotnej aktualizacji infrastruktury AI.
Podobnie jak jego poprzednik, Stable Audio 2.0 opiera się na tak zwanym modelu dyfuzyjnym. Modele dyfuzyjne to sieci neuronowe powszechnie stosowane do tworzenia plików multimedialnych. Tym, co odróżnia je od innych algorytmów AI, jest sposób, w jaki są szkolone: podczas opracowywania otrzymują zestaw klipów audio zawierających błędy i mają za zadanie przywrócenie oryginalnego dźwięku.
Stable Audio 2.0 wykorzystuje wyspecjalizowaną technologię znaną jako model dyfuzji utajonej. Podobnie jak inne sieci neuronowe, modele te są szkolone na zbiorze danych podobnym do plików, które będą przetwarzać w środowisku produkcyjnym. Zanim jednak rozpocznie się szkolenie, zbiór danych zostaje przekształcony w strukturę matematyczną zwaną przestrzenią ukrytą, która sprawia, że proces rozwoju sztucznej inteligencji jest bardziej efektywny.
Przestrzeń ukryta zawiera tylko najważniejsze szczegóły ze zbioru danych, na którym się opiera. Mniej istotne szczegóły są usuwane, co zmniejsza całkowitą ilość informacji, które modele AI muszą przetworzyć podczas szkolenia. To zmniejszenie objętości danych zmniejsza ilość sprzętu potrzebnego do szkolenia sztucznej inteligencji, co z kolei zmniejsza koszty.
Pierwsza iteracja dźwięku spółgłoskowego również opierała się na modelu dyfuzji ukrytej. Wydana dzisiaj nowa wersja zawiera wydajniejszy mechanizm generowania ukrytych przestrzeni. „Przechwytuje istotne cechy i odtwarza je, odfiltrowując mniej ważne szczegóły dla bardziej spójnych pokoleń” – wyjaśniła firma w poście na blogu.
Inżynierowie Stability AI dodali także nową sieć neuronową opartą na architekturze Transformer. Architektura ta została opracowana przez Google LLC w 2017 roku i służy głównie do budowania modeli językowych. Transformator może uwzględnić dużą ilość informacji kontekstowych podczas interpretacji fragmentu danych, dzięki czemu może uzyskać dokładniejsze wyniki niż poprzednie sieci neuronowe.
„Połączenie tych dwóch elementów skutkuje modelem zdolnym do rozpoznawania i odtwarzania wielkoskalowych struktur, które są niezbędne w przypadku wysokiej jakości kompozycji muzycznych” – wyjaśnia Stability AI.
Stable Audio 2.0 jest dostępne bezpłatnie dla konsumentów za pośrednictwem: strona internetowa Stworzony przez firmę dla modelu. Dostępność za pośrednictwem interfejsu API ma nastąpić „wkrótce”. API umożliwi innym firmom integrację Stable Audio 2.0 ze swoimi aplikacjami.
zdjęcie: Usuń rozpryski
Twój głos jest dla nas ważny i pomaga nam zachować wolność treści.
Jedno kliknięcie poniżej wspiera naszą misję zapewniania bezpłatnych, szczegółowych i odpowiednich treści.
Dołącz do naszej społeczności na YouTube
Dołącz do społeczności ponad 15 000 ekspertów #CubeAlumni, w tym dyrektora generalnego Amazon.com Andy'ego Jassy'ego, założyciela i dyrektora generalnego firmy Dell Technologies Michaela Della, dyrektora generalnego firmy Intel Pata Gelsingera oraz wielu innych znanych osobistości i ekspertów.
Dziękuję
„Nieuleczalny myśliciel. Miłośnik jedzenia. Subtelnie czarujący badacz alkoholu. Zwolennik popkultury”.
More Stories
Emdoor przygotowuje się do zaprezentowania swoich osiągnięć w zakresie nowej technologii sztucznej inteligencji podczas targów Global Sources Mobile Electronics Show 2024.
LinkedIn wykorzystuje Twoje dane do szkolenia Microsoft, OpenAI i jego modeli AI – oto jak to wyłączyć
Zapomnij o Apple Watch Series 10 — Apple Watch Ultra 2 w kolorze Satin Black to smartwatch, który warto mieć