W świecie, w którym słuchawki redukujące hałas stają się coraz skuteczniejsze w tworzeniu pustej karty słuchowej, badacze wciąż stoją przed wyzwaniami polegającymi na umożliwieniu przenikania określonych dźwięków ze środowiska słuchowego użytkownika przez wymazanie.
Chociaż najnowsze osiągnięcia, takie jak słuchawki AirPods Pro firmy Apple, automatycznie dostosowują poziom dźwięku do użytkownika na podstawie otoczenia, użytkownicy mają niewielką kontrolę nad tym, kogo i kiedy słuchają.
Docelowe słyszenie mowy (TSH)
Zespół uniwersytet Waszyngtońskiprowadzony przez wybitnego autora Shyama GollakotaProfesor w Szkole Informatyki i Inżynierii Paula G. Allena opracował system sztucznej inteligencji o nazwie Target Speech Hearing (TSH).
Ten innowacyjny system pozwala użytkownikowi noszącemu słuchawki redukujące hałas „zarejestrować” głośnik, patrząc na niego przez zaledwie trzy do pięciu sekund.
Po nagraniu system eliminuje wszystkie inne dźwięki z otoczenia i odtwarza w czasie rzeczywistym tylko nagrany głos mówiącego, nawet jeśli słuchacz porusza się w hałaśliwym pomieszczeniu i nie jest już zwrócony twarzą do mówiącego.
Gollakota podkreśla potencjał sztucznej inteligencji wykraczający poza chatboty internetowe, mówiąc: „Dzięki naszym urządzeniom możesz teraz wyraźnie usłyszeć jednego mówcę, nawet jeśli znajdujesz się w hałaśliwym otoczeniu, gdzie rozmawia wiele innych osób”.
Jak TSH działa ze słuchawkami redukującymi hałas
Aby skorzystać z systemu TSH, osoba nosząca gotowe słuchawki wyposażone w mikrofony po prostu naciska przycisk, kierując głowę w stronę mówiącej osoby.
Fale dźwiękowe głosu mówiącego muszą docierać do mikrofonów po obu stronach zestawu słuchawkowego jednocześnie, z marginesem błędu wynoszącym 16 stopni.
Następnie słuchawki wysyłają ten sygnał do wbudowanego komputera, gdzie opracowane przez zespół oprogramowanie do uczenia maszynowego uczy się wzorców wokalnych wybranego mówcy.
System wychwytuje głos osoby mówiącej i odtwarza go słuchaczowi, nawet gdy para się porusza. W miarę kontynuowania mówienia przez mówiącego zdolność systemu do skupiania się na nagranym głosie poprawia się dzięki dodatkowym danym treningowym.
Sztuczna inteligencja spotyka się z technologią redukcji szumów
Zespół przetestował swój system na 21 osobach i ocenił czystość nagranego głosu mówiącego średnio na około dwukrotnie większą niż w przypadku dźwięku niefiltrowanego.
Praca ta opiera się na wcześniejszych badaniach zespołu dotyczących „słyszenia semantycznego”, które pozwoliły użytkownikom wybrać określone kategorie dźwięków, takie jak ptaki lub głosy, które chcieli usłyszeć, jednocześnie eliminując inne dźwięki z otoczenia.
Obecnie system TSH może nagrywać tylko jednego mówcę na raz i wymaga, aby z tego samego kierunku, co głos docelowego mówcy, nie dochodził żaden inny głośny dźwięk.
Jeśli użytkownik nie jest zadowolony z jakości dźwięku, może odtworzyć na głośniku kolejne nagranie, aby poprawić jego klarowność.
Zespół Uniwersytetu Waszyngtońskiego pracuje nad rozszerzeniem systemu o słuchawki i aparaty słuchowe w przyszłości, co jeszcze bardziej zrewolucjonizuje sposób, w jaki odbieramy dźwięk w różnych środowiskach.
Nowa definicja sposobu, w jaki odbieramy dźwięk
Zespół przedstawił swoje ustalenia na konferencji ACM CHI na temat czynników ludzkich w systemach komputerowych w Honolulu, a kod urządzenia weryfikującego koncepcję jest dostępny do wykorzystania przez innych.
Chociaż system nie jest jeszcze dostępny na rynku, stanowi ważny krok naprzód w dziedzinie percepcji słuchowej i technologii eliminacji hałasu opartej na sztucznej inteligencji.
Krótko mówiąc, nowy system ukierunkowanego słyszenia mowy (TSH) stanowi imponujący postęp w technologii słyszenia opartej na sztucznej inteligencji, zapewniając użytkownikom możliwość selektywnego słuchania i skupiania się na określonych osobach mówiących w hałaśliwym otoczeniu.
Wykorzystując moc uczenia maszynowego i innowacyjnych technologii nagrywania, TSH może zrewolucjonizować sposób, w jaki odbieramy dźwięk poprzez słuchawki, douszne i aparaty słuchowe z redukcją szumów.
W miarę jak zespół stale udoskonala i rozszerza możliwości systemu, możemy patrzeć w przyszłość, w której spersonalizowane doświadczenia dźwiękowe staną się normą, umożliwiając użytkownikom poruszanie się nawet w najbardziej chaotycznych krajobrazach audio z przejrzystością i łatwością.
Badanie zostało zakończone Opublikowano tutaj.
—–
Podoba Ci się to, co przeczytałem? Zapisz się do naszego newslettera, aby otrzymywać ciekawe artykuły, ekskluzywne treści i najnowsze aktualizacje.
Odwiedź nas w EarthSnap, bezpłatnej aplikacji udostępnionej przez Erica Rallsa i Earth.com.
—–
„Nieuleczalny myśliciel. Miłośnik jedzenia. Subtelnie czarujący badacz alkoholu. Zwolennik popkultury”.
More Stories
Emdoor przygotowuje się do zaprezentowania swoich osiągnięć w zakresie nowej technologii sztucznej inteligencji podczas targów Global Sources Mobile Electronics Show 2024.
LinkedIn wykorzystuje Twoje dane do szkolenia Microsoft, OpenAI i jego modeli AI – oto jak to wyłączyć
Zapomnij o Apple Watch Series 10 — Apple Watch Ultra 2 w kolorze Satin Black to smartwatch, który warto mieć