Naukowcy z Instytut Technologii Massachusetts Laboratorium AI MIT-IBM Watson opracowało nową metodę nawigacji AI, która przekształca dane wizualne w opisy językowe, aby pomóc robotom wykonywać złożone zadania.
Podejście to wykorzystuje model dużego języka do generowania syntetycznych danych szkoleniowych i podejmowania decyzji nawigacyjnych na podstawie danych wejściowych w języku. Chociaż nie jest lepszy od modeli opartych na obrazach, ma tę zaletę, że wymaga mniej zasobów i łatwiej go dostosować do różnych zadań i środowisk.
Któregoś dnia możesz chcieć, aby Twój domowy robot zniósł na dół brudne ubrania i umieścił je w pralce znajdującej się w lewym rogu piwnicy. Robot będzie musiał połączyć Twoje instrukcje z wizualnymi informacjami zwrotnymi, aby określić, jakie kroki powinien podjąć, aby wykonać to zadanie.
W przypadku agenta AI łatwiej to powiedzieć, niż zrobić. Istniejące podejścia często wykorzystują wiele ręcznie opracowanych modeli uczenia maszynowego do obsługi różnych części zadania, których zbudowanie wymaga dużego wysiłku i wiedzy ludzkiej. Podejścia te, które wykorzystują reprezentacje wizualne do bezpośredniego podejmowania decyzji nawigacyjnych, wymagają ogromnych ilości danych wizualnych do szkolenia, co często jest trudne do uzyskania.
Integracja modeli językowych w celu usprawnienia nawigacji
Aby pokonać te wyzwania, naukowcy z MIT i MIT-IBM Watson Artificial Intelligence Laboratory opracowali metodę nawigacji, która przekształca reprezentacje wizualne w fragmenty języka, które następnie są wprowadzane do dużego modelu językowego, który spełnia wszystkie części wieloetapowego zadania nawigacyjnego .
Zamiast kodować cechy wizualne z obrazów otoczenia robota jako reprezentacje wizualne, co wymaga wielu operacji obliczeniowych, ich metoda tworzy podpisy tekstowe opisujące punkt widzenia robota. Duży model językowy wykorzystuje informację zwrotną do przewidywania działań, jakie robot powinien podjąć, aby spełnić instrukcje językowe użytkownika.
Ponieważ ich metoda wykorzystuje wyłącznie reprezentacje oparte na języku, mogą używać dużego modelu językowego do wydajnego generowania ogromnej ilości syntetycznych danych szkoleniowych.
Chociaż to podejście nie jest lepsze od technik wykorzystujących cechy wizualne, sprawdza się dobrze w sytuacjach, w których brakuje wystarczających danych wizualnych do treningu. Naukowcy odkryli, że połączenie danych językowych ze wskazówkami wizualnymi doprowadziło do lepszej wydajności nawigacji.
„Wykorzystując wyłącznie język jako reprezentację poznawczą, nasze podejście jest znacznie prostsze” – mówi Bowen Pan, absolwent elektrotechniki i informatyki oraz główny autor artykułu na temat tego podejścia. „Ponieważ wszystkie dane wejściowe można zakodować jako język możemy stworzyć ścieżkę, która „aby człowiek zrozumiał”.
Współautorami Bana są jego doradca Aud Oliva, dyrektor ds. strategicznego zaangażowania przemysłu w Schwarzman School of Computing na MIT, dyrektor laboratorium sztucznej inteligencji MIT-IBM Watson oraz starszy pracownik naukowy w Laboratorium informatyki i sztucznej inteligencji (CSIL); Philippe Isola, profesor nadzwyczajny w EECS i członek CSAIL; Główny autor Yoon Kim, adiunkt w EECS i członek CSAIL; i inni w MIT-IBM Watson AI Lab i Dartmouth College. Wyniki badań zostaną zaprezentowane na konferencji północnoamerykańskiego oddziału Association for Computational Linguistics.
Rozwiązanie problemu wzroku za pomocą języka
Ponieważ modele wielkojęzykowe są najpotężniejszymi dostępnymi modelami uczenia maszynowego, badacze starali się włączyć je do złożonego zadania zwanego nawigacją wizualną i językową – mówi Pan.
Jednak takie modele pobierają tekst i nie mogą przetwarzać danych wizualnych z kamery robota. Dlatego zespół musiał znaleźć sposób na użycie języka.
Ich technologia opiera się na prostym modelu tłumaczenia w celu uzyskania tekstowych opisów wizualnych informacji zwrotnych robota. Napisy te są łączone z instrukcjami językowymi i wprowadzane do dużego modelu językowego, który decyduje, jaki krok nawigacyjny powinien wykonać robot w następnej kolejności.
Duży model językowy generuje adnotację dotyczącą sceny, którą robot powinien zobaczyć po wykonaniu tego kroku. Służy do aktualizowania historii podróży, dzięki czemu robot może śledzić, gdzie był.
Projekt inteligentnego systemu nawigacji, łatwego w obsłudze
Model powtarza te procesy, aby stworzyć ścieżkę, która krok po kroku prowadzi robota do celu.
Aby uprościć proces, badacze zaprojektowali szablony, dzięki którym informacje z monitorowania są przedstawiane modelowi w standardowej formie – jako seria wyborów, których robot może dokonać na podstawie otoczenia.
Na przykład nagłówek może brzmieć: „Po twojej lewej stronie pod kątem 30 stopni znajdują się drzwi, a obok nich roślina doniczkowa, a za twoimi plecami małe biurko z biurkiem i komputerem” i tak dalej. Model wybiera, czy robot ma ruszyć w stronę drzwi, czy biurka.
„Jednym z największych wyzwań było znalezienie sposobu zakodowania tego rodzaju informacji na język w odpowiedni sposób, aby agent zrozumiał, jakie jest zadanie i jak powinien zareagować” – mówi Pan.
Korzyści z języka
Kiedy przetestowali to podejście, choć nie było ono skuteczniejsze od technik wizyjnych, odkryli, że ma kilka zalet.
Po pierwsze, ponieważ synteza tekstu wymaga mniej zasobów obliczeniowych niż złożone dane obrazu, ich metodę można wykorzystać do szybkiego generowania syntetycznych danych szkoleniowych. W jednym teście utworzyli 10 000 syntetycznych ścieżek w oparciu o 10 rzeczywistych ścieżek wizualnych.
Technologia ta może również wypełnić lukę, która może uniemożliwić agentowi przeszkolonemu w symulowanym środowisku dobre działanie w świecie rzeczywistym. Ta luka często występuje, ponieważ obrazy wygenerowane komputerowo mogą bardzo różnić się od scen ze świata rzeczywistego ze względu na takie elementy, jak oświetlenie lub kolor. Ale Pan twierdzi, że bardzo trudno byłoby odróżnić język opisujący fałszywy obraz od prawdziwego.
Ponadto reprezentacje używane w ich modelu są łatwiejsze do zrozumienia dla ludzi, ponieważ są napisane w języku naturalnym.
„Jeśli klientowi nie uda się osiągnąć celu, możemy łatwiej określić, gdzie i dlaczego mu się to nie udało. Być może informacje historyczne nie są wystarczająco jasne lub w notatce pominięto jakieś ważne szczegóły” – mówi Pan.
Ponadto ich metodę można łatwiej zastosować do różnorodnych zadań i środowisk, ponieważ wykorzystuje tylko jeden rodzaj danych wejściowych. Dopóki dane mogą być zakodowane w języku, mogą używać tej samej formy bez dokonywania jakichkolwiek modyfikacji.
Jednak wadą jest to, że w ich metodzie w naturalny sposób pomijane są pewne informacje, które można uchwycić za pomocą modeli opartych na wizji, takie jak informacje o głębokości.
Jednak badacze byli zaskoczeni, widząc, że połączenie reprezentacji opartych na języku z metodami opartymi na wizji poprawiło zdolność agenta do nawigacji.
„Może to oznaczać, że język jest w stanie uchwycić pewne informacje wyższego poziomu, których nie można uchwycić za pomocą czysto wizualnych cech” – mówi.
Jest to jeden z obszarów, który badacze chcieliby dokładniej zbadać. Chcą także opracować oprogramowanie do tłumaczenia zorientowane na nawigację, które poprawiłoby wydajność tej metody. Ponadto chcieliby zbadać zdolność wielkoskalowych modeli językowych do wykazania świadomości przestrzennej i zobaczyć, jak mogłoby to pomóc w nawigacji opartej na języku.
Odniesienie: „LangNav: Język jako reprezentacja percepcyjna dla nawigacji”, Bowen Pan, Rameswar Panda, So Young Jin, Rogerio Ferris, Odd Oliva, Felipe Isola i Yun Kim, 30 marca 2024 r. Informatyka > Widzenie komputerowe i rozpoznawanie wzorców.
arXiv:2310.07889
Badania te zostały częściowo sfinansowane przez laboratorium MIT-IBM Watson AI.
More Stories
Ding! Christopher Ward ogłasza nowe Bel Canto
Najlepszą reklamą podczas wydarzenia Apple Mac była bezpłatna aktualizacja pamięci RAM dla MacBooka Air
Startup zajmujący się obserwacją Ziemi wychodzi z zapomnienia z 12 milionami dolarów