Niezależne od domeny ogólne modele oceny zwiększają wydajność agenta cyfrowego: przełom w adaptacyjnych technikach sztucznej inteligencji

Agenci cyfrowi, czyli jednostki oprogramowania zaprojektowane w celu ułatwienia i automatyzacji interakcji między ludźmi a platformami cyfrowymi, zyskują na znaczeniu jako narzędzia zmniejszające wysiłek wymagany w rutynowych zadaniach cyfrowych. Tacy agenci mogą autonomicznie poruszać się po interfejsach internetowych lub zarządzać kontrolą urządzeń, potencjalnie zmieniając sposób interakcji użytkowników z technologią. Dziedzina ta dojrzała do opracowania rozwiązań zwiększających niezawodność i wydajność tych agentów w różnorodnych zadaniach i środowiskach.

Pomimo swoich możliwości agenci cyfrowi często błędnie interpretują polecenia użytkownika lub nie dostosowują się do nowych lub złożonych środowisk, co prowadzi do nieefektywności i błędów. Wyzwanie polega na opracowaniu agentów, którzy będą w stanie konsekwentnie rozumieć i dokładnie wykonywać zadania, nawet w obliczu nieznanych instrukcji lub interfejsów.

Obecne metody oceny wydajności agenta cyfrowego zazwyczaj opierają się na ustalonych kryteriach. Kryteria te oceniają, czy działania agenta są zgodne z wcześniej ustalonymi oczekiwaniami opartymi na scenariuszach generowanych przez ludzi. Jednak te tradycyjne podejścia nie zawsze oddają dynamiczną naturę interakcji w świecie rzeczywistym, gdzie instrukcje użytkownika mogą się znacznie różnić. Dlatego potrzebne jest bardziej elastyczne i adaptacyjne podejście do oceny.

Naukowcy z Uniwersytetu Kalifornijskiego w Berkeley i Uniwersytetu Michigan zaproponowali nowe podejście wykorzystujące ogólne modele oceny domeny. Modele te niezależnie oceniają i poprawiają wydajność agentów cyfrowych przy użyciu zaawansowanych technik uczenia maszynowego. W przeciwieństwie do tradycyjnych metod, te nowe modele nie wymagają nadzoru człowieka. Zamiast tego wykorzystuje kombinację modeli wizji i języka do oceny działań agentów w kontekście szerokiego zakresu zadań, zapewniając dokładniejsze zrozumienie możliwości agentów.

Dwa podstawowe podejścia do tego nowego podejścia obejmują w pełni zintegrowany model i ustandaryzowany dwuetapowy proces oceny. Zintegrowany model ocenia działania agentów bezpośrednio na podstawie instrukcji użytkownika i zrzutów ekranu, wykorzystując zaawansowane, wstępnie wytrenowane modele języka wizyjnego. Tymczasem standardowe podejście najpierw konwertuje dane wizualne na tekst, a następnie wykorzystuje modele językowe do oceny opisów tekstowych pod kątem instrukcji użytkownika. Metoda ta zwiększa przejrzystość i może być wdrożona przy niższych kosztach obliczeniowych, dzięki czemu nadaje się do zastosowań w czasie rzeczywistym.

Skuteczność tych nowych modeli oceny została potwierdzona rygorystycznymi testami. Na przykład modele poprawiły wskaźnik sukcesu istniejących agentów cyfrowych nawet o 29%, według testów porównawczych takich jak WebArena. W zadaniach związanych z transferem domeny, w których agenci są wdrażani do nowych środowisk bez wcześniejszego szkolenia, modele umożliwiły wzrost dokładności o 75%, potwierdzając ich zdolność adaptacji i niezawodność.

READ Jak dodać pliki lokalne do biblioteki Spotify

Migawka badawcza

Podsumowując, badanie dotyczy ciągłego wyzwania, jakim jest awaria agentów cyfrowych w złożonych lub nieznanych środowiskach. Badanie pokazuje ogromny postęp w zwiększaniu wydajności agentów cyfrowych poprzez wdrożenie modeli oceny niezależnych od domeny publicznej. Te zintegrowane, modułowe modele niezależnie optymalizują procedury agentów, co skutkuje poprawą testów porównawczych nawet o 29% i wzrostem zadań związanych z przeniesieniem zakresu o 75%. To osiągnięcie pokazuje potencjał adaptacyjnych technologii sztucznej inteligencji w zakresie zrewolucjonizowania niezawodności i wydajności agentów cyfrowych, co stanowi krytyczny postęp w kierunku ich szerszego zastosowania na różnych platformach cyfrowych.

Sprawdź papier I githubie. Cała zasługa za te badania przypada badaczom biorącym udział w tym projekcie. Nie zapomnij także nas obserwować Świergot. Dołącz do nas Kanał telegramowy, Kanał na DiscordzieI Gram na LinkedInop.

Jeśli podoba Ci się nasza praca, pokochasz naszą pracę wiadomości..

Nie zapomnij do nas dołączyć Ponad 40 tys. ml subReddita

Chcesz wystąpić przed 1,5 milionami odbiorców AI? Pracuj z nami tutaj

Witam, nazywam się Adnan Hassan. Jestem stażystą konsultantem w Marktechpost, a wkrótce będę stażystą w zarządzaniu w American Express. Obecnie studiuję podwójny stopień w Indyjskim Instytucie Technologii w Kharagpur. Pasjonuję się technologią i chcę tworzyć nowe produkty, które robią różnicę.

🐝 Dołącz do najszybciej rozwijającego się biuletynu badawczego dotyczącego sztucznej inteligencji, czytanego przez badaczy z Google + NVIDIA + Meta + Stanford + MIT + Microsoft i wielu innych…

Vasya Lebedev

„Nieuleczalny myśliciel. Miłośnik jedzenia. Subtelnie czarujący badacz alkoholu. Zwolennik popkultury”.

Niezależne od domeny ogólne modele oceny zwiększają wydajność agenta cyfrowego: przełom w adaptacyjnych technikach sztucznej inteligencji

Emdoor przygotowuje się do zaprezentowania swoich osiągnięć w zakresie nowej technologii sztucznej inteligencji podczas targów Global Sources Mobile Electronics Show 2024.

LinkedIn wykorzystuje Twoje dane do szkolenia Microsoft, OpenAI i jego modeli AI – oto jak to wyłączyć

Zapomnij o Apple Watch Series 10 — Apple Watch Ultra 2 w kolorze Satin Black to smartwatch, który warto mieć

W Polsce odkryto setki artefaktów, w tym hełm celtycki z brązu

Stopy procentowe w Wielkiej Brytanii: Bank Anglii wkrótce ujawni swoją kolejną decyzję

Zdjęcia do „Pasji” rozpoczną się na początku 2025 roku

Bardziej ekologiczne wybory, bystrzejsze umysły: badania łączą zrównoważony rozwój i zdrowie mózgu

Dodaj komentarz Anuluj pisanie odpowiedzi

More Stories