Biegowelove.pl

informacje o Polsce. Wybierz tematy, o których chcesz dowiedzieć się więcej

Badacze firmy Microsoft przedstawiają przeformułowanie: iteracyjny algorytm próbkowania, który wyszukuje receptury łańcucha myśli (CoT) dla danego zadania bez interwencji człowieka.

Badacze firmy Microsoft przedstawiają przeformułowanie: iteracyjny algorytm próbkowania, który wyszukuje receptury łańcucha myśli (CoT) dla danego zadania bez interwencji człowieka.

Badacze firmy Microsoft przedstawiają przeformułowanie: iteracyjny algorytm próbkowania, który wyszukuje receptury łańcucha myśli (CoT) dla danego zadania bez interwencji człowieka.
https://arxiv.org/abs/2305.09993

Ostatnio językowe duże modele (LLM) rozwinęły i przekształciły przetwarzanie języka naturalnego za pomocą swoich niskobudżetowych technik motywacyjnych. Modele te mają rozszerzoną użyteczność w prawie każdym obszarze, od tłumaczenia maszynowego, rozumienia języka naturalnego, uzupełniania tekstu, analizy tonacji, rozpoznawania mowy i tak dalej. Dzięki niskiemu podejściu motywacyjnemu, LLM otrzymuje kilka przykładów danego zadania, wraz z niektórymi instrukcjami w języku naturalnym i ich wykorzystaniem; Potrafią się przystosować i nauczyć prawidłowo wykonywać zadanie. Zadania wymagające iteracji i propagacji ograniczeń wiążą się z kilkoma ograniczeniami podczas korzystania z tych technik stymulacji, aby przezwyciężyć wszelkie wprowadzone nowe podejścia.

Zespół naukowców z Microsoft Research, Redmond, USA, niedawno zaprezentował nową metodę o nazwie Reprompting, która eliminuje wszystkie ograniczenia związane z technikami stymulacji. To podejście automatycznie wyszukuje przydatne i skuteczne monity Chain of Idea (CoT). Kierowanie łańcuchem pomaga poprawić zdolność logiczną dużych modeli językowych i pomaga im wykonywać złożone zadania rozumowania. W tym celu kilka deklaratywnych łańcuchów myślowych jest prezentowanych jako modele podczas bodźca. Znajduje odwrócenie stymulacji CoT bardzo skutecznie, bez interwencji człowieka.

Naukowcy wykorzystali iteracyjną technikę próbkowania znaną jako próbkowanie Gibbsa w swoim algorytmie ponownego monitowania. Przedstawia problem jako próbkę powszechnej dystrybucji epitetów CoT. Ponieważ rozkład jest trudny do bezpośredniego scharakteryzowania, jako metodę aproksymacyjną zastosowano próbkowanie Gibbsa. Ta metoda próbkowania pomaga określić najlepszą instrukcję, wypróbowując różne instrukcje i określając, która z nich działa najlepiej.

Algorytm Repromprompting rozpoczyna się od próbkowania surowych receptur CoT za pomocą monitu o zerowym uruchomieniu, w którym nie są dostarczane żadne natychmiastowe informacje. Podpowiadanie zerowe umożliwia LLM generowanie odpowiedzi na zadania bez wcześniejszego szkolenia. Następnie algorytm iteracyjnie wypróbowuje nowe przepisy, korzystając z rozwiązań próbkowanych wcześniej jako podpowiedzi rodziców, a te nowe przepisy są wykorzystywane do rozwiązywania innych problemów szkoleniowych w celu znalezienia zestawu bodźców, które mają podobne podpowiedzi CoT.

READ  Następna gra The Sims będzie dostępna w trybie free-to-play i nie zastąpi The Sims 4

Algorytm został oceniony na podstawie Wielkiej Piątki Zadań (BBH) wymagającej myślenia wieloetapowego. BBH koncentruje się na zadaniach, które jego zdaniem wykraczają poza możliwości i możliwości obecnych paradygmatów językowych. ChatGPT i InstructGPT zostały użyte jako LLM do oceny algorytmu. Po ocenie wykazano, że ponowne podpowiadanie działa lepiej niż techniki stymulacji CoT napisane przez człowieka.

Ponowne próbkowanie wykazało również ogromny potencjał w połączeniu modeli przy użyciu różnych LLM do inicjowania i próbkowania nowych receptur. Może pomóc w przeniesieniu wiedzy z silniejszego modelu do słabszego modelu, co skutkuje znacznie lepszą wydajnością wykazywaną przez słabszy model. Reprompting działał lepiej niż zadania CoT indukujące BBH napisane przez człowieka nawet o 17 punktów. Naukowcy stwierdzili, że receptury CoT, które działają dobrze na jednym modelu, mogą nie działać dobrze na innym, podkreślając potrzebę optymalizacji CoT każdego modelu w celu uzyskania bardziej sprawiedliwych porównań.

Krótko mówiąc, algorytm Reprompting to świetna zautomatyzowana metoda znajdowania skutecznych roszczeń CoT dla LLM bez interwencji człowieka. Jest to cenne podejście do radzenia sobie z ograniczeniami obecnych metod i osiągania doskonałych wyników w zadaniach wymagających myślenia wieloetapowego.


zeskanuj papier. Nie zapomnij dołączyć 21 000 + ML Sub RedditI kanał na discordzieI I Biuletyn e-mailowy, gdzie dzielimy się najnowszymi wiadomościami z badań nad sztuczną inteligencją, fajnymi projektami AI i nie tylko. Jeśli masz jakiekolwiek pytania dotyczące powyższego artykułu lub jeśli coś przeoczyliśmy, napisz do nas na adres [email protected]

🚀 Sprawdź 100’s AI Tools w AI Tools Club