Ostatnio językowe duże modele (LLM) rozwinęły i przekształciły przetwarzanie języka naturalnego za pomocą swoich niskobudżetowych technik motywacyjnych. Modele te mają rozszerzoną użyteczność w prawie każdym obszarze, od tłumaczenia maszynowego, rozumienia języka naturalnego, uzupełniania tekstu, analizy tonacji, rozpoznawania mowy i tak dalej. Dzięki niskiemu podejściu motywacyjnemu, LLM otrzymuje kilka przykładów danego zadania, wraz z niektórymi instrukcjami w języku naturalnym i ich wykorzystaniem; Potrafią się przystosować i nauczyć prawidłowo wykonywać zadanie. Zadania wymagające iteracji i propagacji ograniczeń wiążą się z kilkoma ograniczeniami podczas korzystania z tych technik stymulacji, aby przezwyciężyć wszelkie wprowadzone nowe podejścia.
Zespół naukowców z Microsoft Research, Redmond, USA, niedawno zaprezentował nową metodę o nazwie Reprompting, która eliminuje wszystkie ograniczenia związane z technikami stymulacji. To podejście automatycznie wyszukuje przydatne i skuteczne monity Chain of Idea (CoT). Kierowanie łańcuchem pomaga poprawić zdolność logiczną dużych modeli językowych i pomaga im wykonywać złożone zadania rozumowania. W tym celu kilka deklaratywnych łańcuchów myślowych jest prezentowanych jako modele podczas bodźca. Znajduje odwrócenie stymulacji CoT bardzo skutecznie, bez interwencji człowieka.
Naukowcy wykorzystali iteracyjną technikę próbkowania znaną jako próbkowanie Gibbsa w swoim algorytmie ponownego monitowania. Przedstawia problem jako próbkę powszechnej dystrybucji epitetów CoT. Ponieważ rozkład jest trudny do bezpośredniego scharakteryzowania, jako metodę aproksymacyjną zastosowano próbkowanie Gibbsa. Ta metoda próbkowania pomaga określić najlepszą instrukcję, wypróbowując różne instrukcje i określając, która z nich działa najlepiej.
Algorytm Repromprompting rozpoczyna się od próbkowania surowych receptur CoT za pomocą monitu o zerowym uruchomieniu, w którym nie są dostarczane żadne natychmiastowe informacje. Podpowiadanie zerowe umożliwia LLM generowanie odpowiedzi na zadania bez wcześniejszego szkolenia. Następnie algorytm iteracyjnie wypróbowuje nowe przepisy, korzystając z rozwiązań próbkowanych wcześniej jako podpowiedzi rodziców, a te nowe przepisy są wykorzystywane do rozwiązywania innych problemów szkoleniowych w celu znalezienia zestawu bodźców, które mają podobne podpowiedzi CoT.
Algorytm został oceniony na podstawie Wielkiej Piątki Zadań (BBH) wymagającej myślenia wieloetapowego. BBH koncentruje się na zadaniach, które jego zdaniem wykraczają poza możliwości i możliwości obecnych paradygmatów językowych. ChatGPT i InstructGPT zostały użyte jako LLM do oceny algorytmu. Po ocenie wykazano, że ponowne podpowiadanie działa lepiej niż techniki stymulacji CoT napisane przez człowieka.
Ponowne próbkowanie wykazało również ogromny potencjał w połączeniu modeli przy użyciu różnych LLM do inicjowania i próbkowania nowych receptur. Może pomóc w przeniesieniu wiedzy z silniejszego modelu do słabszego modelu, co skutkuje znacznie lepszą wydajnością wykazywaną przez słabszy model. Reprompting działał lepiej niż zadania CoT indukujące BBH napisane przez człowieka nawet o 17 punktów. Naukowcy stwierdzili, że receptury CoT, które działają dobrze na jednym modelu, mogą nie działać dobrze na innym, podkreślając potrzebę optymalizacji CoT każdego modelu w celu uzyskania bardziej sprawiedliwych porównań.
Krótko mówiąc, algorytm Reprompting to świetna zautomatyzowana metoda znajdowania skutecznych roszczeń CoT dla LLM bez interwencji człowieka. Jest to cenne podejście do radzenia sobie z ograniczeniami obecnych metod i osiągania doskonałych wyników w zadaniach wymagających myślenia wieloetapowego.
zeskanuj papier. Nie zapomnij dołączyć 21 000 + ML Sub RedditI kanał na discordzieI I Biuletyn e-mailowy, gdzie dzielimy się najnowszymi wiadomościami z badań nad sztuczną inteligencją, fajnymi projektami AI i nie tylko. Jeśli masz jakiekolwiek pytania dotyczące powyższego artykułu lub jeśli coś przeoczyliśmy, napisz do nas na adres [email protected]
🚀 Sprawdź 100’s AI Tools w AI Tools Club
Tania Malhotra jest studentką ostatniego roku University of Petroleum and Energy Studies w Dehradun, gdzie studiuje BTech w inżynierii informatycznej ze specjalizacją w sztucznej inteligencji i uczeniu maszynowym.
Jest pasjonatką nauki o danych i ma dobre analityczne i krytyczne myślenie, a także żywe zainteresowanie zdobywaniem nowych umiejętności, kierowaniem grupami i zarządzaniem pracą w sposób zorganizowany.
„Nieuleczalny myśliciel. Miłośnik jedzenia. Subtelnie czarujący badacz alkoholu. Zwolennik popkultury”.
More Stories
Ding! Christopher Ward ogłasza nowe Bel Canto
Najlepszą reklamą podczas wydarzenia Apple Mac była bezpłatna aktualizacja pamięci RAM dla MacBooka Air
Startup zajmujący się obserwacją Ziemi wychodzi z zapomnienia z 12 milionami dolarów