Bez reklam firma OpenAI dodała ostatnio szczegółowe informacje na temat swojego robota sieciowego, GPTBot, do witryny z dokumentacją online. GPTBot to nazwa agenta użytkownika, którego firma używa do pobierania stron internetowych w celu trenowania modeli sztucznej inteligencji stojących za ChatGPT, takich jak GPT-4. Na początku tego tygodnia niektóre witryny Szybko ogłosili swój zamiar Aby uniemożliwić GPTBotowi dostęp do jego zawartości.
W nowej dokumentacji OpenAI mówi, że strony internetowe indeksowane za pomocą GPTBota „będą prawdopodobnie wykorzystywane do ulepszania przyszłych modeli”, a umożliwienie GPTBotowi dostępu do Twojej witryny „może pomóc modelom AI stać się bardziej dokładnymi i poprawić ich ogólne możliwości i bezpieczeństwo”.
OpenAI twierdzi, że wdrożył filtry, które zapewniają, że GPTBot nie uzyskuje dostępu do źródeł, które są za paywallami, które zbierają dane osobowe lub treści naruszające zasady OpenAI.
Wiadomości o możliwości blokowania szkoleń OpenAI (jeśli je honorujesz) pojawiają się zbyt późno, aby wpłynąć na istniejące dane treningowe dla ChatGPT lub GPT-4, które zostały usunięte bez zapowiedzi lata temu. OpenAI zebrało dane do września 2021 r., co jest obecnym „kognitywnym” punktem odcięcia dla modeli językowych OpenAI.
Warto zauważyć, że nowe instrukcje Może nie Zapobiegaj dostępowi przeglądarek internetowych wtyczek ChatGPT lub ChatGPT do istniejących stron internetowych w celu przekazywania zaktualizowanych informacji użytkownikowi. Ten punkt nie jest wyjaśniony w dokumentacji i skontaktowaliśmy się z OpenAI w celu wyjaśnienia.
Odpowiedź leży w pliku robots.txt
Według OpenAI dokumentacjaGPTBot zostanie rozpoznany przez token agenta użytkownika „GPTBot”, a jego pełny ciąg to „Mozilla/5.0 AppleWebKit/537.36 (KHTML, taki sam jak Gecko; kompatybilny; GPTBot/1.0; + https://openai.com/gptbot) „.
Dokumenty OpenAI zawierają również wskazówki, jak uniemożliwić GPTBotowi indeksowanie stron internetowych przy użyciu standardów branżowych plik robots.txt plik, który jest plikiem tekstowym znajdującym się w katalogu głównym witryny internetowej, który instruuje roboty indeksujące (takie jak te używane przez wyszukiwarki), aby nie indeksowały witryny.
Wystarczy dodać te dwa wiersze do pliku robots.txt witryny:
User-agent: GPTBot Disallow: /
OpenAI mówi również, że administratorzy mogą ograniczyć GPTBot z niektórych części witryny w pliku robots.txt z różnymi kodami:
User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/
Ponadto OpenAI wprowadziło Określone bloki adresów IP z którego będzie uruchamiany GPTBot i które mogą być również blokowane przez zapory sieciowe.
Pomimo tej opcji, zablokowanie GPTBota nie zagwarantuje, że dane o lokalizacji nie skończą się trenowaniem wszystkich przyszłych modeli sztucznej inteligencji. Oprócz problemów ze skrobakami ignorującymi pliki robots.txt, istnieją inne duże zbiory danych ze skrobanych stron internetowych (takie jak stos) nie jest powiązany z OpenAI. Te zestawy danych są powszechnie używane do trenowania LLM typu open source (lub open source), takich jak Meta’s Llama 2.
Niektóre strony internetowe reagują szybko
Chociaż ChatGPT odniósł ogromny sukces z technicznego punktu widzenia, był również kontrowersyjny ze względu na sposób, w jaki zeskrobał dane chronione prawem autorskim bez pozwolenia i skoncentrował tę wartość w komercyjnym produkcie, który omija model publikowania online. OpenAI został oskarżony (i pozwany) o plagiat w ten sposób.
W związku z tym nie jest zaskakujące, że niektóre osoby reagują na wiadomość o możliwości blokowania ich treści przed przyszłymi formularzami GPT rodzajem stłumionego słucham. Na przykład we wtorek VentureBeat Mężczyzna To krawędźPisarz podstosu Caseya NewtonaI Neila Clarka Wszyscy z Clarkesworld powiedzieli, że zablokują GPTBota wkrótce po tym, jak pojawiły się wieści o bocie.
Ale dla operatorów dużych stron internetowych opcja blokowania robotów LLM nie jest tak łatwa, jak mogłoby się wydawać. Zmuszanie niektórych LLM do ignorowania danych niektórych witryn pozostawi luki w wiedzy, które mogą bardzo dobrze służyć niektórym witrynom (takim jak witryny, które nie chcą tracić odwiedzających, jeśli ChatGPT udostępni im ich informacje), ale może również zaszkodzić innym. Na przykład blokowanie treści pochodzących z przyszłych modeli sztucznej inteligencji może zmniejszyć ślad kulturowy witryny lub marki, jeśli inteligentne chatboty staną się w przyszłości podstawowym interfejsem użytkownika. W ramach eksperymentu myślowego wyobraź sobie firmę internetową, która w 2002 roku ogłosiła, że nie chce, aby jej witryna była indeksowana przez Google — było to autodestrukcyjne posunięcie, gdy był to najpopularniejszy sposób wyszukiwania informacji w Internecie.
Wciąż jest bardzo wcześnie w generatywnej grze AI i bez względu na to, w którą stronę pójdzie technologia – lub poszczególne witryny próbują zrezygnować ze szkolenia modeli AI – przynajmniej OpenAI oferuje taką opcję.
„Nieuleczalny myśliciel. Miłośnik jedzenia. Subtelnie czarujący badacz alkoholu. Zwolennik popkultury”.
More Stories
Ding! Christopher Ward ogłasza nowe Bel Canto
Najlepszą reklamą podczas wydarzenia Apple Mac była bezpłatna aktualizacja pamięci RAM dla MacBooka Air
Startup zajmujący się obserwacją Ziemi wychodzi z zapomnienia z 12 milionami dolarów