Witryny starają się zablokować robota sieciowego ChatGPT po pojawieniu się instrukcji

Bez reklam firma OpenAI dodała ostatnio szczegółowe informacje na temat swojego robota sieciowego, GPTBot, do witryny z dokumentacją online. GPTBot to nazwa agenta użytkownika, którego firma używa do pobierania stron internetowych w celu trenowania modeli sztucznej inteligencji stojących za ChatGPT, takich jak GPT-4. Na początku tego tygodnia niektóre witryny Szybko ogłosili swój zamiar Aby uniemożliwić GPTBotowi dostęp do jego zawartości.

W nowej dokumentacji OpenAI mówi, że strony internetowe indeksowane za pomocą GPTBota „będą prawdopodobnie wykorzystywane do ulepszania przyszłych modeli”, a umożliwienie GPTBotowi dostępu do Twojej witryny „może pomóc modelom AI stać się bardziej dokładnymi i poprawić ich ogólne możliwości i bezpieczeństwo”.

OpenAI twierdzi, że wdrożył filtry, które zapewniają, że GPTBot nie uzyskuje dostępu do źródeł, które są za paywallami, które zbierają dane osobowe lub treści naruszające zasady OpenAI.

Wiadomości o możliwości blokowania szkoleń OpenAI (jeśli je honorujesz) pojawiają się zbyt późno, aby wpłynąć na istniejące dane treningowe dla ChatGPT lub GPT-4, które zostały usunięte bez zapowiedzi lata temu. OpenAI zebrało dane do września 2021 r., co jest obecnym „kognitywnym” punktem odcięcia dla modeli językowych OpenAI.

Warto zauważyć, że nowe instrukcje Może nie Zapobiegaj dostępowi przeglądarek internetowych wtyczek ChatGPT lub ChatGPT do istniejących stron internetowych w celu przekazywania zaktualizowanych informacji użytkownikowi. Ten punkt nie jest wyjaśniony w dokumentacji i skontaktowaliśmy się z OpenAI w celu wyjaśnienia.

Odpowiedź leży w pliku robots.txt

Według OpenAI dokumentacjaGPTBot zostanie rozpoznany przez token agenta użytkownika „GPTBot”, a jego pełny ciąg to „Mozilla/5.0 AppleWebKit/537.36 (KHTML, taki sam jak Gecko; kompatybilny; GPTBot/1.0; + https://openai.com/gptbot) „.

Dokumenty OpenAI zawierają również wskazówki, jak uniemożliwić GPTBotowi indeksowanie stron internetowych przy użyciu standardów branżowych plik robots.txt plik, który jest plikiem tekstowym znajdującym się w katalogu głównym witryny internetowej, który instruuje roboty indeksujące (takie jak te używane przez wyszukiwarki), aby nie indeksowały witryny.

READ koniec gry? Po kilkudziesięcioletniej serii zwycięstw branża doświadcza spowolnienia

Wystarczy dodać te dwa wiersze do pliku robots.txt witryny:

User-agent: GPTBot
Disallow: /

OpenAI mówi również, że administratorzy mogą ograniczyć GPTBot z niektórych części witryny w pliku robots.txt z różnymi kodami:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Ponadto OpenAI wprowadziło Określone bloki adresów IP z którego będzie uruchamiany GPTBot i które mogą być również blokowane przez zapory sieciowe.

Pomimo tej opcji, zablokowanie GPTBota nie zagwarantuje, że dane o lokalizacji nie skończą się trenowaniem wszystkich przyszłych modeli sztucznej inteligencji. Oprócz problemów ze skrobakami ignorującymi pliki robots.txt, istnieją inne duże zbiory danych ze skrobanych stron internetowych (takie jak stos) nie jest powiązany z OpenAI. Te zestawy danych są powszechnie używane do trenowania LLM typu open source (lub open source), takich jak Meta’s Llama 2.

Niektóre strony internetowe reagują szybko

Chociaż ChatGPT odniósł ogromny sukces z technicznego punktu widzenia, był również kontrowersyjny ze względu na sposób, w jaki zeskrobał dane chronione prawem autorskim bez pozwolenia i skoncentrował tę wartość w komercyjnym produkcie, który omija model publikowania online. OpenAI został oskarżony (i pozwany) o plagiat w ten sposób.

W związku z tym nie jest zaskakujące, że niektóre osoby reagują na wiadomość o możliwości blokowania ich treści przed przyszłymi formularzami GPT rodzajem stłumionego słucham. Na przykład we wtorek VentureBeat Mężczyzna To krawędźPisarz podstosu Caseya NewtonaI Neila Clarka Wszyscy z Clarkesworld powiedzieli, że zablokują GPTBota wkrótce po tym, jak pojawiły się wieści o bocie.

Ale dla operatorów dużych stron internetowych opcja blokowania robotów LLM nie jest tak łatwa, jak mogłoby się wydawać. Zmuszanie niektórych LLM do ignorowania danych niektórych witryn pozostawi luki w wiedzy, które mogą bardzo dobrze służyć niektórym witrynom (takim jak witryny, które nie chcą tracić odwiedzających, jeśli ChatGPT udostępni im ich informacje), ale może również zaszkodzić innym. Na przykład blokowanie treści pochodzących z przyszłych modeli sztucznej inteligencji może zmniejszyć ślad kulturowy witryny lub marki, jeśli inteligentne chatboty staną się w przyszłości podstawowym interfejsem użytkownika. W ramach eksperymentu myślowego wyobraź sobie firmę internetową, która w 2002 roku ogłosiła, że nie chce, aby jej witryna była indeksowana przez Google — było to autodestrukcyjne posunięcie, gdy był to najpopularniejszy sposób wyszukiwania informacji w Internecie.

READ Jak grać w Zero Build w Fortnite

Wciąż jest bardzo wcześnie w generatywnej grze AI i bez względu na to, w którą stronę pójdzie technologia – lub poszczególne witryny próbują zrezygnować ze szkolenia modeli AI – przynajmniej OpenAI oferuje taką opcję.

Vasya Lebedev

„Nieuleczalny myśliciel. Miłośnik jedzenia. Subtelnie czarujący badacz alkoholu. Zwolennik popkultury”.

Witryny starają się zablokować robota sieciowego ChatGPT po pojawieniu się instrukcji – Ars Technica

Odpowiedź leży w pliku robots.txt

Niektóre strony internetowe reagują szybko

Ding! Christopher Ward ogłasza nowe Bel Canto

Najlepszą reklamą podczas wydarzenia Apple Mac była bezpłatna aktualizacja pamięci RAM dla MacBooka Air

Startup zajmujący się obserwacją Ziemi wychodzi z zapomnienia z 12 milionami dolarów

Czy należy Ci się odszkodowanie po wyroku sądu w sprawie finansowania samochodu? | Sektor finansowy

Wokalista Radiohead Thom Yorke schodzi ze sceny, gdy fan skanduje w proteście przeciwko Strefie Gazy

Nowy raport WHO pokazuje, jak miasta przyczyniają się do postępu w zapobieganiu chorobom niezakaźnym i urazom

Dwóch meloników Black Caps ma wątpliwości co do końcowego testu Indii

Odpowiedź leży w pliku robots.txt

Niektóre strony internetowe reagują szybko

Dodaj komentarz Anuluj pisanie odpowiedzi

More Stories

Ding! Christopher Ward ogłasza nowe Bel Canto

Najlepszą reklamą podczas wydarzenia Apple Mac była bezpłatna aktualizacja pamięci RAM dla MacBooka Air

Startup zajmujący się obserwacją Ziemi wychodzi z zapomnienia z 12 milionami dolarów

You may have missed

Czy należy Ci się odszkodowanie po wyroku sądu w sprawie finansowania samochodu? | Sektor finansowy

Wokalista Radiohead Thom Yorke schodzi ze sceny, gdy fan skanduje w proteście przeciwko Strefie Gazy

Nowy raport WHO pokazuje, jak miasta przyczyniają się do postępu w zapobieganiu chorobom niezakaźnym i urazom

Dwóch meloników Black Caps ma wątpliwości co do końcowego testu Indii