Uzyskaj streszczenie redaktora za darmo
Rula Khalaf, redaktor naczelna „Financial Times”, wybiera w tym cotygodniowym biuletynie swoje ulubione artykuły.
Według zainteresowanych startup Anthropic, start-up AI, został oskarżony o agresywne zbieranie danych ze stron internetowych w celu szkolenia swoich systemów, co potencjalnie narusza przy tym warunki korzystania z usług wydawców.
Twórcy sztucznej inteligencji polegają na przetwarzaniu ogromnych ilości danych pochodzących z wielu różnych źródeł w celu tworzenia dużych modeli językowych. Na tej technologii opierają się chatboty, takie jak ChatGPT firmy OpenAI i konkurent Anthropic, Claude.
Firma Anthropic została założona przez grupę byłych badaczy OpenAI w oparciu o obietnicę opracowania „odpowiedzialnych” systemów sztucznej inteligencji.
Jednak Matt Barry, dyrektor generalny Freelancer.com, oskarżył firmę z San Francisco o bycie „najbardziej agresywną firmą zajmującą się eksploracją danych w historii” w przypadku jego portalu dla freelancerów, który ma miliony odwiedzin dziennie.
Inni wydawcy internetowi powtórzyli obawy Barry’ego, że Anthropic atakuje ich witryny i ignoruje ich instrukcje, aby zaprzestać gromadzenia ich treści w celu szkolenia swoich modeli.
Według danych udostępnionych Financial Times witrynę Freelancer.com w ciągu czterech godzin odwiedziło 3,5 miliona odwiedzin z internetowego „trackera” powiązanego z Anthropic. To sprawia, że Anthropic jest „prawdopodobnie około pięć razy większy od drugiego programu śledzącego AI” – powiedział Barry.
Dodał, że liczba odwiedzin jego bota stale rośnie nawet po tym, jak Freelancer.com próbował odrzucić jego prośby o dostęp, używając standardowych protokołów sieciowych do kierowania robotami indeksującymi. Następnie Barry zdecydował się całkowicie zablokować ruch z adresów internetowych Anthropic.
„Musieliśmy ich zakazać, ponieważ nie przestrzegają zasad obowiązujących w Internecie, a to jest rażące naruszenie” – powiedział Barry [which] „To spowalnia działanie witryny dla wszystkich pracujących nad nią użytkowników, co ostatecznie wpływa na nasze przychody”.
Anthropic oświadczyło, że prowadzi dochodzenie w tej sprawie, szanuje prośby wydawców i stara się nie „ingerować ani nie przeszkadzać”.
Wyodrębnianie publicznie dostępnych danych z Internetu jest ogólnie legalne. Praktyka ta jest jednak kontrowersyjna, może naruszać warunki korzystania z witryn internetowych i może być kosztowna dla administratorów witryn.
Kyle Wiens, dyrektor generalny iFixit.com, powiedział, że w ciągu 24 godzin jego witrynę naprawy elektroniki odwiedziło 1 milion botów Anthropic. „Mamy mnóstwo alarmów [for high traffic]„Ludzie budzą się o trzeciej w nocy i to uruchamia wszystkie nasze alarmy” – powiedział.
Warunki świadczenia usług iFixit zabraniają wykorzystywania jego danych do uczenia maszynowego, powiedział Wiens. „Moja pierwsza wiadomość do Anthropic brzmi: Jeśli używasz tego do szkolenia swojego modelu, jest to nielegalne. Moja druga wiadomość brzmi: To nie jest grzeczne zachowanie w Internecie. Przerażanie jest kwestią etykiety”.
Strony internetowe korzystają z protokołu znanego jako „robots.txt”, aby trzymać roboty indeksujące i inne roboty internetowe z dala od części ich witryn. Zależy to jednak od dobrowolnego podporządkowania się.
„Szanujemy plik robots.txt, a nasz robot szanował ten sygnał, gdy iFixit go wdrażał” – stwierdziła Anthropic. Firma stwierdziła również, że jej roboty przestrzegają „technik zapobiegania fałszowaniu”, takich jak CAPTCHA, oraz że „nasze indeksowanie nie powinno być nachalne ani denerwujące. Naszym celem jest ograniczenie zakłóceń poprzez uwzględnienie szybkości przeszukiwania tych samych domen”.
Gromadzenie danych nie jest nową praktyką, ale w ciągu ostatnich kilku lat dramatycznie nasiliło się w wyniku wyścigu zbrojeń AI. Nałożyło to nowe koszty na strony internetowe.
„Roboty indeksujące wykorzystujące sztuczną inteligencję kosztowały nas znaczną ilość pieniędzy w postaci opłat za przepustowość i sprawiły, że spędziliśmy znaczną ilość czasu na radzeniu sobie z naruszeniami” – napisał Eric Hoelscher, współzałożyciel witryny hostującej dokumenty Read the Docs in a. Post na blogu „Roboty AI zachowują się w sposób lekceważący dla przeszukiwanych witryn, co może ogólnie wywołać ostry sprzeciw wobec robotów AI w ogóle” – dodał.
Firma Anthropic stworzyła jedne z najbardziej zaawansowanych chatbotów na świecie — rywalizujące z ChatGPT OpenAI — które potrafią reagować na szereg podpowiedzi w języku naturalnym, a jednocześnie pozycjonują się jako podmiot bardziej etyczny niż niektórzy konkurenci. Deklarowanym celem Anthropic jest „odpowiedzialny rozwój i utrzymanie zaawansowanej sztucznej inteligencji dla długoterminowej korzyści ludzkości”.
Ponieważ czołowe firmy zajmujące się sztuczną inteligencją konkurują o tworzenie bardziej wydajnych i wyszkolonych modeli, zagłębiają się w niewykorzystane zakątki sieci, współpracują z wydawcami lub tworzą syntetyczne dane szkoleniowe.
W ostatnich miesiącach OpenAI zawarło wiele umów z wydawcami i dostawcami treści, w tym z Reddit, The Atlantic i The Financial Times. Anthropic nie ogłosiło publicznie podobnych partnerstw.
„Wyszukiwarki zawsze wykonywały wiele czynności, ale dzięki szkoleniu generatywnej sztucznej inteligencji osiągnęły jeszcze wyższy poziom” – powiedział Barry.
Misją iFixit „jest dostarczanie informacji” – powiedział Wiens, aby zachęcić ludzi do samodzielnego naprawiania swoich urządzeń. „Nie jesteśmy przeciwni wykorzystywaniu naszych treści do trenowania modeli, chcemy po prostu być częścią rozmowy”.
Dodał: „Nie jestem zwolennikiem tego tematu, po prostu staram się, aby witryna była online”.
More Stories
Ding! Christopher Ward ogłasza nowe Bel Canto
Najlepszą reklamą podczas wydarzenia Apple Mac była bezpłatna aktualizacja pamięci RAM dla MacBooka Air
Startup zajmujący się obserwacją Ziemi wychodzi z zapomnienia z 12 milionami dolarów