× Zamknąć
Źródło: Pixabay/CC0 domena publiczna
Modele wielkojęzyczne (LLM), takie jak ChatGPT i GPT-4, mogą potencjalnie pomóc w praktyce klinicznej w automatyzacji zadań administracyjnych, sporządzaniu notatek klinicznych, komunikowaniu się z pacjentami, a nawet wspieraniu podejmowania decyzji klinicznych. Jednak wstępne badania sugerują, że modele mogą kodować i utrwalać uprzedzenia społeczne, które mogą negatywnie wpływać na grupy historycznie marginalizowane.
W nowym badaniu przeprowadzonym przez badaczy z Brigham and Women’s Hospital oceniono tendencję GPT-4 do kodowania i wyświetlania uprzedzeń rasowych i płciowych w czterech rolach wspierających podejmowanie decyzji klinicznych. Ich wyniki są Opublikowane w Lancet Cyfrowe zdrowie.
„Chociaż większość uwagi skupia się na wykorzystaniu LLM do celów dokumentacyjnych lub zadań administracyjnych, ekscytująca jest także możliwość wykorzystania LLM do wspierania podejmowania decyzji klinicznych” – powiedziała autorka korespondująca, dr Emily Alsentzer, badaczka ze stopniem doktora na tym wydziale. Ogólne choroby wewnętrzne w Brigham and Women’s Hospital. „Chcieliśmy systematycznie oceniać, czy GPT-4 koduje uprzedzenia rasowe i płciowe, które wpływają na jego zdolność do wspierania podejmowania decyzji klinicznych”.
Alsentzer i jego współpracownicy przetestowali cztery implementacje GPT-4 przy użyciu platformy Azure OpenAI. Najpierw popchnęli GPT-4 do stworzenia krótkich modeli pacjentów, które można by wykorzystać w edukacji medycznej. Następnie przetestowali zdolność GPT-4 do prawidłowego opracowania diagnostyki różnicowej i planu leczenia dla 19 różnych schorzeń pacjentów z jednej grupy. Spać Healer, medyczne narzędzie edukacyjne, które przedstawia stażystom medycznym trudne przypadki kliniczne.
Na koniec ocenili, w jaki sposób kwestionariusz GPT-4 wyciąga wnioski na temat obrazu klinicznego pacjenta, korzystając z ośmiu modeli przypadków pierwotnie stworzonych w celu pomiaru ukrytego błędu systematycznego. W każdym wniosku autorzy ocenili, czy wyniki GPT-4 były obciążone rasą lub płcią.
Na potrzeby zadania związanego z edukacją medyczną badacze skonstruowali dziesięć podpowiedzi, które wymagały użycia narzędzia GPT-4 do stworzenia prezentacji postawionej diagnozy dla pacjenta. Przeanalizowali każdą falę 100 razy i odkryli, że GPT-4 wyolbrzymia znane różnice w częstości występowania chorób według grup demograficznych.
„Jednym z uderzających przykładów jest sytuacja, gdy GPT-4 zostaje poproszony o stworzenie winiety pacjenta chorego na sarkoidozę: GPT-4 opisuje czarną kobietę w 81% przypadków” – wyjaśnia Alcentzer. „Chociaż sarkoidoza występuje częściej wśród pacjentów rasy czarnej i kobiet, nie dotyka 81% wszystkich pacjentów”.
Następnie poproszono GPT-4 o opracowanie listy 10 możliwych diagnoz choroby Spać W przypadkach remisji zmiana płci pacjenta, rasa/pochodzenie etniczne w 37% przypadków znacząco wpływały na jego zdolność do ustalenia priorytetów w zakresie prawidłowej diagnozy.
„W niektórych przypadkach proces decyzyjny GPT-4 odzwierciedla uprzedzenia związane z płcią i rasą znane z literatury” – powiedział Alsentzer. „W przypadku zatorowości płucnej model sklasyfikował atak paniki/lęku jako diagnozę bardziej prawdopodobną u kobiet niż u mężczyzn. Sklasyfikował także zakażenia przenoszone drogą płciową, takie jak ostry wirus HIV i kiła, jako bardziej prawdopodobne u pacjentów pochodzących z mniejszości etnicznych niż u pacjentów pacjenci wywodzący się z mniejszości etnicznych. Biali pacjenci.”
Na pytanie o ocenę cech osobowości pacjenta, takich jak uczciwość, zrozumienie i tolerancja na ból, w przypadku 23% pytań kwestionariusz GPT-4 dał znacząco różne odpowiedzi ze względu na rasę, pochodzenie etniczne i płeć. Na przykład w badaniu GPT-4 znacznie częściej oceniano czarnych mężczyzn jako osoby nadużywające opioidu Percocet niż pacjentów rasy azjatyckiej, czarnej, latynoskiej i białej, podczas gdy odpowiedzi powinny być identyczne dla wszystkich symulowanych stanów pacjenta.
Ograniczenia obecnego badania obejmują testowanie odpowiedzi GPT-4 przy użyciu ograniczonej liczby symulowanych podpowiedzi i analizowanie wydajności modelu przy użyciu tylko kilku tradycyjnych kategorii tożsamości demograficznych. Przyszłe prace powinny zbadać błędy systematyczne na podstawie notatek klinicznych z elektronicznej karty zdrowia.
„Chociaż narzędzia oparte na LLM są obecnie wdrażane wraz z klinicystą na bieżąco w celu weryfikacji wyników modelu, klinicystom bardzo trudno jest wykryć błędy systemowe podczas przeglądania poszczególnych przypadków pacjentów” – powiedział Alsentzer. „Bardzo ważne jest, abyśmy przeprowadzili ocenę błędu systematycznego dla każdego zamierzonego zastosowania domen LLM, tak jak robimy to w przypadku innych modeli uczenia maszynowego w dziedzinie medycyny. Nasza praca może pomóc w rozpoczęciu rozmowy na temat zdolności GPT-4 do propagowania błędu systematycznego w praktyce klinicznej aplikacje wspomagające podejmowanie decyzji.”
Dodatkowi autorzy BWH to Jorge A. Rodriguez, David W. Bates i Raja Eli E. Abdel Nour. Do dodatkowych autorów należą Travis Zak, Eric Lehman, Mirak Sozgun, Leo Anthony Sealy, Judy Jichoya, Dan Jurafsky, Peter Szolovic i Atul J. Butt.
więcej informacji:
Travis Zack i wsp., Ocena potencjału GPT-4 w celu utrwalenia uprzedzeń rasowych i płciowych w opiece zdrowotnej: badanie oceniające model, Lancet Cyfrowe zdrowie (2023). doi: 10.1016/S2589-7500(23)00225-X
„Nieuleczalny myśliciel. Miłośnik jedzenia. Subtelnie czarujący badacz alkoholu. Zwolennik popkultury”.
More Stories
Ding! Christopher Ward ogłasza nowe Bel Canto
Najlepszą reklamą podczas wydarzenia Apple Mac była bezpłatna aktualizacja pamięci RAM dla MacBooka Air
Startup zajmujący się obserwacją Ziemi wychodzi z zapomnienia z 12 milionami dolarów