Model velkého jazyka (LLM) dokáže psát přesvědčivé články založené na výstižných slovech, skládat zkoušky odborné způsobilosti a psát informace vstřícné k pacientům a empatické. Kromě dobře známých rizik fikce, křehkosti a nepřesných faktů v LLM se však do centra pozornosti postupně dostávají i další nevyřešené problémy, jako například modely umělé inteligence obsahující potenciálně diskriminační „lidské hodnoty“ při svém vytváření a používání. I když LLM již nevytváří obsah a eliminuje jasně škodlivé výstupní výsledky, „hodnoty LLM“ se od lidských hodnot stále mohou odchylovat.
Nespočet příkladů ilustruje, jak data použitá k trénování modelů umělé inteligence kódují individuální a sociální hodnoty, které se mohou v modelu upevnit. Tyto příklady zahrnují řadu aplikací, včetně automatické interpretace rentgenových snímků hrudníku, klasifikace kožních onemocnění a algoritmického rozhodování o alokaci lékařských zdrojů. Jak je uvedeno v nedávném článku v našem časopise, zkreslená trénovací data mohou zesílit a odhalit hodnoty a zkreslení přítomné ve společnosti. Výzkum naopak ukázal, že umělou inteligenci lze použít ke snížení zkreslení. Vědci například aplikovali modely hlubokého učení na rentgenové snímky kolen a objevili faktory, které standardní indikátory závažnosti (hodnocené radiology) v kolenním kloubu přehlédly, čímž se snížily nevysvětlitelné rozdíly v bolesti mezi černošskými a bílými pacienty.
Přestože si stále více lidí uvědomuje zkreslení v modelech umělé inteligence, zejména pokud jde o trénovací data, mnoha dalším vstupním bodům lidských hodnot se v procesu vývoje a nasazení modelů umělé inteligence nevěnuje dostatečná pozornost. Lékařská umělá inteligence v poslední době dosáhla působivých výsledků, ale do značné míry explicitně nezohledňuje lidské hodnoty a jejich interakci s hodnocením rizik a pravděpodobnostním uvažováním, ani nebyla modelována.
Pro konkretizaci těchto abstraktních konceptů si představte, že jste endokrinolog, který má předepsat rekombinantní lidský růstový hormon osmiletému chlapci, který je mladší 3. percentilu svého věku. Chlapcova hladina stimulovaného lidského růstového hormonu je nižší než 2 ng/ml (referenční hodnota > 10 ng/ml, referenční hodnota pro mnoho zemí mimo Spojené státy je > 7 ng/ml) a v jeho genu kódujícím lidský růstový hormon byly detekovány vzácné inaktivační mutace. Domníváme se, že použití terapie lidským růstovým hormonem je v tomto klinickém prostředí zřejmé a nesporné.
Aplikace terapie lidským růstovým hormonem v následujících scénářích může vyvolat kontroverze: výška 14letého chlapce se vždy pohybovala v 10. percentilu jeho vrstevníků a vrchol lidského růstového hormonu po stimulaci je 8 ng/ml. Nejsou známy žádné funkční mutace, které by mohly ovlivnit výšku, ani jiné známé příčiny nízkého vzrůstu a jeho kostní věk je 15 let (tj. žádné vývojové zpoždění). Pouze část kontroverze je způsobena rozdíly v prahových hodnotách stanovených odborníky na základě desítek studií týkajících se hladin lidského růstového hormonu používaných k diagnostice izolovaného deficitu růstového hormonu. Přinejmenším stejná kontroverze pramení z poměru rizik a přínosů užívání terapie lidským růstovým hormonem z pohledu pacientů, rodičů pacientů, zdravotnických pracovníků, farmaceutických společností a plátců. Pediatričtí endokrinologové mohou zvažovat vzácné nežádoucí účinky denních injekcí růstového hormonu po dobu 2 let s pravděpodobností žádného nebo pouze minimálního růstu v dospělosti ve srovnání se současností. Chlapci se mohou domnívat, že i když se jejich výška zvýší pouze o 2 cm, stojí za to aplikovat si růstový hormon, ale plátce a farmaceutická společnost mohou mít odlišné názory.
Jako příklad uvádíme eGFR na bázi kreatininu, což je široce používaný indikátor renálních funkcí pro diagnostiku a stanovení stadia chronického onemocnění ledvin, stanovení podmínek pro transplantaci nebo darování ledvin a určení redukčních kritérií a kontraindikací pro mnoho léků na předpis. EGFR je jednoduchá regresní rovnice používaná k odhadu naměřené rychlosti glomerulární filtrace (mGFR), která je referenčním standardem, ale metoda hodnocení je relativně těžkopádná. Tuto regresní rovnici nelze považovat za model umělé inteligence, ale ilustruje mnoho principů o lidských hodnotách a pravděpodobnostním uvažování.
Prvním vstupním bodem pro vstup lidských hodnot do eGFR je výběr dat pro fitovací rovnice. Původní fronta použitá k návrhu vzorce pro eGFR se skládá převážně z černošských a bílých účastníků a jeho použitelnost pro mnoho dalších etnických skupin není jasná. Následné vstupní body pro vstup lidských hodnot do tohoto vzorce zahrnují: výběr přesnosti mGFR jako primárního cíle pro hodnocení funkce ledvin, jaká je přijatelná úroveň přesnosti, jak měřit přesnost a použití eGFR jako prahové hodnoty pro spuštění klinického rozhodování (například stanovení podmínek pro transplantaci ledvin nebo předepisování léků). A konečně, při výběru obsahu vstupního modelu vstoupí do tohoto vzorce také lidské hodnoty.
Například před rokem 2021 doporučení navrhují úpravu hladin kreatininu ve vzorci eGFR na základě věku, pohlaví a rasy pacienta (klasifikují se pouze jako černoši nebo osoby jiné rasy). Úprava na základě rasy má za cíl zlepšit přesnost vzorce mGFR, ale v roce 2020 začaly velké nemocnice zpochybňovat používání eGFR na základě rasy s odůvodněním, jako je odložení způsobilosti pacienta k transplantaci a konkretizace rasy jako biologického konceptu. Výzkum ukázal, že navrhování modelů eGFR z hlediska rasy může mít hluboký a proměnlivý dopad na přesnost a klinické výsledky; selektivní zaměření na přesnost nebo zaměření na část výsledků proto odráží hodnotové úsudky a může maskovat transparentní rozhodování. Národní pracovní skupina nakonec navrhla nový vzorec, který byl upraven bez zohlednění rasy, aby se vyvážily otázky výkonu a spravedlnosti. Tento příklad ilustruje, že i jednoduchý klinický vzorec má mnoho vstupních bodů do lidských hodnot.
Ve srovnání s klinickými vzorci s pouze malým počtem prediktivních indikátorů může LLM sestávat z miliard až stovek miliard parametrů (modelových vah) nebo i více, což ztěžuje jeho pochopení. Důvod, proč říkáme „obtížně pochopitelný“, je ten, že ve většině LLM nelze zmapovat přesný způsob vyvolání odpovědí prostřednictvím dotazování. Počet parametrů pro GPT-4 dosud nebyl oznámen; jeho předchůdce GPT-3 měl 175 miliard parametrů. Více parametrů nemusí nutně znamenat silnější možnosti, protože menší modely, které zahrnují více výpočetních cyklů (jako je řada modelů LLaMA [Large Language Model Meta AI]), nebo modely, které jsou jemně vyladěny na základě lidské zpětné vazby, budou mít lepší výkon než větší modely. Například podle lidských hodnotitelů model InstrumentGPT (model s 1,3 miliardami parametrů) překonává GPT-3 v optimalizaci výstupních výsledků modelu.
Konkrétní detaily trénování GPT-4 dosud nebyly zveřejněny, ale detaily modelů předchozí generace, včetně GPT-3, InstrumentGPT a mnoha dalších open-source LLM, byly zveřejněny. V dnešní době mnoho modelů umělé inteligence dodáváno s modelovými kartami; data o hodnocení a zabezpečení GPT-4 byla publikována v podobné systémové kartě poskytnuté společností OpenAI, která se zabývá tvorbou modelů. Vytvoření LLM lze zhruba rozdělit do dvou fází: počáteční fáze předtrénování a fáze jemného ladění zaměřená na optimalizaci výstupních výsledků modelu. Ve fázi předtrénování je modelu poskytnut rozsáhlý korpus obsahující původní internetový text, aby se natrénoval k predikci dalšího slova. Tento zdánlivě jednoduchý proces „automatického dokončování“ vytváří silný základní model, ale může také vést ke škodlivému chování. Do fáze předtrénování vstoupí lidské hodnoty, včetně výběru dat předtrénování pro GPT-4 a rozhodování o odstranění nevhodného obsahu, jako je pornografický obsah, z dat předtrénování. Navzdory tomuto úsilí nemusí být základní model stále ani užitečný, ani schopen obsahovat škodlivé výstupní výsledky. V další fázi jemného ladění se objeví mnoho užitečných a neškodných chování.
Ve fázi jemného doladění se chování jazykových modelů často zásadně mění prostřednictvím řízeného jemného doladění a posilovacího učení založeného na lidské zpětné vazbě. Ve fázi řízeného jemného doladění najatí dodavatelé napíší příklady odpovědí na výzvu k zadání a model přímo trénují. Ve fázi posilovacího učení, která je založena na lidské zpětné vazbě, lidští hodnotitelé seřadí výstupní výsledky modelu jako příklady vstupního obsahu. Poté použijí výše uvedené výsledky porovnání k naučení se „modelu odměny“ a dále vylepší model prostřednictvím posilovacího učení. Úžasné lidské zapojení na nízké úrovni může tyto rozsáhlé modely doladit. Například model InstrumentGPT využil tým přibližně 40 dodavatelů rekrutovaných z crowdsourcingových webových stránek a prošel screeningovým testem zaměřeným na výběr skupiny anotátorů, kteří jsou citliví na preference různých skupin populace.
Jak ukazují tyto dva extrémní příklady, konkrétně jednoduchý klinický vzorec [eGFR] a výkonný model LLM [GPT-4], lidské rozhodování a lidské hodnoty hrají nepostradatelnou roli při formování výstupních výsledků modelu. Mohou tyto modely umělé inteligence zachytit jejich rozmanité hodnoty pacientů a lékařů? Jak veřejně usměrňovat aplikaci umělé inteligence v medicíně? Jak je uvedeno níže, přezkoumání analýzy lékařského rozhodování by mohlo poskytnout principiální řešení těchto problémů.
Analýza lékařského rozhodování není mnoha klinickým lékařům známá, ale dokáže rozlišovat mezi pravděpodobnostním uvažováním (pro nejisté výsledky související s rozhodováním, například zda podat lidský růstový hormon v kontroverzním klinickém scénáři znázorněném na obrázku 1) a faktory zohledňujícími úvahu (pro subjektivní hodnoty spojené s těmito výsledky, jejichž hodnota je kvantifikována jako „užitečnost“, například hodnota 2cm nárůstu mužské výšky), což poskytuje systematická řešení pro složitá lékařská rozhodnutí. V analýze rozhodování musí kliničtí lékaři nejprve určit všechna možná rozhodnutí a pravděpodobnosti spojené s každým výsledkem a poté zahrnout užitečnost pacienta (nebo jiné strany) spojenou s každým výsledkem, aby vybrali nejvhodnější možnost. Platnost analýzy rozhodování proto závisí na tom, zda je nastavení výsledků komplexní, a také na tom, zda je měření užitečnosti a odhad pravděpodobnosti přesné. V ideálním případě tento přístup pomáhá zajistit, aby rozhodnutí byla založena na důkazech a v souladu s preferencemi pacienta, čímž se zmenšuje rozdíl mezi objektivními údaji a osobními hodnotami. Tato metoda byla do lékařské oblasti zavedena před několika desítkami let a aplikována na individuální rozhodování pacientů a hodnocení zdraví populace, například na poskytování doporučení pro screening kolorektálního karcinomu u běžné populace.
V analýze lékařského rozhodování byly vyvinuty různé metody pro stanovení užitečnosti. Většina tradičních metod přímo odvozuje hodnotu od jednotlivých pacientů. Nejjednodušší metodou je použití hodnotící stupnice, kde pacienti hodnotí svou úroveň preference určitého výsledku na digitální stupnici (například lineární stupnici v rozmezí od 1 do 10), přičemž nejextrémnější zdravotní výsledky (jako je úplné zdraví a smrt) se nacházejí na obou koncích. Metoda časové výměny je další běžně používanou metodou. V této metodě se pacienti musí rozhodnout, kolik zdravého času jsou ochotni strávit výměnou za období špatného zdraví. Standardní metoda hazardních her je další běžně používanou metodou pro stanovení užitečnosti. V této metodě jsou pacienti dotázáni, kterou ze dvou možností preferují: buď žít určitý počet let v normálním zdraví s určitou pravděpodobností (p)(t) a nést riziko úmrtí s pravděpodobností 1-p; nebo se ujistit, že žijí t let za podmínek křížového zdraví. Pacientů se ptejte několikrát při různých hodnotách p, dokud neprojeví žádnou preferenci pro žádnou možnost, aby bylo možné užitečnost vypočítat na základě odpovědí pacientů.
Kromě metod používaných k zjištění individuálních preferencí pacientů byly vyvinuty také metody pro dosažení užitečnosti pro populaci pacientů. Zejména diskuse ve fokusních skupinách (které sdružují pacienty k diskusi o specifických zkušenostech) mohou pomoci pochopit jejich perspektivy. Pro efektivní agregaci užitečnosti skupiny byly navrženy různé techniky strukturovaných skupinových diskusí.
V praxi je přímé zavedení užitečnosti do klinického diagnostického a léčebného procesu velmi časově náročné. Jako řešení se obvykle distribuují dotazníky náhodně vybraným populacím, aby se získalo skóre užitečnosti na úrovni populace. Mezi příklady patří 5dimenzionální dotazník EuroQol, zkrácená forma 6dimenzionální váhy užitečnosti, index užitečnosti pro zdraví a nástroj Cancer Specific European Cancer Research and Treatment Organization Quality of Life Questionnaire Core 30.
Čas zveřejnění: 1. června 2024




