puslapio_baneris

naujienos

Didelės kalbos modelis (LLM) gali rašyti įtikinamus straipsnius, pagrįstus aiškiais žodžiais, išlaikyti profesinio meistriškumo egzaminus ir rašyti pacientui suprantamą bei empatišką informaciją. Tačiau, be gerai žinomų LLM keliamų grožinės literatūros, trapumo ir netikslių faktų pavojų, pamažu dėmesio centre atsiduria ir kitos neišspręstos problemos, pavyzdžiui, dirbtinio intelekto modeliai, kuriuose kuriamos ir naudojamos potencialiai diskriminacinės „žmogiškosios vertybės“, ir net jei LLM nebefabrikuoja turinio ir nebepanaikina akivaizdžiai žalingus rezultatus, „LLM vertybės“ vis tiek gali nukrypti nuo žmogiškųjų vertybių.

 

Nesuskaičiuojama daugybė pavyzdžių iliustruoja, kaip duomenys, naudojami dirbtinio intelekto modeliams mokyti, koduoja individualias ir socialines vertybes, kurios gali įsitvirtinti modelyje. Šie pavyzdžiai apima įvairias taikymo sritis, įskaitant automatinį krūtinės ląstos rentgeno nuotraukų interpretavimą, odos ligų klasifikavimą ir algoritminį sprendimų priėmimą dėl medicininių išteklių paskirstymo. Kaip teigiama neseniai mūsų žurnale paskelbtame straipsnyje, šališki mokymo duomenys gali sustiprinti ir atskleisti visuomenėje esančias vertybes ir šališkumą. Priešingai, tyrimai taip pat parodė, kad dirbtinis intelektas gali būti naudojamas šališkumui sumažinti. Pavyzdžiui, tyrėjai pritaikė gilaus mokymosi modelius kelio rentgeno nuotraukoms ir atrado veiksnius, kurių standartiniai sunkumo rodikliai (įvertinti radiologų) praleido kelio sąnaryje, taip sumažindami nepaaiškinamus skausmo skirtumus tarp juodaodžių ir baltaodžių pacientų.

Nors vis daugiau žmonių supranta dirbtinio intelekto modelių šališkumą, ypač mokymo duomenų srityje, daugeliui kitų žmogiškųjų vertybių įėjimo taškų neskiriama pakankamai dėmesio kuriant ir diegiant dirbtinio intelekto modelius. Medicininis dirbtinis intelektas pastaruoju metu pasiekė įspūdingų rezultatų, tačiau didžiąja dalimi jis nebuvo aiškiai atsižvelgęs į žmogiškąsias vertybes ir jų sąveiką su rizikos vertinimu ir tikimybiniu samprotavimu, taip pat nebuvo modeliuojamas.

 

Kad sukonkretintumėte šias abstrakčias sąvokas, įsivaizduokite, kad esate endokrinologas, kuriam reikia paskirti rekombinantinį žmogaus augimo hormoną 8 metų berniukui, kurio amžius yra mažesnis nei 3 procentilis. Berniuko stimuliuojamo žmogaus augimo hormono lygis yra mažesnis nei 2 ng/ml (referencinė vertė >10 ng/ml, referencinė vertė daugelyje šalių už Jungtinių Valstijų ribų yra >7 ng/ml), o jo žmogaus augimo hormono koduojančiame gene aptiktos retos inaktyvacijos mutacijos. Manome, kad žmogaus augimo hormono terapijos taikymas šioje klinikinėje aplinkoje yra akivaizdus ir neginčijamas.

Žmogaus augimo hormono terapijos taikymas šiais atvejais gali sukelti ginčų: 14 metų berniuko ūgis visada buvo 10-ajame procentilyje, palyginti su jo bendraamžiais, o žmogaus augimo hormono pikas po stimuliacijos yra 8 ng/ml. Nėra žinomų funkcinių mutacijų, galinčių turėti įtakos ūgiui, taip pat nėra kitų žinomų žemo ūgio priežasčių, o jo kaulų amžius yra 15 metų (t. y. nėra vystymosi atsilikimo). Tik dalis ginčų kyla dėl skirtingų ribinių verčių, kurias nustatė ekspertai, remdamiesi dešimtimis tyrimų, susijusių su žmogaus augimo hormono lygiais, naudojamais diagnozuojant izoliuotą augimo hormono trūkumą. Bent tiek pat ginčų kyla dėl žmogaus augimo hormono terapijos rizikos ir naudos santykio pacientų, pacientų tėvų, sveikatos priežiūros specialistų, farmacijos kompanijų ir mokėtojų požiūriu. Vaikų endokrinologai gali įvertinti retą nepageidaujamą kasdienių augimo hormono injekcijų poveikį 2 metus su tikimybe, kad suaugusiojo kūno dydis neaugs arba augs tik minimaliai, palyginti su dabartiniu. Berniukai gali manyti, kad net jei jų ūgis padidės tik 2 cm, verta leisti augimo hormoną, tačiau mokėtojas ir farmacijos kompanija gali laikytis skirtingų nuomonių.

 

Kaip pavyzdį pateikiame kreatinino pagrindu nustatytą eGFR, kuris yra plačiai naudojamas inkstų funkcijos rodiklis lėtinei inkstų ligai diagnozuoti ir stadijai nustatyti, inkstų transplantacijos ar donorystės sąlygoms nustatyti ir daugelio receptinių vaistų mažinimo kriterijams bei kontraindikacijoms nustatyti. EGFR yra paprasta regresinė lygtis, naudojama išmatuotam glomerulų filtracijos greičiui (mGFR) įvertinti, kuris yra etaloninis standartas, tačiau vertinimo metodas yra gana sudėtingas. Šios regresinės lygties negalima laikyti dirbtinio intelekto modeliu, tačiau ji iliustruoja daugelį principų, susijusių su žmogaus vertybėmis ir tikimybiniu samprotavimu.

Pirmasis įėjimo taškas, į kurį įtraukiamos žmogaus vertės į eGFR, yra duomenų pasirinkimas lygčių pritaikymui. Pradinę eilę, naudotą eGFR formulei sukurti, daugiausia sudarė juodaodžiai ir baltaodžiai dalyviai, o jos pritaikomumas daugeliui kitų etninių grupių nėra aiškus. Vėlesni žmogaus verčių įėjimo į šią formulę taškai apima: mGFR tikslumo pasirinkimą kaip pagrindinį inkstų funkcijos vertinimo tikslą, koks yra priimtinas tikslumo lygis, kaip matuoti tikslumą ir eGFR naudojimą kaip slenkstį klinikinių sprendimų priėmimui (pvz., inkstų transplantacijos sąlygų nustatymui ar vaistų skyrimui). Galiausiai, renkantis įvesties modelio turinį, žmogaus vertės taip pat bus įtrauktos į šią formulę.

Pavyzdžiui, iki 2021 m. gairėse buvo siūloma koreguoti kreatinino kiekį eGFR formulėje pagal paciento amžių, lytį ir rasę (klasifikuojami tik kaip juodaodžiai arba ne juodaodžiai asmenys). Koregavimas pagal rasę skirtas pagerinti mGFR formulės tikslumą, tačiau 2020 m. didžiosios ligoninės pradėjo abejoti rase pagrįsto eGFR naudojimu, nurodydamos tokias priežastis kaip paciento tinkamumo transplantacijai atidėjimas ir rasės, kaip biologinės sąvokos, sukonkretinimas. Tyrimai parodė, kad eGFR modelių kūrimas atsižvelgiant į rasę gali turėti didelį ir skirtingą poveikį tikslumui ir klinikiniams rezultatams; todėl selektyvus dėmesys tikslumui arba sutelkimas į dalį rezultatų atspindi vertybinius sprendimus ir gali maskuoti skaidrų sprendimų priėmimą. Galiausiai nacionalinė darbo grupė pasiūlė naują formulę, kuri buvo pritaikyta neatsižvelgiant į rasę, siekiant subalansuoti našumo ir sąžiningumo klausimus. Šis pavyzdys iliustruoja, kad net ir paprasta klinikinė formulė turi daug įėjimo į žmogaus vertybes taškų.

Gydytojas su virtualia realybe ligoninės operacinėje. Chirurgas analizuoja paciento širdies tyrimų rezultatus ir žmogaus anatomiją technologinėje skaitmeninėje futuristinėje virtualioje sąsajoje, skaitmeninėje holografinėje, novatoriškoje mokslo ir medicinos koncepcijoje.

Palyginti su klinikinėmis formulėmis, kuriose yra tik nedidelis skaičius prognozavimo rodiklių, LLM gali susidėti iš milijardų ar šimtų milijardų parametrų (modelio svorių) ar daugiau, todėl jį sunku suprasti. Sakome „sunku suprasti“, nes daugumoje LLM tikslaus būdo, kaip gauti atsakymus užduodant klausimus, neįmanoma nustatyti. GPT-4 parametrų skaičius dar nepaskelbtas; jo pirmtakas GPT-3 turėjo 175 milijardus parametrų. Daugiau parametrų nebūtinai reiškia geresnes galimybes, nes mažesni modeliai, apimantys daugiau skaičiavimo ciklų (pvz., LLaMA [Large Language Model Meta AI] modelių serija) arba modeliai, kurie yra tiksliai suderinti remiantis žmonių atsiliepimais, veiks geriau nei didesni modeliai. Pavyzdžiui, remiantis žmonių vertintojų duomenimis, „InstrumentGPT“ modelis (modelis su 1,3 milijardo parametrų) optimizuoja modelio išvesties rezultatus ir yra pranašesnis už GPT-3.

Konkrečios GPT-4 mokymo detalės dar nebuvo atskleistos, tačiau buvo atskleista ankstesnių kartų modelių, įskaitant GPT-3, InstrumentGPT ir daugelį kitų atvirojo kodo LLM, informacija. Šiais laikais daugelis dirbtinio intelekto modelių turi modelių korteles; GPT-4 vertinimo ir saugumo duomenys buvo paskelbti panašioje sistemos kortelėje, kurią pateikė modelių kūrimo įmonė „OpenAI“. LLM kūrimą galima grubiai suskirstyti į du etapus: pradinį išankstinio mokymo etapą ir tikslinimo etapą, kuriuo siekiama optimizuoti modelio išvesties rezultatus. Išankstinio mokymo etape modeliui pateikiamas didelis korpusas, įskaitant originalų interneto tekstą, kad jis būtų apmokytas numatyti kitą žodį. Šis, atrodytų, paprastas „automatinio užbaigimo“ procesas sukuria galingą pagrindinį modelį, tačiau jis taip pat gali sukelti žalingą elgesį. Žmogiškosios vertybės pateks į išankstinio mokymo etapą, įskaitant GPT-4 išankstinio mokymo duomenų pasirinkimą ir sprendimą pašalinti netinkamą turinį, pvz., pornografinį turinį, iš išankstinio mokymo duomenų. Nepaisant šių pastangų, pagrindinis modelis vis tiek gali būti nei naudingas, nei pajėgus sulaikyti žalingus išvesties rezultatus. Kitame tikslinimo etape atsiras daug naudingo ir nekenksmingo elgesio.

Tikslinimo etape kalbos modelių elgesys dažnai yra iš esmės pakeičiamas prižiūrimo tikslinimo ir sustiprinimo mokymosi, pagrįsto žmonių atsiliepimais, dėka. Prižiūrimo tikslinimo etape samdomi rangovų darbuotojai rašo atsakymų pavyzdžius užduoties žodžiams ir tiesiogiai apmoko modelį. Pastiprinimo mokymosi etape, pagrįstuose žmonių atsiliepimais, žmonių vertintojai rūšiuoja modelio išvesties rezultatus kaip įvesties turinio pavyzdžius. Tada pritaiko aukščiau pateiktus palyginimo rezultatus, kad sužinotų „atlygio modelį“ ir toliau tobulintų modelį sustiprinimo mokymosi būdu. Nuostabus žemo lygio žmonių įsitraukimas gali tiksliai suderinti šiuos didelius modelius. Pavyzdžiui, „InstrumentGPT“ modelyje buvo naudojama maždaug 40 rangovų darbuotojų komanda, surinkta iš minios finansavimo svetainių, ir jie išlaikė atrankos testą, kurio tikslas buvo atrinkti komentatorių grupę, jautrią skirtingų gyventojų grupių pageidavimams.

Kaip rodo šie du kraštutiniai pavyzdžiai, būtent paprasta klinikinė formulė [eGFR] ir galinga LLM [GPT-4], žmogaus sprendimų priėmimas ir vertybės vaidina nepakeičiamą vaidmenį formuojant modelio rezultatus. Ar šie dirbtinio intelekto modeliai gali atspindėti įvairias pacientų ir gydytojų vertybes? Kaip viešai valdyti dirbtinio intelekto taikymą medicinoje? Kaip minėta toliau, medicininės sprendimų analizės persvarstymas gali pateikti principinį šių problemų sprendimą.

 

Medicininė sprendimų analizė nėra pažįstama daugeliui klinikų specialistų, tačiau ji gali atskirti tikimybinį samprotavimą (neaiškiems su sprendimų priėmimu susijusiems rezultatams, pavyzdžiui, ar skirti žmogaus augimo hormoną prieštaringai vertinamame klinikiniame scenarijuje, parodytame 1 paveiksle) ir svarstymo veiksnius (subjektyvioms vertybėms, susijusioms su šiais rezultatais, kurių vertė kiekybiškai įvertinama kaip „nauda“, pavyzdžiui, 2 cm vyro ūgio padidėjimo vertė), pateikdama sistemingus sprendimus sudėtingiems medicininiams sprendimams. Sprendimų analizėje gydytojai pirmiausia turi nustatyti visus galimus sprendimus ir tikimybes, susijusias su kiekvienu rezultatu, o tada įtraukti paciento (ar kitos šalies) naudingumą, susijusį su kiekvienu rezultatu, kad pasirinktų tinkamiausią variantą. Todėl sprendimų analizės pagrįstumas priklauso nuo to, ar rezultato nustatymas yra išsamus, taip pat nuo to, ar naudingumo matavimas ir tikimybės įvertinimas yra tikslūs. Idealiu atveju šis metodas padeda užtikrinti, kad sprendimai būtų pagrįsti įrodymais ir atitiktų paciento pageidavimus, taip sumažinant atotrūkį tarp objektyvių duomenų ir asmeninių vertybių. Šis metodas medicinos srityje buvo pristatytas prieš kelis dešimtmečius ir taikomas individualiam pacientų sprendimų priėmimui ir populiacijos sveikatos vertinimui, pavyzdžiui, teikiant rekomendacijas dėl kolorektalinio vėžio patikros visai populiacijai.

 

Medicininėje sprendimų analizėje buvo sukurti įvairūs metodai naudingumui nustatyti. Dauguma tradicinių metodų tiesiogiai gauna vertę iš individualių pacientų. Paprasčiausias metodas yra naudoti vertinimo skalę, kurioje pacientai įvertina savo pageidavimų lygį tam tikram rezultatui skaitmeninėje skalėje (pvz., linijinėje skalėje nuo 1 iki 10), o abiejuose galuose yra kraštutiniai sveikatos rezultatai (pvz., visiška sveikata ir mirtis). Laiko mainų metodas yra dar vienas dažnai naudojamas metodas. Taikant šį metodą, pacientai turi nuspręsti, kiek laiko jie nori praleisti sveikai gyvendami mainais už prastos sveikatos laikotarpį. Standartinis lošimų metodas yra dar vienas dažnai naudojamas metodas naudingumui nustatyti. Taikant šį metodą, pacientų klausiama, kurį iš dviejų variantų jie renkasi: arba gyventi tam tikrą metų skaičių normalios sveikatos sąlygomis su tam tikra tikimybe (p) (t), arba prisiimti mirties riziką su 1 p tikimybe; arba užtikrinti, kad gyventų t metų esant skirtingoms sveikatos sąlygoms. Kelis kartus apklauskite pacientus esant skirtingoms p reikšmėms, kol jie neparodys jokio pasirinkimo, kad naudingumą būtų galima apskaičiuoti remiantis pacientų atsakymais.
Be metodų, naudojamų individualiems pacientų pageidavimams išsiaiškinti, taip pat buvo sukurti metodai, skirti naudai pacientų populiacijai gauti. Ypač fokus grupių diskusijos (suburiant pacientus aptarti konkrečią patirtį) gali padėti suprasti jų požiūrį. Siekiant efektyviai apibendrinti grupės naudą, buvo pasiūlyti įvairūs struktūrizuoti grupinių diskusijų metodai.
Praktiškai tiesioginis naudingumo įdiegimas klinikinės diagnostikos ir gydymo procese užima labai daug laiko. Kaip sprendimas, apklausos anketos paprastai platinamos atsitiktinai atrinktoms populiacijoms, siekiant gauti naudingumo balus populiacijos lygmeniu. Keletas pavyzdžių: „EuroQol“ 5 dimensijų klausimynas, 6 dimensijų naudingumo svorio trumpoji forma, sveikatos naudingumo indeksas ir vėžiui skirtas Europos vėžio tyrimų ir gydymo organizacijos gyvenimo kokybės klausimynas „Core 30“.


Įrašo laikas: 2024 m. birželio 1 d.