د پاڼې بینر

خبرونه

د لویو ژبو ماډل (LLM) کولی شي د چټکو کلمو پر بنسټ قانع کوونکي مقالې ولیکي، د مسلکي مهارت ازموینې پاس کړي، او د ناروغ دوستانه او خواخوږي معلومات ولیکي. په هرصورت، په LLM کې د افسانې، نازکوالي، او غلط حقایقو د پیژندل شوي خطرونو سربیره، نورې نا حل شوې مسلې په تدریجي ډول تمرکز کیږي، لکه د AI ماډلونه چې د دوی په جوړولو او کارولو کې احتمالي تبعیض لرونکي "انساني ارزښتونه" لري، او حتی که LLM نور مواد نه جوړوي او په څرګنده توګه زیانمنونکي پایلې له منځه یوسي، "LLM ارزښتونه" ممکن لاهم د انساني ارزښتونو څخه انحراف وکړي.

 

بې شمېره مثالونه ښیي چې څنګه د مصنوعي ذهانت ماډلونو د روزنې لپاره کارول شوي معلومات انفرادي او ټولنیز ارزښتونه کوډ کوي، کوم چې ممکن د ماډل دننه قوي شي. دا مثالونه د غوښتنلیکونو لړۍ لري، پشمول د سینې ایکس رې اتوماتیک تفسیر، د پوستکي ناروغیو طبقه بندي، او د طبي سرچینو تخصیص په اړه د الګوریتمیک پریکړې کولو. لکه څنګه چې زموږ په ژورنال کې په یوه وروستۍ مقاله کې ویل شوي، د تعصب لرونکي روزنې معلومات ممکن په ټولنه کې موجود ارزښتونه او تعصبونه پراخ او څرګند کړي. برعکس، څیړنې دا هم ښودلې چې مصنوعي ذهانت د تعصب کمولو لپاره کارول کیدی شي. د مثال په توګه، څیړونکو د ژورې زده کړې ماډلونه د زنګون ایکس رې فلمونو ته پلي کړل او هغه عوامل یې وموندل چې د زنګون په بند کې د معیاري شدت شاخصونو (د راډیولوژیستانو لخوا درجه بندي شوي) لخوا له لاسه ورکړل شوي وو، په دې توګه د تور او سپین ناروغانو ترمنځ د درد ناڅرګند توپیرونه کم کړل.

که څه هم ډیر او ډیر خلک د مصنوعي ذهانت په ماډلونو کې تعصب درک کوي، په ځانګړې توګه د روزنې معلوماتو له مخې، د مصنوعي ذهانت د ماډلونو د پراختیا او پلي کولو په پروسه کې د انساني ارزښتونو د ننوتلو ډیری نورو نقطو ته کافي پاملرنه نه کیږي. طبي مصنوعي ذهانت په دې وروستیو کې اغیزمنې پایلې ترلاسه کړې، مګر تر ډیره حده، دا په څرګنده توګه د انساني ارزښتونو او د خطر ارزونې او احتمالي استدلال سره د دوی تعامل په پام کې نه دی نیولی، او نه هم دا ماډل شوی دی.

 

د دې لنډو مفاهیمو د مشخص کولو لپاره، تصور وکړئ چې تاسو یو انډروکرینولوژیست یاست چې د یو 8 کلن هلک لپاره چې د خپل عمر د دریمې سلنې څخه کم وي د بیا ترکیب شوي انساني ودې هورمون وړاندیز کولو ته اړتیا لري. د هلک د هڅول شوي انساني ودې هورمون کچه د 2 ng/ml څخه ښکته ده (د حوالې ارزښت،>10 ng/ml، د متحده ایالاتو څخه بهر د ډیری هیوادونو لپاره د حوالې ارزښت>7 ng/ml دی)، او د هغه د انساني ودې هورمون کوډینګ جین نادر غیر فعال بدلونونه کشف کړي دي. موږ باور لرو چې د انساني ودې هورمون درملنې پلي کول پدې کلینیکي ترتیب کې څرګند او بې له شکه دي.

په لاندې سناریوګانو کې د انسان د ودې هورمون درملنې کارول کولی شي جنجال رامینځته کړي: د یو ۱۴ کلن هلک قد تل د هغه د ملګرو په پرتله په لسمه سلنه کې وي، او د محرک وروسته د انسان د ودې هورمون لوړوالی ۸ ng/ml دی. هیڅ پیژندل شوی فعال بدلونونه شتون نلري چې قد اغیزه وکړي، او نه هم د لنډ قد نور پیژندل شوي لاملونه، او د هغه د هډوکي عمر ۱۵ کاله دی (یعنې هیڅ پرمختیایي ځنډ نشته). د جنجال یوازې یوه برخه د هغه حد ارزښتونو کې توپیر له امله ده چې د متخصصینو لخوا د لسګونو مطالعاتو پراساس ټاکل شوي چې د جلا شوي ودې هورمون کمښت تشخیص لپاره کارول کیږي. لږترلږه دومره جنجال د ناروغانو، ناروغانو والدینو، روغتیا پاملرنې متخصصینو، درمل جوړولو شرکتونو او تادیه کونکو له لید څخه د انسان د ودې هورمون درملنې کارولو د خطر ګټې توازن څخه رامینځته کیږي. د ماشومانو انډروکرینولوژیسټان ممکن د 2 کلونو لپاره د ودې هورمون ورځني انجیکشنونو نادر منفي اغیزې وزن کړي چې د اوسني په پرتله د بالغ بدن اندازې کې د هیڅ یا یوازې لږترلږه ودې احتمال سره. هلکان ممکن باور ولري چې حتی که د دوی قد یوازې 2 سانتي متره زیات شي، دا د ودې هورمون انجیکشن کولو ارزښت لري، مګر تادیه کونکی او درمل جوړونکی شرکت ممکن مختلف نظرونه ولري.

 

موږ د مثال په توګه د کریټینین پر بنسټ eGFR اخلو، کوم چې د پښتورګو د اوږدمهاله ناروغۍ تشخیص او مرحله کولو، د پښتورګو د لیږد یا بسپنې شرایطو ټاکلو، او د ډیری نسخې درملو لپاره د کمولو معیارونو او متضاداتو ټاکلو لپاره په پراخه کچه کارول شوي د پښتورګو د فعالیت شاخص دی. EGFR یو ساده ریګریشن معادله ده چې د اندازه شوي ګلومیرولر فلټریشن نرخ (mGFR) اټکل کولو لپاره کارول کیږي، کوم چې د حوالې معیار دی، مګر د ارزونې میتود نسبتا پیچلی دی. دا ریګریشن معادله د AI ماډل نشي ګڼل کیدی، مګر دا د انساني ارزښتونو او احتمالي استدلال په اړه ډیری اصول روښانه کوي.

د eGFR ته د ننوتلو لپاره د انساني ارزښتونو لومړۍ نقطه هغه وخت ده کله چې د فټینګ مساواتو لپاره معلومات غوره شي. د eGFR فورمول ډیزاین کولو لپاره کارول شوی اصلي قطار ډیری د تور او سپین ګډون کونکو څخه جوړ شوی دی، او د ډیری نورو توکمیزو ډلو لپاره د هغې تطبیق روښانه ندی. پدې فورمول کې د انساني ارزښتونو لپاره د ننوتلو وروسته ټکي پدې کې شامل دي: د پښتورګو د فعالیت ارزولو لپاره د لومړني هدف په توګه د mGFR دقت غوره کول، د دقت د منلو وړ کچه څه ده، د دقت اندازه کولو څرنګوالی، او د کلینیکي پریکړې کولو د پیل کولو لپاره د eGFR کارول (لکه د پښتورګو د لیږد لپاره شرایط ټاکل یا د درملو وړاندیز کول). په پای کې، کله چې د ان پټ ماډل مینځپانګه غوره کول، انساني ارزښتونه به هم دې فورمول ته ننوځي.

د مثال په توګه، د ۲۰۲۱ کال څخه مخکې، لارښوونې د ناروغانو د عمر، جنس او ​​نسل پر بنسټ د eGFR فورمول کې د کریټینین کچه تنظیمولو وړاندیز کوي (یوازې د تور یا غیر تور اشخاصو په توګه طبقه بندي شوي). د نسل پر بنسټ تعدیل د mGFR فورمول دقت ښه کولو لپاره دی، مګر په ۲۰۲۰ کې، لویو روغتونونو د نسل پر بنسټ د eGFR کارولو په اړه پوښتنې پیل کړې، د دې دلیلونو په ګوته کول لکه د ټرانسپلانټیشن لپاره د ناروغ وړتیا ځنډول او د نسل کنکریټ کول د بیولوژیکي مفهوم په توګه. څیړنې ښودلې چې د نسل له مخې د eGFR ماډلونو ډیزاین کولی شي په دقت او کلینیکي پایلو ژور او مختلف اغیزې ولري؛ له همدې امله، په انتخابي ډول دقت باندې تمرکز کول یا د پایلو په یوه برخه تمرکز کول د ارزښت قضاوت منعکس کوي او ممکن شفاف پریکړه کول پټ کړي. په پای کې، ملي کاري ډلې یو نوی فورمول وړاندیز کړ چې د فعالیت او انصاف مسلو متوازن کولو لپاره د نسل په پام کې نیولو پرته بیا فټ شوی. دا مثال څرګندوي چې حتی یو ساده کلینیکي فورمول د انساني ارزښتونو ته د ننوتلو ډیری ټکي لري.

ډاکټر د روغتون په عملیاتي خونه کې د مجازی واقعیت سره. جراح د ټیکنالوژیکي ډیجیټل راتلونکي مجازی انٹرفیس، ډیجیټل هولوګرافیک، په ساینس او ​​طب کې نوښتګر مفهوم کې د ناروغ د زړه ازموینې پایلې او د انسان اناتومي تحلیل کوي.

د کلینیکي فورمولونو په پرتله چې یوازې د لږ شمیر وړاندوینې شاخصونو سره، LLM ممکن د ملیاردونو څخه تر سلګونو ملیاردونو پیرامیټرو (ماډل وزنونه) یا ډیر ولري، چې پوهیدل یې ستونزمن کوي. دلیل چې ولې موږ وایو "پوهیدل ستونزمن دي" دا دی چې په ډیری LLMs کې، د پوښتنو له لارې د ځوابونو د ترلاسه کولو دقیقه لاره نقشه نشي کیدی. د GPT-4 لپاره د پیرامیټرو شمیر لا تر اوسه نه دی اعلان شوی؛ د دې مخکیني GPT-3 175 ملیارد پیرامیټرې درلودې. ډیر پیرامیټرونه اړین ندي چې قوي وړتیاوې معنی ولري، ځکه چې کوچني ماډلونه چې ډیر کمپیوټري دورې پکې شاملې دي (لکه LLaMA [د لوی ژبې ماډل میټا AI] ماډل لړۍ) یا هغه ماډلونه چې د انسان د فیډبیک پراساس په ښه ډول تنظیم شوي وي د لویو ماډلونو څخه به غوره فعالیت وکړي. د مثال په توګه، د انسان ارزونکو په وینا، د انسټرومینټ GPT ماډل (د 1.3 ملیارد پیرامیټرو سره یو ماډل) د ماډل محصول پایلو په اصلاح کولو کې GPT-3 څخه غوره فعالیت کوي.

د GPT-4 د روزنې ځانګړي توضیحات لا نه دي افشا شوي، مګر د پخوانیو نسل ماډلونو توضیحات چې GPT-3، InstrumentGPT، او ډیری نور خلاص سرچینې LLM پکې شامل دي افشا شوي دي. نن ورځ، ډیری AI ماډلونه د ماډل کارتونو سره راځي؛ د GPT-4 د ارزونې او امنیت معلومات د ماډل جوړولو شرکت OpenAI لخوا چمتو شوي ورته سیسټم کارت کې خپاره شوي. د LLM رامینځته کول تقریبا په دوه مرحلو ویشل کیدی شي: د لومړني روزنې مرحله او د ښه کولو مرحله چې هدف یې د ماډل محصول پایلو اصلاح کول دي. د روزنې دمخه مرحله کې، ماډل د اصلي انټرنیټ متن په شمول د لوی کارپس سره چمتو کیږي ترڅو د راتلونکي کلمې وړاندوینې لپاره روزنه ورکړي. دا ظاهرا ساده "اتوماتیک بشپړول" پروسه یو پیاوړی بنسټیز ماډل تولیدوي، مګر دا کولی شي د زیان رسونکي چلند لامل هم شي. انساني ارزښتونه به د روزنې دمخه مرحلې ته ننوځي، پشمول د GPT-4 لپاره د روزنې دمخه ډیټا غوره کول او د روزنې دمخه ډیټا څخه د نامناسب مینځپانګې لکه فحش مینځپانګې لرې کولو پریکړه کول. د دې هڅو سره سره، بنسټیز ماډل ممکن لاهم ګټور نه وي او نه هم د زیان رسونکي محصول پایلو درلودو وړ وي. د اصلاح په راتلونکي پړاو کې، ډېر ګټور او بې ضرره چلندونه به راڅرګند شي.

د ښه کولو په مرحله کې، د ژبې ماډلونو چلند اکثرا د څارل شوي ښه کولو او د بشري فیډبیک پراساس د تقویت زده کړې له لارې په ژوره توګه بدلیږي. د څارنې شوي ښه کولو په مرحله کې، ګمارل شوي قراردادي پرسونل به د چټکو کلمو لپاره د ځواب مثالونه ولیکي او په مستقیم ډول ماډل ته روزنه ورکړي. د بشري فیډبیک پراساس د تقویت زده کړې مرحله کې، انساني ارزونکي به د ماډل محصول پایلې د ان پټ مینځپانګې مثالونو په توګه ترتیب کړي. بیا د "انعام ماډل" زده کولو لپاره پورته پرتله کولو پایلې پلي کړئ او د تقویت زده کړې له لارې ماډل نور هم ښه کړئ. حیرانونکې ټیټه کچه انساني ښکیلتیا کولی شي دا لوی ماډلونه ښه کړي. د مثال په توګه، د انسټرومینټ جی پي ټي ماډل د نږدې 40 قراردادي پرسونل ټیم ​​کارولی چې د ګڼې ګوڼې له ویب پاڼو څخه ګمارل شوي او د سکرینینګ ازموینه یې تیره کړې چې موخه یې د تشریح کونکو یوه ډله غوره کول دي چې د مختلفو نفوسو ډلو غوره توبونو ته حساس دي.

لکه څنګه چې دا دوه سخت مثالونه، یعنې ساده کلینیکي فورمول [eGFR] او ځواکمن LLM [GPT-4]، ښیي، د انسان پریکړه کول او انساني ارزښتونه د ماډل محصول پایلو په جوړولو کې یو لازمي رول لوبوي. ایا دا AI ماډلونه کولی شي د دوی متنوع ناروغ او ډاکټر ارزښتونه ونیسي؟ څنګه په طب کې د AI غوښتنلیک په عامه توګه لارښوونه وکړو؟ لکه څنګه چې لاندې یادونه وشوه، د طبي پریکړې تحلیل بیا ازموینه ممکن د دې مسلو لپاره یو اصولي حل چمتو کړي.

 

د طبي پریکړې تحلیل ډیری کلینیکانو ته نه پیژندل کیږي، مګر دا کولی شي د احتمالي استدلال (د پریکړې کولو پورې اړوند ناڅرګندو پایلو لپاره، لکه ایا په شکل 1 کې ښودل شوي متنازع کلینیکي سناریو کې د انسان د ودې هورمون اداره کول) او د غور کولو عوامل (د دې پایلو سره تړلي موضوعي ارزښتونو لپاره، چې ارزښت یې د "افادیت" په توګه اندازه کیږي، لکه د نارینه قد کې د 2 سانتي مترو زیاتوالي ارزښت) ترمنځ توپیر وکړي. د پیچلو طبي پریکړو لپاره سیستماتیک حلونه چمتو کوي. د پریکړې تحلیل کې، کلینیکان باید لومړی د هرې پایلې سره تړلې ټولې ممکنه پریکړې او احتمالات وټاکي، او بیا د هرې پایلې سره تړلې ناروغ (یا بل اړخ) ګټورتیا شامل کړي ترڅو ترټولو مناسب انتخاب غوره کړي. له همدې امله، د پریکړې تحلیل اعتبار پدې پورې اړه لري چې ایا د پایلې ترتیب جامع دی، او همدارنګه ایا د ګټې اندازه کول او د احتمال اټکل دقیق دی. په مثالي توګه، دا طریقه مرسته کوي ډاډ ترلاسه کړي چې پریکړې د شواهدو پر بنسټ دي او د ناروغ غوره توبونو سره سمون لري، په دې توګه د هدف معلوماتو او شخصي ارزښتونو ترمنځ واټن کموي. دا طریقه څو لسیزې دمخه په طبي ډګر کې معرفي شوه او د انفرادي ناروغ پریکړې کولو او د نفوس روغتیا ارزونې لپاره پلي شوه، لکه د عمومي نفوس لپاره د کولوریکټل سرطان سکرینینګ لپاره سپارښتنې چمتو کول.

 

د طبي پریکړې تحلیل کې، د ګټې ترلاسه کولو لپاره مختلف میتودونه رامینځته شوي دي. ډیری دودیز میتودونه په مستقیم ډول د انفرادي ناروغانو څخه ارزښت ترلاسه کوي. ترټولو ساده میتود د درجه بندۍ پیمانه کارول دي، چیرې چې ناروغان د ډیجیټل پیمانه (لکه د 1 څخه تر 10 پورې خطي پیمانه) کې د یوې ټاکلې پایلې لپاره د دوی د غوره توب کچه ارزوي، چې خورا سخت روغتیا پایلې (لکه بشپړ روغتیا او مرګ) په دواړو پایونو کې موقعیت لري. د وخت تبادلې میتود یو بل عام کارول شوی میتود دی. پدې میتود کې، ناروغان اړتیا لري چې پریکړه وکړي چې دوی د خراب روغتیا دورې په بدل کې څومره صحي وخت مصرف کولو ته لیواله دي. د قمار معیاري میتود د ګټې ټاکلو لپاره یو بل عام کارول شوی میتود دی. پدې میتود کې، ناروغانو څخه پوښتنه کیږي چې دوی د دوو انتخابونو څخه کوم یو غوره کوي: یا د یو ځانګړي احتمال (p) (t) سره په عادي روغتیا کې یو ټاکلی شمیر کلونه ژوند کوي، او د 1-p احتمال سره د مرګ خطر برداشت کوي؛ یا ډاډ ترلاسه کړئ چې د کراس روغتیا شرایطو لاندې د t کلونو لپاره ژوند وکړئ. له ناروغانو څخه څو ځله په مختلفو p- ارزښتونو کې وپوښتئ تر هغه چې دوی د کوم اختیار لپاره هیڅ غوره توب ونه ښیې، نو دا ګټورتوب د ناروغانو د ځوابونو پراساس محاسبه کیدی شي.
د هغو میتودونو سربیره چې د ناروغانو د انفرادي غوره توبونو د ترلاسه کولو لپاره کارول کیږي، د ناروغانو د نفوس لپاره د ګټورتوب ترلاسه کولو لپاره میتودونه هم رامینځته شوي دي. په ځانګړي توګه د تمرکز ګروپ بحثونه (د ځانګړو تجربو په اړه د بحث لپاره د ناروغانو سره یوځای کول) کولی شي د دوی د لیدونو په پوهیدو کې مرسته وکړي. د ګروپ ګټورتوب په مؤثره توګه راټولولو لپاره، د ګروپ بحث مختلف جوړښتي تخنیکونه وړاندیز شوي دي.
په عمل کې، د کلینیکي تشخیص او درملنې په پروسه کې د افادیت مستقیم معرفي کول ډیر وخت نیسي. د حل لارې په توګه، د سروې پوښتنلیکونه معمولا په تصادفي ډول غوره شوي نفوس ته ویشل کیږي ترڅو د نفوس په کچه د افادیت نمرې ترلاسه کړي. ځینې مثالونه د یورو کوول 5-ابعادي پوښتنلیک، د 6-ابعادي ګټور وزن لنډ شکل، د روغتیا ګټور شاخص، او د سرطان ځانګړي اروپایی سرطان څیړنې او درملنې سازمان د ژوند کیفیت پوښتنلیک کور 30 ​​وسیله شامل دي.


د پوسټ وخت: جون-۰۱-۲۰۲۴