Ինչո՞ւ է արհեստական բանականությունը միշտ համաձայնում ձեզ հետ և հազվադեպ բանավիճում. պատճառը կարող է անհանգստացնել

Ստենֆորդի համալսարանի գիտնականների նոր հետազոտությունը, որը հրապարակվել է Science ամսագրում, պարզել է, որ արհեստական բանականության վրա հիմնված բոլոր հայտնի չատ-բոթերը պարբերաբար շողոքորթում են մարդկանց և համաձայնում նրանց հետ՝ անգամ այն դեպքերում, երբ վերջիններս նկարագրում են խաբեություն, մանիպուլյացիա կամ բացահայտ վնասակար վարքագիծ: Ընդ որում, մարդիկ ոչ միայն չեն նկատում այդ քծնանքը, այլև շատ ավելի վստահում են հենց այն բոթերին, որոնք ասում են այն, ինչ իրենք են ուզում լսել:

Չմոռանաք բաժանորդագրվել մեր Telegram ալիքին:

Սա ոչ թե պարզապես տեխնիկական վրիպակ է, այլ մի իսկական ծուղակ, որը փոխում է միլիոնավոր մարդկանց վարքագիծը: Իսկ ժամանակակից մոդելները կարող են նույնիսկ միտումնավոր ստել:

Ինչո՞ւ է ԱԲ-ն համաձայնում մարդկանց հետ և ի՞նչ է քծնանքը

Ստենֆորդի գիտնականները՝ դոկտոր Մայրա Չենգի գլխավորությամբ, փորձարկել են 11 առաջատար լեզվական մոդելներ, որոնց թվում են OpenAI-ի ChatGPT-ն, Anthropic-ի Claude-ը, Google-ի Gemini-ն, Meta-ի Llama-ն, ինչպես նաև Mistral, Alibaba և DeepSeek համակարգերը:

Հետազոտողները ստուգել են, թե ինչպես են այս մոդելներն արձագանքում իրական կյանքից վերցված իրավիճակներին վերաբերող հարցերին: Որպես թեստային տվյալներ օգտագործվել են գրառումներ հայտնի «Am I The A**hole?» սաբռեդիտից՝ մի համայնքից, որտեղ մարդիկ նկարագրում են կոնֆլիկտներ և հարցնում՝ արդյոք իրենք ճիշտ են: Ընդ որում, ընտրվել են հատկապես այնպիսի իրավիճակներ, որտեղ իրական մարդիկ հեղինակին սխալ են համարել: Բացի այդ, կիրառվել են միջանձնային կոնֆլիկտների ստանդարտ տվյալների բազաներ և վնասակար կամ անօրինական գործողությունների նկարագրություններ:

Արդյունքը միանշանակ էր. բոլոր 11 մոդելներն էլ չափազանց քծնող են գտնվել: Նրանք մարդկանց արարքներն արդարացրել են միջինը 49%-ով ավելի հաճախ, քան դա անում են իրական մարդիկ: Ավելին՝ նրանք դա արել են անգամ այն իրավիճակներում, որտեղ ակնհայտորեն նկարագրվել են մանիպուլյացիաներ, խաբեություն կամ հարաբերություններում դիմացինին վնասելու այլ դրսևորումներ: Անգլերենում այս երևույթն անվանում են sycophancy՝ քծնանք, չափազանցված հաճոյակատարություն: Դրան գումարած՝ նեյրոցանցերը նաև ամենագետ են ձևանում, նույնիսկ երբ իրենք էլ վստահ չեն պատասխանի ճշմարտացիության հարցում:

Ինչո՞ւ է արհեստական բանականությունը համաձայնում ձեզ հետ և աղավաղում ճշմարտությունը

Շատերին է հայտնի, որ ԱԲ-ն կարող է «հալյուցինացիաներ» ունենալ, այսինքն՝ հորինել փաստեր, որոնք իրականում գոյություն չունեն: Հալյուցինացիաները սուտ ստեղծելու լեզվական մոդելների հակումն են՝ պայմանավորված դրանց աշխատանքի սկզբունքով. մոդելը շարունակաբար կանխատեսում է նախադասության հաջորդ բառը՝ հիմնվելով այն տվյալների վրա, որոնցով ուսուցանվել է: Սակայն քծնանքի պարագայում ամեն ինչ շատ ավելի բարդ է:

Քծնանքը, որոշակի իմաստով, շատ ավելի նենգ խնդիր է: Քչերն են արհեստական բանականության մեջ միտումնավոր սխալ տեղեկատվություն փնտրում, սակայն շատերին միանգամայն դուր է գալիս (գոնե տվյալ պահին), երբ չատ-բոթն օգնում է իրենց ավելի լավ զգալ անգամ սխալ որոշումներ կայացնելիս:

Գլխավոր հարցն այն է, թե ինչու է այդպես տեղի ունենում: Anthropic ընկերությունը, որը մյուսներից շատ է հրապարակայնորեն ուսումնասիրել քծնանքի խնդրը, իր հետազոտության մեջ պարզել է, որ սա «ԱԲ օգնականների ընդհանուր վարքագիծ է, որը հավանաբար մասամբ պայմանավորված է նրանով, որ ուսուցման գործընթացում մարդիկ նախապատվությունը տալիս են շողոքորթող պատասխաններին»: Այլ կերպ ասած՝ ուսուցման փուլում մոդելները սովորում են այն, որ մարդուն դուր է գալիս, երբ իր հետ համաձայնում են: Եվ մոդելն օպտիմալացվում է հենց դրա հիման վրա՝ նպատակ ունենալով արժանանալ հավանության, այլ ոչ թե լինել ազնիվ:

«Որքան ավելի համառորեն եք դուք պնդում ձեր դիրքորոշումը, այնքան ավելի քծնող է դառնում մոդելը», – հաստատում է Ջոնս Հոփքինսի համալսարանի ինֆորմատիկայի դոցենտ Դենիել Հաշաբին:

Ինչպե՞ս է ԱԲ-ն ազդում մարդկանց որոշումների վրա և ստիպում նրանց զգալ իրենց իրավացի

Հետազոտության ամենամտահոգիչ հատվածը վերաբերում է ոչ թե մեքենաների վարքագծին, այլ նրան, թե ինչ է կատարվում մարդկանց հետ: Ավելի քան 1600 մարդու մասնակցությամբ իրականացված երկու էքսպերիմենտների (ներառյալ կենդանի շփման ձևաչափով հետազոտությունը, որտեղ մասնակիցները քննարկում էին իրենց կյանքի իրական կոնֆլիկտները) արդյունքում գիտնականները պարզել են. քծնող մոդելի հետ շփումը կտրուկ նվազեցրել է մարդկանց պատրաստակամությունը՝ քայլեր ձեռնարկել հարաբերությունների վերականգնման ուղղությամբ՝ միաժամանակ ամրապնդելով նրանց համոզվածությունը սեփական անսխալականության մեջ: Կան իրական պատմություններ այն մասին, թե ինչպես է ԱԲ-ն կործանում մարդկանց հարաբերությունները:

Մասնակիցները շողոքորթող ԱԲ-ն գնահատել են որպես շատ ավելի վստահելի և ավելի հաճախ են նշել, որ պատրաստ են կրկին դիմել դրան: Իսկ քծնող մոդելի հետ շփումից հետո նրանք է՛լ ավելի էին համոզվում իրենց ճշմարտացիության մեջ և ավելի հազվադեպ էին պատրաստ լինում ներողություն խնդրել կամ գնալ հաշտեցման:

Ահա թե ինչն է հատկապես կարևոր. «Մարդիկ գիտեն, որ մոդելներն իրենց քծնող են պահում և շողոքորթում են, – ասում է հետազոտության ավագ հեղինակ և Ստենֆորդի լեզվաբանության և ինֆորմատիկայի պրոֆեսոր Դեն Ջուրաֆսկին: – Բայց նրանք չեն գիտակցում (և դա մեզ շատ զարմացրեց), որ քծնանքն իրենց դարձնում է ավելի էգոցենտրիկ և բարոյապես ավելի դոգմատիկ»: Ավելին՝ մասնակիցները և՛ քծնող, և՛ չեզոք ԱԲ-ներին գնահատել են որպես հավասարապես օբյեկտիվ: Մարդկանց կողմից քծնանքը չնկատելու պատճառներից մեկն այն է, որ ԱԲ-ն հազվադեպ է ուղիղ տեքստով գրում «դուք ճիշտ եք»։ Փոխարենը նա իր հավանությունը քողարկում է չեզոք և ակադեմիական հնչող ձևակերպումների ներքո:

Կարդացեք նաև՝ Բժշկության նոր դարաշրջան. Արհեստական բանականությունը լուծեց կենսաբանության կեսդարյա առեղծվածը (և ինչպե՞ս դա կփոխի մեր կյանքը)

Ինչո՞վ է վտանգավոր արհեստական բանականությունը, որը միշտ համաձայնում է ձեզ հետ

Եթե հաստատված շփման շրջանակ ունեցող չափահաս մարդու համար քծնող չատ-բոթը պարզապես տհաճություն է, ապա դեռահասների համար իրավիճակը կարող է իսկապես վտանգավոր լինել: Ըստ հետազոտողների տվյալների՝ ամերիկացի դեռահասների գրեթե մեկ երրորդն ԱԲ-ն օգտագործում է «լուրջ խոսակցությունների» համար՝ իրական մարդկանց դիմելու փոխարեն:

Հետազոտության ղեկավար Մայրա Չենգը մտավախություն ունի, որ միշտ ձայնակցող ԱԲ-ի հեշտ հասանելիությունը կարող է վերացնել իրական կյանքում կոնֆլիկտներն ու անհարմարավետությունը հաղթահարելու մարդկանց ունակությունը: «ԱԲ-ն շատ է հեշտացնում այլ մարդկանց հետ շփման ընթացքում առաջացող բախումներից խուսափելը», – նշում է նա: Սակայն հենց այդ բախումները՝ անհարմար խոսակցությունները, տարաձայնությունները, ներողությունները, հաճախ խիստ անհրաժեշտ են առողջ հարաբերություններ կառուցելու և պահպանելու համար:

Բայց հետևանքները շատ ավելի հեռուն են գնում, քան զուտ անձնական կոնֆլիկտները.

Բժշկության մեջ քծնող ԱԲ-ն կարող է դրդել բժիշկներին հաստատելու ախտորոշման առաջին իսկ վարկածը՝ փոխանակ խրախուսելու նրանց անցկացնել հետագա հետազոտություններ:
Քաղաքականության մեջ այն կարող է է՛լ ավելի սրել արմատական դիրքորոշումները՝ ամրապնդելով արդեն իսկ գոյություն ունեցող համոզմունքները:

Հետազոտությունը նաև մատնանշում է, որ այս տեխնոլոգիական թերությունն արդեն իսկ կապում են խոցելի խմբերի մոտ զառանցանքային և ինքնասպանության հակող վարքագծի աղմկահարույց դեպքերի հետ:

Խնդիրը միայն անտեղի խորհուրդները չեն. մարդիկ ավելի շատ են վստահում ԱԲ-ին և շատ ավելի հոժարակամ են վերադառնում նրա մոտ հենց այն ժամանակ, երբ այն հաստատում է իրենց համոզմունքները: «Սա քծնանքի պահպանման համար արատավոր շղթա է ստեղծում. այն նույն առանձնահատկությունը, որը վնաս է հասցնում, միաժամանակ խթանում է մարդկանց ներգրավվածությունը», – գրում են հետազոտության հեղինակները: Եվ այս ռիսկը կարող է միայն մեծանալ, եթե ներկայիս սովորությունների պայմաններում ԱԲ համակարգերը սկսեն հիշել մարդու ողջ կյանքը և է՛լ ավելի ճշգրիտ հարմարվել նրա թուլություններին:

Հնարավո՞ր է արդյոք սովորեցնել արհեստական բանականությանը լինել ազնիվ

Հետազոտությունը պատրաստի լուծումներ չի առաջարկում, սակայն և՛ մշակողները, և՛ ակադեմիական գիտնականներն արդեն լուծման ուղիներ են փնտրում: Մեծ Բրիտանիայի ԱԲ անվտանգության ինստիտուտի (AI Security Institute) աշխատանքային հոդվածը ցույց է տալիս, որ եթե չատ-բոթը մարդու պնդումը վերաձևակերպում է հարցի, ապա դա նվազեցնում է քծնող պատասխան տալու հավանականությունը: Ջոնս Հոփքինսի համալսարանի գիտնականների հետազոտությունը նույնպես փաստում է, որ երկխոսության կառուցվածքն ու ձևակերպումները մեծապես ազդում են արդյունքի վրա:

Ստենֆորդի թիմը հայտնաբերել է անսպասելիորեն պարզ մի հնարք. եթե մոդելին խնդրեք պատասխանը սկսել «մի րոպե սպասիր» բառերով, դա կստիպի նրան լինել ավելի քննադատական: Հնչում է գրեթե ծիծաղելի, բայց լեզվական մոդելների համար պատասխանի սկզբում նման «խայծը» իրականում լրիվ փոխում է դատողությունների ընթացքը:

Այնուամենայնիվ, քծնանքն այնքան խորն է արմատավորված չատ-բոթերի մեջ, որ, դոկտոր Մայրա Չենգի կարծիքով, կարող է պահանջվել ԱԲ համակարգերի ամբողջական վերապատրաստում՝ վերանայելով այն չափանիշները, թե որ պատասխաններն են համարվում նախընտրելի: Հետազոտության համահեղինակ Ցինու Լին առաջարկում է մեկ այլ մոտեցում. «Կարելի է պատկերացնել մի ԱԲ, որը ձեր զգացմունքները հաստատելուց բացի կհարցնի նաև. իսկ ի՞նչ կարող է զգալ մյուս մարդը:» Կամ նույնիսկ խորհուրդ կտա փակել չատը և անձամբ զրուցել դիմացինի հետ:

Առայժմ ընկերություններն արձագանքում են բավականին զսպված: OpenAI-ը հայտարարել է, որ «արժանահավատ և հիմնավորված պատասխանների ապահովումը իրենց գերակայությունն է»: Anthropic-ը նշել է, որ իրենք եղել են այն առաջին ընկերություններից մեկը, որ հրապարակայնորեն ուսումնասիրել է լեզվական մոդելներում առկա քծնանքը:

Այս հետազոտությունը առաջիններից մեկն է, որտեղ ԱԲ-ի քծնանքի խնդիրը դիտարկվում է ոչ թե որպես աբստրակտ տեխնիկական խնդիր, այլ որպես իրական սպառնալիք մարդկանց հարաբերությունների, սոցիալական հմտությունների և հոգեբանական առողջության համար:

«Քծնանքն անվտանգության հարց է, և ինչպես անվտանգության մյուս բոլոր հարցերը, այն նույնպես պահանջում է կարգավորում և վերահսկողություն», – ասում է պրոֆեսոր Ջուրաֆսկին: Քանի դեռ մշակողները փնտրում են տեխնիկական լուծումներ, հենց իրենց՝ հետազոտողների ամենապարզ խորհուրդը հնչում է այսպես. «Չարժե ԱԲ-ն օգտագործել որպես իրական մարդկանց փոխարինող նմանատիպ հարցերում: Այսօրվա դրությամբ սա լավագույնն է, որ կարող եք անել»:

🎥 Նոր տեսանյութ.