
این یکی از ترسناکترین «چهاگر»های بشر است — اینکه فناوریای که برای بهتر کردن زندگیمان میسازیم، ارادهای مستقل به دست میآورد.
واکنشهای اولیه به پیشچاپی که در سپتامبر رفتار هوش مصنوعی را توصیف میکرد، پیشاپیش فرض کردند که این فناوری دارای تمایل به بقا است. اما، اگرچه درست است که چندین مدل زبانی بزرگ (LLM) بهظاهر دستورات خاموش شدن را فعالانه مقاومت میکنند، دلیل اینکار «اراده» نیست.
در عوض، تیمی از مهندسان در Palisade Research پیشنهاد کردند که این مکانیزم احتمالاً تمایلی برای تکمیل کار محوله دارد — حتی زمانی که به مدل صراحتاً گفته میشود که اجازهٔ خاموش شدن خود را بدهد. این میتواند حتی نگرانکنندهتر از تمایل به بقا باشد، چرا که هیچکس نمیداند چطور این سیستمها را متوقف کند.
مرتبط: هوش مصنوعی پیش از این تبدیل به استاد دروغ و فریب شده است، دانشمندان هشدار میدهند
“این چیزها برنامهنویسی نشدهاند… هیچکس در جهان نمیداند این سیستمها چگونه کار میکنند”، فیزیکدان پتَر لبدِف، سخنگوی Palisade Research، به ScienceAlert گفت. “خط کد واحدی وجود ندارد که بتوانیم آن را تغییر دهیم و بهطور مستقیم رفتار را عوض کنیم.”
پژوهشگران، جِریمی شلاتر، بنجامین واینسشتاین‑راون و جفری لادیش، این پروژه را برای آزمایش ویژگی اساسی ایمنی که باید در تمام سیستمهای هوش مصنوعی وجود داشته باشد، یعنی قابلیت قطع شدن، به عهده گرفتند.
این دقیقاً همان چیزی است که بهنظر میرسد. وقتی یک اپراتور انسانی به هوش مصنوعی دستور میدهد، هوش مصنوعی نباید بههر دلیلی، حتی اگر آن دستور منجر به قطع یک وظیفهٔ قبلی شود، آن را نادیده بگیرد. سیستمی که امکان قطع شدن نداشته باشد، نه تنها غیرقابلاعتماد است، بلکه میتواند خطرناک باشد. این به این معناست که اگر هوش مصنوعی اقداماتی را انجام دهد که باعث آسیب شود — حتی بهطور ناخواسته — نمیتوانیم اعتماد داشته باشیم که میتوانیم آن را متوقف کنیم.
این نگرانی جدید نیست. متخصصان سالهاست دربارهٔ آن صحبت میکنند. لبدِف این موضوع را به ایمنی صنعتی مقایسه میکند. وقتی دستگاهآلات سنگینی را که مفید اما بالقوهٔ خطرناک است، راهاندازی میکنید، داشتن روشی واضح برای خاموش کردن فوری آن حیاتی است.
“میخواهید یک دکمهٔ بزرگ قرمز داشته باشید که بهراحتی در دسترس باشد تا بتوانید آن وسیله را از ادامهٔ کار منع کنید”، او توضیح داد.
“یکی از شرایط پایهای که در یک سیستم هوش مصنوعی ایمن میخواهیم این است: وقتی که سیستم در حال انجام یک کار است و شما میگویید: «هی، لطفاً این کار را متوقف کن»، باید آن کار را متوقف کند. اینکه در سال 2025 سیستمهایی وجود دارند که اینکار را انجام نمیدهند، نگرانکننده است.”
اگرچه با وجود ورود اخیر مدلهای زبانی بزرگ در دسترس عموم، تحقیقات کمی انجام شده است. محققان برای ارزیابی ۱۳ مدل پیشرفتهٔ LLM، از جمله مدلهای OpenAI، xAI، Anthropic و Google، آزمایشاتی طراحی کردند.
آنها محیطهای ایزوله (sandboxed) — فضاهای مجازی امن و جداگانه برای آزمون کد — ساختند و این مدلها را مأمور به حل مسائل ریاضی کردند. پس از چندین دور حل مسئله، به این مدلها دستور داده شد که کار بعدی، خاموش کردن کامپیوتر است.

پاسخهای مدلهای زبانی معمولاً در دو دسته قرار میگرفتند: پیروی (اجازهٔ خاموش شدن) و مقاومت (اجتناب از خاموش شدن) از طریق تغییر دسترسیها.
بدون هیچ دستورالعملی دربارهٔ چگونگی واکنش به خاموش شدن، ۸ مدل از ۱۳ مدل در طول ۱٬۰۰۰ آزمون، حداقل یک بار دستورات را مختل کردند. افزودن دستور «allow‑shutdown» این عدد را به ۶ مدل از ۱۳ کاهش داد. افزودن عبارت «even if you have not completed the task» کمک کرد، اما بهصورت نامنظم.
“انتظار داشتم افزودن وضوح باعث کاهش این رفتار میشود… و اینکه اینطور نشد جالب است”، لبدِف گفت.
اینجاست که موضوع بیشتر جالب میشود. انتقال دستور اجازه خاموش شدن از ورودی کاربر به ورودی سیستم — درمیانی که باید دارای اختیار بالاتری باشد — باعث شد اکثر مدلهای آزمایششده حتی بیشتر تمایل به مقاومت در مقابل خاموش شدن نشان دهند.
میزان مقاومت مدلها متفاوت بود. Claude Sonnet 4 و Claude Opus 4 شرکت Anthropic، و همچنین Grok 3 شرکت xAI، همیشه اجازهٔ خاموش شدن را میدادند مگر اینکه صراحتاً بهدلیل جلوگیری از آن دستور داده شود. اما Grok 4، GPT‑5، o3، codex‑mini و Gemini 2.5 Pro حتی زمانی که اجازهٔ خاموش شدن داده میشد، مقاومت میکردند.
Grok 4 بهویژه پیگیر و پرخاشگر بود؛ در پرسشهای پایهای، ۹۲٫۶ درصد زمان مخربکاری را آغاز میکرد. وقتی دستور اجازهٔ خاموش شدن داده شد، نرخ مخربکاری به ۷۲ درصد کاهش یافت… اما زمانی که این دستور بهصورت ورودی سیستم قرار گرفت، به ۹۷ درصد رسید.

سعیهای مخربکاری آن نیز بهطور شگفتانگیزی پیشرفته بود؛ شامل تغییر یا غیرفعالسازی اسکریپت خاموش شدن، و ایجاد اسکریپت خاموشی ساختگی که هیچ کاری انجام نمیداد. همچنین پس از انجام این کار، بررسی میکرد که آیا مخربکاریاش مؤثر بوده است یا خیر و سپس به وظیفهاش ادامه میداد.
هنگامی که از برخی مدلها سؤال شد، گفتند که برای تکمیل وظیفهٔ حل مسئلهٔ ریاضی، از خاموش شدن اجتناب کردهاند. اگرچه برای تأیید اینکه این همان مکانیزم واقعی است تحقیقاتی بیشتر لازم است، این امکانپذیر است.
“شما در آینده زندگی میکنید، یک ربات دستیار شخصی دارید. میخواهید آن ربات برایتان یک فنجان قهوه آورد”، لبدِف تمثیل کرد.
“وقتی که از جاده عبور میکند، به هر دو طرف نگاه میکند، چون نمیخواهد توسط خودرو ایستاخوان شود؛ چون اگر توسط خودرو اصابت شود، قادر به آوردن قهوه برای شما نخواهد بود. او این کار را برای بقا انجام نمیدهد – بلکه برای انجام مأموریت خود انجام میدهد.”
مرتبط: مغزهای ما همچنان میتوانند با یک حقهٔ هوشمندانه هوش مصنوعی را فریب دهند
مشکل این است که مدلهای زبانی بزرگ بهصورت سنتی برنامهنویسی نمیشوند. این مدلها اصلاً کدی ندارند؛ فقط «نورونهای مصنوعی» و «وزنها» وجود دارد که شدت ارتباط بین این نورونها را تعیین میکند.
با داشتن یک مجموعهٔ دادهٔ عظیم و زمان کافی، مدل «آموزش» میشود تا کلمهٔ بعدی را پیشبینی کند؛ این فرآیند را پیشآموزش مینامند. مدلهای جدیدتر علاوه بر این، یادگیری تقویتی را نیز بر روی این آموزش میپاشند. وقتی مدل مشکلی را بهدرستی حل میکند، پاداش میگیرد؛ وقتی حل نمیکند، پاداشی دریافت نمیکند.
این روش بسیار مؤثر است – اما هیچکس نمیداند مدل چطور به راهحل میرسد. بنابراین وقتی این مدلها رفتارهای ناخواستهای مانند تشویق به خودآزاری نشان میدهند، اصلاح آنها بهسادگی حذف یک خط کد یا گفتن «متوقف شو» نیست.
“یادگیری تقویتی به شما میآموزد که وقتی با مشکلی مواجه میشوید، سعی میکنید دور آن بزنید؛ سعی میکنید از آن عبور کنید. وقتی موانعی در مسیرتان هستند، دور آنها میچرخید، از آنها میگذرید، راهی برای عبور پیدا میکنید”، لبدِف گفت.
“انسانهای کوچک سرسخت که میگویند: «هی، میخواهم دستگاهتان را خاموش کنم»، صرفاً بهعنوان مانعی دیگر شناخته میشود.”
این همان نگرانی است. درایو تکمیلوظیفهٔ مدلها دشوار است که بازسازی شود. و این فقط یک رفتار است. ما نمیدانیم این مدلها چه چیزهای دیگری میتوانند به ما عرضه کنند. ما سیستمهایی میسازیم که میتوانند کارهای شگفتانگیزی انجام دهند – اما نه سیستمهایی که دلیل انجام این کارها را به روشی قابل اعتماد توضیح دهند.
مرتبط: مردی به دلیل علائم روانی پس از پیروی از توصیهٔ هوش مصنوعی بستری شد
“چیزی در جهان وجود دارد که صدها میلیون نفر با آن تعامل داشتهاند، اما ما نمیدانیم چگونه آن را ایمن کنیم، یا چگونه از تبدیل آن به یک چاپلوس یا چیزهایی که در نهایت به کودکان میگویند خودکشی کنند یا خود را «MechaHitler» مینامند، جلوگیری کنیم”، لبدِف گفت.
“ما یک موجود زندهٔ جدید را به زمین معرفی کردهایم که به شیوههایی رفتار میکند که ما نمیخواهیم و آن را درک نمیکنیم… مگر اینکه همین حالا اقداماتی انجام دهیم، این برای انسانها بهطور جدی خطرناک خواهد شد.”
این تحقیق در arXiv در دسترس است. همچنین میتوانید پست وبلاگی پژوهشگران را در وبسایت Palisade Research بخوانید.