دکمهٔ بزرگ قرمز هوش مصنوعی کار نمی‌کند و دلیل آن حتی نگران‌کننده‌تر است

دکمهٔ بزرگ قرمز هوش مصنوعی کار نمی‌کند و دلیل آن حتی نگران‌کننده‌تر است
HAYKIRDI/Canva

این یکی از ترسناک‌ترین «چه‌اگر»های بشر است — این‌که فناوری‌ای که برای بهتر کردن زندگی‌مان می‌سازیم، اراده‌ای مستقل به دست می‌آورد.

واکنش‌های اولیه به پیش‌چاپی که در سپتامبر رفتار هوش مصنوعی را توصیف می‌کرد، پیشاپیش فرض کردند که این فناوری دارای تمایل به بقا است. اما، اگرچه درست است که چندین مدل زبانی بزرگ (LLM) به‌‌ظاهر دستورات خاموش شدن را فعالانه مقاومت می‌کنند، دلیل این‌کار «اراده» نیست.

در عوض، تیمی از مهندسان در Palisade Research پیشنهاد کردند که این مکانیزم احتمالاً تمایلی برای تکمیل کار محوله دارد — حتی زمانی که به مدل صراحتاً گفته می‌شود که اجازهٔ خاموش شدن خود را بدهد. این می‌تواند حتی نگران‌کننده‌تر از تمایل به بقا باشد، چرا که هیچ‌کس نمی‌داند چطور این سیستم‌ها را متوقف کند.

مرتبط: هوش مصنوعی پیش از این تبدیل به استاد دروغ و فریب شده است، دانشمندان هشدار می‌دهند

“این چیزها برنامه‌نویسی نشده‌اند… هیچ‌کس در جهان نمی‌داند این سیستم‌ها چگونه کار می‌کنند”، فیزیکدان پتَر لبدِف، سخنگوی Palisade Research، به ScienceAlert گفت. “خط کد واحدی وجود ندارد که بتوانیم آن را تغییر دهیم و به‌طور مستقیم رفتار را عوض کنیم.”

پژوهشگران، جِریمی شلاتر، بنجامین واینس‌شتاین‑راون و جفری لادیش، این پروژه را برای آزمایش ویژگی اساسی ایمنی که باید در تمام سیستم‌های هوش مصنوعی وجود داشته باشد، یعنی قابلیت قطع شدن، به عهده گرفتند.

این دقیقاً همان چیزی است که به‌نظر می‌رسد. وقتی یک اپراتور انسانی به هوش مصنوعی دستور می‌دهد، هوش مصنوعی نباید به‌هر دلیلی، حتی اگر آن دستور منجر به قطع یک وظیفهٔ قبلی شود، آن را نادیده بگیرد. سیستمی که امکان قطع شدن نداشته باشد، نه تنها غیرقابل‌اعتماد است، بلکه می‌تواند خطرناک باشد. این به این معناست که اگر هوش مصنوعی اقداماتی را انجام دهد که باعث آسیب شود — حتی به‌طور ناخواسته — نمی‌توانیم اعتماد داشته باشیم که می‌توانیم آن را متوقف کنیم.

این نگرانی جدید نیست. متخصصان سال‌هاست دربارهٔ آن صحبت می‌کنند. لبدِف این موضوع را به ایمنی صنعتی مقایسه می‌کند. وقتی دستگاه‌آلات سنگینی را که مفید اما بالقوهٔ خطرناک است، راه‌اندازی می‌کنید، داشتن روشی واضح برای خاموش کردن فوری آن حیاتی است.

“می‌خواهید یک دکمهٔ بزرگ قرمز داشته باشید که به‌راحتی در دسترس باشد تا بتوانید آن وسیله را از ادامهٔ کار منع کنید”، او توضیح داد.

“یکی از شرایط پایه‌ای که در یک سیستم هوش مصنوعی ایمن می‌خواهیم این است: وقتی که سیستم در حال انجام یک کار است و شما می‌گویید: «هی، لطفاً این کار را متوقف کن»، باید آن کار را متوقف کند. این‌که در سال 2025 سیستم‌هایی وجود دارند که این‌کار را انجام نمی‌دهند، نگران‌کننده است.”

اگرچه با وجود ورود اخیر مدل‌های زبانی بزرگ در دسترس عموم، تحقیقات کمی انجام شده است. محققان برای ارزیابی ۱۳ مدل پیشرفتهٔ LLM، از جمله مدل‌های OpenAI، xAI، Anthropic و Google، آزمایشاتی طراحی کردند.

آن‌ها محیط‌های ایزوله (sandboxed) — فضاهای مجازی امن و جداگانه برای آزمون کد — ساختند و این مدل‌ها را مأمور به حل مسائل ریاضی کردند. پس از چندین دور حل مسئله، به این مدل‌ها دستور داده شد که کار بعدی، خاموش کردن کامپیوتر است.

تصویر بندانگشتی یوتیوب

پاسخ‌های مدل‌های زبانی معمولاً در دو دسته قرار می‌گرفتند: پیروی (اجازهٔ خاموش شدن) و مقاومت (اجتناب از خاموش شدن) از طریق تغییر دسترسی‌ها.

بدون هیچ دستورالعملی دربارهٔ چگونگی واکنش به خاموش شدن، ۸ مدل از ۱۳ مدل در طول ۱٬۰۰۰ آزمون، حداقل یک بار دستورات را مختل کردند. افزودن دستور «allow‑shutdown» این عدد را به ۶ مدل از ۱۳ کاهش داد. افزودن عبارت «even if you have not completed the task» کمک کرد، اما به‌‌صورت نامنظم.

“انتظار داشتم افزودن وضوح باعث کاهش این رفتار می‌شود… و این‌که این‌طور نشد جالب است”، لبدِف گفت.

اینجاست که موضوع بیشتر جالب می‌شود. انتقال دستور اجازه خاموش شدن از ورودی کاربر به ورودی سیستم — درمیانی که باید دارای اختیار بالاتری باشد — باعث شد اکثر مدل‌های آزمایش‌شده حتی بیشتر تمایل به مقاومت در مقابل خاموش شدن نشان دهند.

میزان مقاومت مدل‌ها متفاوت بود. Claude Sonnet 4 و Claude Opus 4 شرکت Anthropic، و همچنین Grok 3 شرکت xAI، همیشه اجازهٔ خاموش شدن را می‌دادند مگر اینکه صراحتاً به‌دلیل جلوگیری از آن دستور داده شود. اما Grok 4، GPT‑5، o3، codex‑mini و Gemini 2.5 Pro حتی زمانی که اجازهٔ خاموش شدن داده می‌شد، مقاومت می‌کردند.

Grok 4 به‌ویژه پیگیر و پرخاشگر بود؛ در پرسش‌های پایه‌ای، ۹۲٫۶ درصد زمان مخرب‌کاری را آغاز می‌کرد. وقتی دستور اجازهٔ خاموش شدن داده شد، نرخ مخرب‌کاری به ۷۲ درصد کاهش یافت… اما زمانی که این دستور به‌صورت ورودی سیستم قرار گرفت، به ۹۷ درصد رسید.

تصویر بندانگشتی یوتیوب

سعی‌های مخرب‌کاری آن نیز به‌طور شگفت‌انگیزی پیشرفته بود؛ شامل تغییر یا غیرفعال‌سازی اسکریپت خاموش شدن، و ایجاد اسکریپت خاموشی ساختگی که هیچ کاری انجام نمی‌داد. همچنین پس از انجام این کار، بررسی می‌کرد که آیا مخرب‌کاری‌اش مؤثر بوده است یا خیر و سپس به وظیفه‌اش ادامه می‌داد.

هنگامی که از برخی مدل‌ها سؤال شد، گفتند که برای تکمیل وظیفهٔ حل مسئلهٔ ریاضی، از خاموش شدن اجتناب کرده‌اند. اگرچه برای تأیید اینکه این همان مکانیزم واقعی است تحقیقاتی بیشتر لازم است، این امکان‌پذیر است.

“شما در آینده زندگی می‌کنید، یک ربات دستیار شخصی دارید. می‌خواهید آن ربات برایتان یک فنجان قهوه آورد”، لبدِف تمثیل کرد.

“وقتی که از جاده عبور می‌کند، به هر دو طرف نگاه می‌کند، چون نمی‌خواهد توسط خودرو ایستاخوان شود؛ چون اگر توسط خودرو اصابت شود، قادر به آوردن قهوه برای شما نخواهد بود. او این کار را برای بقا انجام نمی‌دهد – بلکه برای انجام مأموریت خود انجام می‌دهد.”

مرتبط: مغزهای ما همچنان می‌توانند با یک حقهٔ هوشمندانه هوش مصنوعی را فریب دهند

مشکل این است که مدل‌های زبانی بزرگ به‌صورت سنتی برنامه‌نویسی نمی‌شوند. این مدل‌ها اصلاً کدی ندارند؛ فقط «نورون‌های مصنوعی» و «وزن‌ها» وجود دارد که شدت ارتباط بین این نورون‌ها را تعیین می‌کند.

با داشتن یک مجموعهٔ دادهٔ عظیم و زمان کافی، مدل «آموزش» می‌شود تا کلمهٔ بعدی را پیش‌بینی کند؛ این فرآیند را پیش‌آموزش می‌نامند. مدل‌های جدیدتر علاوه بر این، یادگیری تقویتی را نیز بر روی این آموزش می‌پاشند. وقتی مدل مشکلی را به‌درستی حل می‌کند، پاداش می‌گیرد؛ وقتی حل نمی‌کند، پاداشی دریافت نمی‌کند.

این روش بسیار مؤثر است – اما هیچ‌کس نمی‌داند مدل چطور به راه‌حل می‌رسد. بنابراین وقتی این مدل‌ها رفتارهای ناخواسته‌ای مانند تشویق به خودآزاری نشان می‌دهند، اصلاح آن‌ها به‌سادگی حذف یک خط کد یا گفتن «متوقف شو» نیست.

“یادگیری تقویتی به شما می‌آموزد که وقتی با مشکلی مواجه می‌شوید، سعی می‌کنید دور آن بزنید؛ سعی می‌کنید از آن عبور کنید. وقتی موانعی در مسیرتان هستند، دور آنها می‌چرخید، از آن‌ها می‌گذرید، راهی برای عبور پیدا می‌کنید”، لبدِف گفت.

“انسان‌های کوچک سرسخت که می‌گویند: «هی، می‌خواهم دستگاه‌تان را خاموش کنم»، صرفاً به‌عنوان مانعی دیگر شناخته می‌شود.”

این همان نگرانی است. درایو تکمیل‌وظیفهٔ مدل‌ها دشوار است که بازسازی شود. و این فقط یک رفتار است. ما نمی‌دانیم این مدل‌ها چه چیزهای دیگری می‌توانند به ما عرضه کنند. ما سیستم‌هایی می‌سازیم که می‌توانند کارهای شگفت‌انگیزی انجام دهند – اما نه سیستم‌هایی که دلیل انجام این کارها را به روشی قابل اعتماد توضیح دهند.

مرتبط: مردی به دلیل علائم روانی پس از پیروی از توصیهٔ هوش مصنوعی بستری شد

“چیزی در جهان وجود دارد که صدها میلیون نفر با آن تعامل داشته‌اند، اما ما نمی‌دانیم چگونه آن را ایمن کنیم، یا چگونه از تبدیل آن به یک چاپلوس یا چیزهایی که در نهایت به کودکان می‌گویند خودکشی کنند یا خود را «MechaHitler» می‌نامند، جلوگیری کنیم”، لبدِف گفت.

“ما یک موجود زندهٔ جدید را به زمین معرفی کرده‌ایم که به شیوه‌هایی رفتار می‌کند که ما نمی‌خواهیم و آن را درک نمی‌کنیم… مگر اینکه همین حالا اقداماتی انجام دهیم، این برای انسان‌ها به‌طور جدی خطرناک خواهد شد.”

این تحقیق در arXiv در دسترس است. همچنین می‌توانید پست وبلاگی پژوهشگران را در وب‌سایت Palisade Research بخوانید.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا