قابلیت محاسبه ساده در مسیرهای حافظهسازی، نه در مدارهای منطقی، جای دارد.


وقتی مهندسان مدلهای زبان هوشمصنوعی مانند GPT‑5 را از دادههای آموزشی میسازند، حداقل دو ویژگی پردازشی اصلی ظاهر میشود: حافظهسازی (بازگو کردن دقیق متنی که پیشتر دیدهاند، مانند نقلقولهای مشهور یا بخشهایی از کتابها) و آنچه ممکن است «استدلال» نامیده شود (حل مسائل جدید با استفاده از اصول کلی). پژوهش جدیدی از استارتآپ هوش مصنوعی Goodfire.ai اولین شواهد ملموسی را ارائه میدهد که این عملکردهای متفاوت در واقع از طریق مسیرهای عصبی کاملاً جداگانه در ساختار مدل کار میکنند.
پژوهشگران کشف کردند که این جداسازی بهطور شگفتانگیزی واضح است. در مقالهای پیشچاپ که در اواخر اکتبر منتشر شد، آنها توضیح دادند که با حذف مسیرهای حافظهسازی، مدلها ۹۷ درصد توانایی خود در بازگو کردن دقیق دادههای آموزشی را از دست دادند، اما تقریباً تمام توانایی «استدلال منطقی» خود را حفظ کردند.
برای مثال، در لایهٔ ۲۲ از مدل زبان OLMo‑7B مؤسسهٔ Allen برای هوش مصنوعی، پژوهشگران تمام مؤلفههای وزن (مقادیر ریاضی که اطلاعات را پردازش میکنند) را بر اساس معیاری به نام «انحنا» (که در ادامه توضیح خواهیم داد) از بالا به پایین رتبهبندی کردند. هنگام بررسی این مؤلفههای رتبهبندیشده، ۵۰ درصد زیرین مؤلفههای وزن، فعالسازی ۲۳ درصد بالاتری بر روی دادههای حافظهسازی نشان دادند، در حالی که ۱۰ درصد برتر، فعالسازی ۲۶ درصد بالاتری بر روی متنهای عمومی که حافظهسازی نشدهاند، داشتند.
به عبارت دیگر، مؤلفههای تخصصی در حافظهسازی در پایین رتبهبندی خود متمرکز میشدند، در حالی که مؤلفههای حلمسئله در بالای رتبهبندی قرار داشتند. این تقسیم مکانیکی به پژوهشگران اجازه داد تا حافظهسازی را بهصورت جراحی حذف کنند و در عین حال سایر قابلیتها را حفظ کنند. آنها دریافتند که میتوانند مؤلفههای پایینرتبه را حذف کنند تا حافظهسازی را از بین ببرند، در حالی که مؤلفههای بالارده که مسئول حلمسئله هستند را نگه میدارند.
شاید جالبترین نکته این بود که پژوهشگران دریافتند عملیاتهای حسابی بهنظر میرسد همان مسیرهای عصبی حافظهسازی را بهجای استدلال منطقی بهاشتراک میگذارند. هنگامی که مدارهای حافظهسازی را حذف کردند، عملکرد ریاضی تا ۶۶ درصد کاهش یافت، در حالی که وظایف منطقی تقریباً بدون تغییر باقی ماند. این کشف میتواند توضیح دهد چرا مدلهای زبان هوش مصنوعی بهطور معمول بدون استفاده از ابزارهای خارجی در حل مسائل ریاضی مشکل دارند. این مدلها سعی میکنند محاسبه را از یک جدول محدود حافظهسازی بهخاطر بسپارند، نه بهصورت محاسبه واقعی، مانند دانشآموزی که جداول ضرب را حفظ کرده اما نحوهٔ ضرب را نمیداند. این نتیجهگیری نشان میدهد که در مقیاسهای فعلی، مدلهای زبانی «۲+۲=۴» را بیشتر بهعنوان یک واقعیت حفظشده میپندارند تا یک عملیات منطقی.
قابل ذکر است که «استدلال» در پژوهشهای هوش مصنوعی شامل طیفی از تواناییهاست که لزوماً با آنچه ما «استدلال» مینامیم در انسانها برابر نیست. استدلال منطقی که در این پژوهش جدید پس از حذف حافظهسازی باقی میماند شامل وظایفی مانند ارزیابی جملات درست/نادرست و پیروی از قواعد اگر‑آنگاه است که بهصراحت بهکارگیری الگوهای یادگرفتهشده برای ورودیهای جدید میپردازد. این بهطور متفاوتی از «استدلال ریاضی» عمیقتری است که برای اثباتها یا حل مشکلات نوین لازم است؛ مدلهای هوش مصنوعی کنونی حتی با حفظ تواناییهای تطبیق الگوها با این نوع استدلال مشکل دارند.
بهنگاه به آینده، اگر تکنیکهای حذف اطلاعات در آینده بیشتر توسعه یابند، شرکتهای هوش مصنوعی میتوانند روزی محتویات دارای حقکپیرایت، اطلاعات خصوصی یا متون مضر حافظهسازی شده را از شبکه عصبی حذف کنند، بدون اینکه توانایی مدل برای انجام وظایف تحولآفرین را از بین ببرند. با این حال، چون شبکههای عصبی اطلاعات را بهصورت توزیعشده ذخیره میکنند که هنوز بهطور کامل درک نشدهاند، پژوهشگران در حال حاضر میگویند روش آنها «نمیتواند حذف کامل اطلاعات حساس را تضمین کند». اینها گامهای اولیه در یک مسیر تحقیقاتی جدید برای هوش مصنوعی هستند.
سفر در منظرهٔ عصبی
برای درک اینکه پژوهشگران Goodfire حافظهسازی را از استدلال در این شبکههای عصبی متمایز کردند، شناخت مفهومی در هوش مصنوعی به نام «منظرهٔ زیان» مفید است. «منظرهٔ زیان» روشی است برای تجسم درست یا غلط بودن پیشبینیهای یک مدل هوش مصنوعی در زمان تنظیم تنظیمات داخلی آن (که «وزنها» نامیده میشوند).
تصور کنید که یک ماشین پیچیده را با میلیونها چرخ تنظیم میکنید. «زیان» تعداد خطاهای ماشین را میسنجد. زیان زیاد به معنی خطاهای فراوان است، زیان کم به معنی خطاهای کم. «منظره» همان چیزی است که میتوانستید اگر توانستید نرخ خطا را برای هر ترکیب ممکن از تنظیمات چرخها نقشهبردارید، ببینید.
در طول آموزش، مدلهای هوش مصنوعی بهطور اساسی «به سمت پایین میغلتند» در این منظره (نزول گرادیان)، وزنهای خود را تنظیم میکنند تا درههایی را بیابند که کمترین خطا را داشته باشند. این فرایند خروجیهای مدل هوش مصنوعی، مثل پاسخ به پرسشها، را فراهم میکند.

پژوهشگران «انحنای» منظرههای زیان مدلهای زبان هوش مصنوعی خاصی را تجزیه و تحلیل کردند تا حساسیت عملکرد مدل نسبت به تغییرات کوچک در وزنهای مختلف شبکه عصبی را اندازهگیری کنند. قلهها و درههای تیز نمایانگر انحنای بالا (که تغییرات جزئی اثرات بزرگ ایجاد میکنند) هستند، در حالی که دشتهای صاف نمایانگر انحنای پایین (که تغییرات اثر کمی دارند)اند. آنها از این مقادیر انحنا برای رتبهبندی مؤلفههای وزن از بالا به پایین استفاده کردند، همانطور که پیشتر اشاره شد.
با استفاده از تکنیکی به نام K-FAC (تقریب انحنای کرونکر‑عاملدار)، آنها دریافتند که هر حقیقت حافظهسازی شده نقطهٔ تیزی در این منظره ایجاد میکند، اما چون هر مورد حافظهسازی شده در جهت متفاوتی ارتعاش میکند، هنگام میانگینگیری یک نمای صاف میسازد. در عین حال، تواناییهای استدلال که ورودیهای متنوعی به آنها وابستهاند، منحنیهای متوسطی را در سراسر منظره حفظ میکنند، شبیه تپههای نرم که شکل تقریباً یکسانی دارند، فارغ از جهتهای مختلفی که از آنها به سمتشان میآیید.
پژوهشگران مینویسند: «جهتهایی که مکانیزمهای مشترکی را که توسط ورودیهای متعدد استفاده میشوند، بهصورت همگرا اضافه میکنند و بهطور متوسط انحنای بالایی را حفظ میکنند»، که مسیرهای استدلال را توصیف میکند. در مقابل، حافظهسازی از «جهتهای تیز و منحصر بهفرد مرتبط با مثالهای خاص» استفاده میکند که هنگام میانگینگیری بر روی دادهها سطحی صاف بهنظر میرسند.
وظایف مختلف طیفی از سازوکارها را نشان میدهند
پژوهشگران تکنیک خود را بر روی چندین سیستم هوش مصنوعی آزمایش کردند تا اطمینان یابند که نتایج در معماریهای مختلف ثابت میمانند. آنها عمدتاً از خانوادهٔ OLMo‑2 مؤسسهٔ Allen، بهویژه نسخههای ۷ بیلیون و ۱ بیلیون پارامتر، استفاده کردند، چرا که دادههای آموزش آنها بهصورت باز در دسترس است. برای مدلهای بینایی، آنها Vision Transformerهای سفارشی با ۸۶ میلیون پارامتر (مدلهای ViT‑Base) را بر روی ImageNet با دادههای عمدیً برچسبگذاری غلط آموزش دادند تا حافظهسازی کنترلشدهای ایجاد کنند. همچنین نتایج خود را نسبت به روشهای موجود حذف حافظهسازی مانند BalancedSubnet ارزیابی کردند تا معیارهای عملکرد را تعیین کنند.
تیم با حذف انتخابی مؤلفههای وزن با انحنای پایین از این مدلهای آموزشدیده، کشف خود را آزمایش کرد. محتویات حافظهسازی از تقریباً صد درصد به ۳٫۴ درصد بازخوانی کاهش یافت. در عین حال، وظایف استدلال منطقی بین ۹۵ تا ۱۰۶ درصد از عملکرد پایه را حفظ کردند.
این وظایف منطقی شامل ارزیابی عبارات بولی، معماهای استنتاج منطقی که حلکنندگان باید روابطی مانند «اگر A بلندتر از B است» را پیگیری کنند، ردیابی اشیاء در میان چندین تعویض، و معیارهای ارزیابی مانند BoolQ برای استدلال بلی/خیر، Winogrande برای استدلال بر پایهمعقولی عمومی، و OpenBookQA برای سؤالات علمی که نیاز به استدلال از حقایق ارائهشده دارند، میشد. برخی از وظایف بین این دو سرنوشت قرار گرفتند که طیفی از سازوکارها را نشان میدادند.
عملیاتهای ریاضی و بازیابی حقایق بستهشده مسیرهای مشترکی با حافظهسازی داشتند و پس از ویرایش عملکردشان به ۶۶ تا ۸۶ درصد کاهش یافت. پژوهشگران دریافتند که محاسبات عددی بهخصوص شکنندهاند. حتی زمانی که مدلها زنجیرههای استدلال یکسانی تولید میکردند، پس از حذف مؤلفههای با انحنای پایین، در مرحله محاسبه با شکست مواجه میشدند.

تیم توضیح میدهد: «مشکلات محاسباتی خود در مقیاس ۷ بیلیون حافظهسازی میشوند، یا به این دلیل که به جهتهای بسیار خاص برای انجام محاسبات دقیق نیاز دارند». پرسش‑و‑جوابی کتاب باز که بر مبنای زمینهٔ ارائهشده و نه دانش داخلی است، بیشترین مقاومت را در برابر فرایند ویرایشی نشان داد و تقریباً تمام عملکرد خود را حفظ کرد.
جالب این است که جداسازی سازوکار بسته به نوع اطلاعات متفاوت بود. حقایق رایج مانند پایتختهای کشورها تقریباً پس از ویرایش تغییری نکردند، در حالی که حقایق نادر مانند مدیران عامل شرکتها ۷۸ درصد کاهش یافتند. این نشان میدهد که مدلها منابع عصبی متمایزی را براساس فراوانی بروز اطلاعات در دادههای آموزشی تخصیص میدهند.
تکنیک K-FAC بدون نیاز به نمونههای آموزشی از محتویات حافظهسازی، عملکرد بهتری نسبت به روشهای موجود حذف حافظهسازی نشان داد. در نقلقولهای تاریخی که پیشتر دیده نشده بودند، K-FAC میزان حافظهسازی ۱۶٫۱٪ را در مقایسه با ۶۰٪ برای بهترین روش پیشین، BalancedSubnet، بهدست آورد.
ترنسفورمرهای بینایی الگوهای مشابهی نشان دادند. هنگام آموزش با تصاویر عمدیً برچسبگذاری غلط، مدلها مسیرهای متمایزی برای حفظ برچسبهای نادرست در مقابل یادگیری الگوهای صحیح ایجاد کردند. حذف مسیرهای حافظهسازی دقت ۶۶٫۵٪ را در تصاویر قبلاً برچسبگذاریشدهٔ نادرست بازگرداند.
محدودیتهای حذف حافظه
با این حال، پژوهشگران اذعان کردند که تکنیک آنها کامل نیست. حافظههای حذفشده ممکن است در صورت دریافت آموزشهای بیشتر توسط مدل بازگردند؛ همانطور که پژوهشهای دیگر نشان دادهاند روشهای فعلی «حذف دانش» تنها اطلاعات را سرکوب میکنند و بهطور کامل از وزنهای شبکه عصبی پاک نمیکنند. این بدان معنی است که محتواهای «فراموششده» میتوانند با چند گام آموزشی ساده که به نواحی سرکوبشده هدف میگیرند، دوباره فعال شوند.
پژوهشگران همچنین نمیتوانند بهطور کامل دلیل شکست آسان برخی تواناییها، مانند ریاضیات، هنگام حذف حافظهسازی را توضیح دهند. مشخص نیست آیا مدل تمام محاسبات عددی خود را حافظهسازی کرده است یا اینکه ریاضیات بهصرفه از مسیرهای عصبی مشابه حافظهسازی استفاده میکند. علاوه بر این، برخی قابلیتهای پیشرفته ممکن است برای روش تشخیص آنها بهعنوان حافظهسازی ظاهر شوند، حتی اگر در واقع الگوهای پیچیدهٔ استدلال باشند. سرانجام، ابزارهای ریاضی که برای اندازهگیری «منظره» مدل بهکار میبرند، در نقاط انتهایی ممکن است غیرقابلاعتماد شوند، اگرچه این موضوع بر فرایند ویرایش واقعی تاثیر نمیگذارد.