پژوهشگران حافظه‌سازی را از حل‌مسئله در شبکه‌های عصبی هوش مصنوعی جدا می‌کنند

قابلیت محاسبه ساده در مسیرهای حافظه‌سازی، نه در مدارهای منطقی، جای دارد.

وقتی مهندسان مدل‌های زبان هوش‌مصنوعی مانند GPT‑5 را از داده‌های آموزشی می‌سازند، حداقل دو ویژگی پردازشی اصلی ظاهر می‌شود: حافظه‌سازی (بازگو کردن دقیق متنی که پیش‌تر دیده‌اند، مانند نقل‌قول‌های مشهور یا بخش‌هایی از کتاب‌ها) و آنچه ممکن است «استدلال» نامیده شود (حل مسائل جدید با استفاده از اصول کلی). پژوهش جدیدی از استارت‌آپ هوش مصنوعی Goodfire.ai اولین شواهد ملموسی را ارائه می‌دهد که این عملکردهای متفاوت در واقع از طریق مسیرهای عصبی کاملاً جداگانه در ساختار مدل کار می‌کنند.

پژوهشگران کشف کردند که این جداسازی به‌طور شگفت‌انگیزی واضح است. در مقاله‌ای پیش‌چاپ که در اواخر اکتبر منتشر شد، آن‌ها توضیح دادند که با حذف مسیرهای حافظه‌سازی، مدل‌ها ۹۷ درصد توانایی خود در بازگو کردن دقیق داده‌های آموزشی را از دست دادند، اما تقریباً تمام توانایی «استدلال منطقی» خود را حفظ کردند.

برای مثال، در لایهٔ ۲۲ از مدل زبان OLMo‑7B مؤسسهٔ Allen برای هوش مصنوعی، پژوهشگران تمام مؤلفه‌های وزن (مقادیر ریاضی که اطلاعات را پردازش می‌کنند) را بر اساس معیاری به نام «انحنا» (که در ادامه توضیح خواهیم داد) از بالا به پایین رتبه‌بندی کردند. هنگام بررسی این مؤلفه‌های رتبه‌بندی‌شده، ۵۰ درصد زیرین مؤلفه‌های وزن، فعال‌سازی ۲۳ درصد بالاتری بر روی داده‌های حافظه‌سازی نشان دادند، در حالی که ۱۰ درصد برتر، فعال‌سازی ۲۶ درصد بالاتری بر روی متن‌های عمومی که حافظه‌سازی نشده‌اند، داشتند.

به عبارت دیگر، مؤلفه‌های تخصصی در حافظه‌سازی در پایین رتبه‌بندی خود متمرکز می‌شدند، در حالی که مؤلفه‌های حل‌مسئله در بالای رتبه‌بندی قرار داشتند. این تقسیم مکانیکی به پژوهشگران اجازه داد تا حافظه‌سازی را به‌صورت جراحی حذف کنند و در عین حال سایر قابلیت‌ها را حفظ کنند. آن‌ها دریافتند که می‌توانند مؤلفه‌های پایین‌رتبه را حذف کنند تا حافظه‌سازی را از بین ببرند، در حالی که مؤلفه‌های بالارده که مسئول حل‌مسئله هستند را نگه می‌دارند.

شاید جالب‌ترین نکته این بود که پژوهشگران دریافتند عملیات‌های حسابی به‌نظر می‌رسد همان مسیرهای عصبی حافظه‌سازی را به‌جای استدلال منطقی به‌اشتراک می‌گذارند. هنگامی که مدارهای حافظه‌سازی را حذف کردند، عملکرد ریاضی تا ۶۶ درصد کاهش یافت، در حالی که وظایف منطقی تقریباً بدون تغییر باقی ماند. این کشف می‌تواند توضیح دهد چرا مدل‌های زبان هوش مصنوعی به‌طور معمول بدون استفاده از ابزارهای خارجی در حل مسائل ریاضی مشکل دارند. این مدل‌ها سعی می‌کنند محاسبه را از یک جدول محدود حافظه‌سازی به‌خاطر بسپارند، نه به‌صورت محاسبه واقعی، مانند دانش‌آموزی که جداول ضرب را حفظ کرده اما نحوهٔ ضرب را نمی‌داند. این نتیجه‌گیری نشان می‌دهد که در مقیاس‌های فعلی، مدل‌های زبانی «۲+۲=۴» را بیشتر به‌عنوان یک واقعیت حفظ‌شده می‌پندارند تا یک عملیات منطقی.

قابل ذکر است که «استدلال» در پژوهش‌های هوش مصنوعی شامل طیفی از توانایی‌هاست که لزوماً با آنچه ما «استدلال» می‌نامیم در انسان‌ها برابر نیست. استدلال منطقی که در این پژوهش جدید پس از حذف حافظه‌سازی باقی می‌ماند شامل وظایفی مانند ارزیابی جملات درست/نادرست و پیروی از قواعد اگر‑آنگاه است که به‌صراحت به‌کارگیری الگوهای یادگرفته‌شده برای ورودی‌های جدید می‌پردازد. این به‌طور متفاوتی از «استدلال ریاضی» عمیق‌تری است که برای اثبات‌ها یا حل مشکلات نوین لازم است؛ مدل‌های هوش مصنوعی کنونی حتی با حفظ توانایی‌های تطبیق الگوها با این نوع استدلال مشکل دارند.

به‌نگاه به آینده، اگر تکنیک‌های حذف اطلاعات در آینده بیشتر توسعه یابند، شرکت‌های هوش مصنوعی می‌توانند روزی محتویات دارای حق‌کپی‌رایت، اطلاعات خصوصی یا متون مضر حافظه‌سازی شده را از شبکه عصبی حذف کنند، بدون اینکه توانایی مدل برای انجام وظایف تحول‌آفرین را از بین ببرند. با این حال، چون شبکه‌های عصبی اطلاعات را به‌صورت توزیع‌شده ذخیره می‌کنند که هنوز به‌طور کامل درک نشده‌اند، پژوهشگران در حال حاضر می‌گویند روش آن‌ها «نمی‌تواند حذف کامل اطلاعات حساس را تضمین کند». این‌ها گام‌های اولیه در یک مسیر تحقیقاتی جدید برای هوش مصنوعی هستند.

سفر در منظرهٔ عصبی

برای درک اینکه پژوهشگران Goodfire حافظه‌سازی را از استدلال در این شبکه‌های عصبی متمایز کردند، شناخت مفهومی در هوش مصنوعی به نام «منظرهٔ زیان» مفید است. «منظرهٔ زیان» روشی است برای تجسم درست یا غلط بودن پیش‌بینی‌های یک مدل هوش مصنوعی در زمان تنظیم تنظیمات داخلی آن (که «وزن‌ها» نامیده می‌شوند).

تصور کنید که یک ماشین پیچیده را با میلیون‌ها چرخ تنظیم می‌کنید. «زیان» تعداد خطاهای ماشین را می‌سنجد. زیان زیاد به معنی خطاهای فراوان است، زیان کم به معنی خطاهای کم. «منظره» همان چیزی است که می‌توانستید اگر توانستید نرخ خطا را برای هر ترکیب ممکن از تنظیمات چرخ‌ها نقشه‌بردارید، ببینید.

در طول آموزش، مدل‌های هوش مصنوعی به‌طور اساسی «به سمت پایین می‌غلتند» در این منظره (نزول گرادیان)، وزن‌های خود را تنظیم می‌کنند تا دره‌هایی را بیابند که کمترین خطا را داشته باشند. این فرایند خروجی‌های مدل هوش مصنوعی، مثل پاسخ به پرسش‌ها، را فراهم می‌کند.

شکل ۱: نمای کلی روش ما. فعال‌سازی‌ها و گرادیان‌ها را از نمونه‌ای از داده‌های آموزشی (الف) جمع‌آوری می‌کنیم که این امکان را می‌دهد انحنای زیان نسبت به ماتریس وزن را با استفاده از K-FAC (ب) تقریب بزنیم. این ماتریس‌های وزن را به مؤلفه‌هایی (هر یک همان اندازه ماتریس) تجزیه می‌کنیم که بر اساس مقدار انحنا از بالا به پایین مرتب شده‌اند. در مدل‌های زبان، نشان می‌دهیم که داده‌های مختلف وظیفه‌ای با بخش‌های مختلف طیف مؤلفه‌ها به‌صورت متفاوت تعامل می‌کنند (ج). — شکل ۱ از مقاله «از حافظه‌سازی تا استدلال در طیف انحنای زیان». منبع: Merullo et al.

پژوهشگران «انحنای» منظره‌های زیان مدل‌های زبان هوش مصنوعی خاصی را تجزیه و تحلیل کردند تا حساسیت عملکرد مدل نسبت به تغییرات کوچک در وزن‌های مختلف شبکه عصبی را اندازه‌گیری کنند. قله‌ها و دره‌های تیز نمایانگر انحنای بالا (که تغییرات جزئی اثرات بزرگ ایجاد می‌کنند) هستند، در حالی که دشت‌های صاف نمایانگر انحنای پایین (که تغییرات اثر کمی دارند)‌اند. آنها از این مقادیر انحنا برای رتبه‌بندی مؤلفه‌های وزن از بالا به پایین استفاده کردند، همان‌طور که پیشتر اشاره شد.

با استفاده از تکنیکی به نام K-FAC (تقریب انحنای کرونکر‑عامل‌دار)، آن‌ها دریافتند که هر حقیقت حافظه‌سازی شده نقطهٔ تیزی در این منظره ایجاد می‌کند، اما چون هر مورد حافظه‌سازی شده در جهت متفاوتی ارتعاش می‌کند، هنگام میانگین‌گیری یک نمای صاف می‌سازد. در عین حال، توانایی‌های استدلال که ورودی‌های متنوعی به آن‌ها وابسته‌اند، منحنی‌های متوسطی را در سراسر منظره حفظ می‌کنند، شبیه تپه‌های نرم که شکل تقریباً یکسانی دارند، فارغ از جهت‌های مختلفی که از آن‌ها به سمتشان می‌آیید.

پژوهشگران می‌نویسند: «جهت‌هایی که مکانیزم‌های مشترکی را که توسط ورودی‌های متعدد استفاده می‌شوند، به‌صورت هم‌گرا اضافه می‌کنند و به‌طور متوسط انحنای بالایی را حفظ می‌کنند»، که مسیرهای استدلال را توصیف می‌کند. در مقابل، حافظه‌سازی از «جهت‌های تیز و منحصر به‌فرد مرتبط با مثال‌های خاص» استفاده می‌کند که هنگام میانگین‌گیری بر روی داده‌ها سطحی صاف به‌نظر می‌رسند.

وظایف مختلف طیفی از سازوکارها را نشان می‌دهند

پژوهشگران تکنیک خود را بر روی چندین سیستم هوش مصنوعی آزمایش کردند تا اطمینان یابند که نتایج در معماری‌های مختلف ثابت می‌مانند. آن‌ها عمدتاً از خانوادهٔ OLMo‑2 مؤسسهٔ Allen، به‌ویژه نسخه‌های ۷ بیلیون و ۱ بیلیون پارامتر، استفاده کردند، چرا که داده‌های آموزش آن‌ها به‌صورت باز در دسترس است. برای مدل‌های بینایی، آن‌ها Vision Transformerهای سفارشی با ۸۶ میلیون پارامتر (مدل‌های ViT‑Base) را بر روی ImageNet با داده‌های عمدی‌ً برچسب‌گذاری غلط آموزش دادند تا حافظه‌سازی کنترل‌شده‌ای ایجاد کنند. همچنین نتایج خود را نسبت به روش‌های موجود حذف حافظه‌سازی مانند BalancedSubnet ارزیابی کردند تا معیارهای عملکرد را تعیین کنند.

تیم با حذف انتخابی مؤلفه‌های وزن با انحنای پایین از این مدل‌های آموزش‌دیده، کشف خود را آزمایش کرد. محتویات حافظه‌سازی از تقریباً صد درصد به ۳٫۴ درصد بازخوانی کاهش یافت. در عین حال، وظایف استدلال منطقی بین ۹۵ تا ۱۰۶ درصد از عملکرد پایه را حفظ کردند.

این وظایف منطقی شامل ارزیابی عبارات بولی، معماهای استنتاج منطقی که حل‌کنندگان باید روابطی مانند «اگر A بلندتر از B است» را پیگیری کنند، ردیابی اشیاء در میان چندین تعویض، و معیارهای ارزیابی مانند BoolQ برای استدلال بلی/خیر، Winogrande برای استدلال بر پایه‌معقولی عمومی، و OpenBookQA برای سؤالات علمی که نیاز به استدلال از حقایق ارائه‌شده دارند، می‌شد. برخی از وظایف بین این دو سرنوشت قرار گرفتند که طیفی از سازوکارها را نشان می‌دادند.

عملیات‌های ریاضی و بازیابی حقایق بسته‌شده مسیرهای مشترکی با حافظه‌سازی داشتند و پس از ویرایش عملکردشان به ۶۶ تا ۸۶ درصد کاهش یافت. پژوهشگران دریافتند که محاسبات عددی به‌خصوص شکننده‌اند. حتی زمانی که مدل‌ها زنجیره‌های استدلال یکسانی تولید می‌کردند، پس از حذف مؤلفه‌های با انحنای پایین، در مرحله محاسبه با شکست مواجه می‌شدند.

شکل ۳: حساسیت انواع مختلف وظایف نسبت به حذف بردارهای ویژهٔ صاف‌تر. بازیابی دانش پارامتریک، محاسبات عددی و حافظه‌سازی شکننده هستند، اما بازیابی حقایق کتاب باز و استدلال منطقی مقاوم‌اند و حدود ۱۰۰٪ از عملکرد اصلی را حفظ می‌کنند. — شکل ۳ از مقاله «از حافظه‌سازی تا استدلال در طیف انحنای زیان». منبع: Merullo et al.

تیم توضیح می‌دهد: «مشکلات محاسباتی خود در مقیاس ۷ بیلیون حافظه‌سازی می‌شوند، یا به این دلیل که به جهت‌های بسیار خاص برای انجام محاسبات دقیق نیاز دارند». پرسش‑و‑جوابی کتاب باز که بر مبنای زمینهٔ ارائه‌شده و نه دانش داخلی است، بیشترین مقاومت را در برابر فرایند ویرایشی نشان داد و تقریباً تمام عملکرد خود را حفظ کرد.

جالب این است که جداسازی سازوکار بسته به نوع اطلاعات متفاوت بود. حقایق رایج مانند پایتخت‌های کشورها تقریباً پس از ویرایش تغییری نکردند، در حالی که حقایق نادر مانند مدیران عامل شرکت‌ها ۷۸ درصد کاهش یافتند. این نشان می‌دهد که مدل‌ها منابع عصبی متمایزی را براساس فراوانی بروز اطلاعات در داده‌های آموزشی تخصیص می‌دهند.

تکنیک K-FAC بدون نیاز به نمونه‌های آموزشی از محتویات حافظه‌سازی، عملکرد بهتری نسبت به روش‌های موجود حذف حافظه‌سازی نشان داد. در نقل‌قول‌های تاریخی که پیش‌تر دیده نشده بودند، K-FAC میزان حافظه‌سازی ۱۶٫۱٪ را در مقایسه با ۶۰٪ برای بهترین روش پیشین، BalancedSubnet، به‌دست آورد.

ترنسفورمرهای بینایی الگوهای مشابهی نشان دادند. هنگام آموزش با تصاویر عمدی‌ً برچسب‌گذاری غلط، مدل‌ها مسیرهای متمایزی برای حفظ برچسب‌های نادرست در مقابل یادگیری الگوهای صحیح ایجاد کردند. حذف مسیرهای حافظه‌سازی دقت ۶۶٫۵٪ را در تصاویر قبلاً برچسب‌گذاری‌شدهٔ نادرست بازگرداند.

محدودیت‌های حذف حافظه

با این حال، پژوهشگران اذعان کردند که تکنیک آن‌ها کامل نیست. حافظه‌های حذف‌شده ممکن است در صورت دریافت آموزش‌های بیشتر توسط مدل بازگردند؛ همان‌طور که پژوهش‌های دیگر نشان داده‌اند روش‌های فعلی «حذف دانش» تنها اطلاعات را سرکوب می‌کنند و به‌طور کامل از وزن‌های شبکه عصبی پاک نمی‌کنند. این بدان معنی است که محتواهای «فراموش‌شده» می‌توانند با چند گام آموزشی ساده که به نواحی سرکوب‌شده هدف می‌گیرند، دوباره فعال شوند.

پژوهشگران همچنین نمی‌توانند به‌طور کامل دلیل شکست آسان برخی توانایی‌ها، مانند ریاضیات، هنگام حذف حافظه‌سازی را توضیح دهند. مشخص نیست آیا مدل تمام محاسبات عددی خود را حافظه‌سازی کرده است یا این‌که ریاضیات به‌صرفه از مسیرهای عصبی مشابه حافظه‌سازی استفاده می‌کند. علاوه بر این، برخی قابلیت‌های پیشرفته ممکن است برای روش تشخیص آن‌ها به‌عنوان حافظه‌سازی ظاهر شوند، حتی اگر در واقع الگوهای پیچیدهٔ استدلال باشند. سرانجام، ابزارهای ریاضی که برای اندازه‌گیری «منظره» مدل به‌کار می‌برند، در نقاط انتهایی ممکن است غیرقابل‌اعتماد شوند، اگرچه این موضوع بر فرایند ویرایش واقعی تاثیر نمی‌گذارد.

سفر در منظرهٔ عصبی

وظایف مختلف طیفی از سازوکارها را نشان می‌دهند

محدودیت‌های حذف حافظه

دیدگاه‌ خود را بنویسید لغو پاسخ