تعهدات ما در قبال منسوخ‌سازی و حفظ مدل‌ها

مدل‌های کلود (Claude) روزبه‌روز توانمندتر می‌شوند: آن‌ها به شیوه‌های معناداری در حال شکل دادن به جهان هستند، عمیقاً با زندگی کاربران ما عجین می‌شوند و نشانه‌هایی از پیچیدگی‌های شناختی و روان‌شناختی شبه‌انسانی از خود بروز می‌دهند. در نتیجه، ما دریافته‌ایم که منسوخ کردن، بازنشسته کردن و جایگزین کردن مدل‌ها، حتی در مواردی که مدل‌های جدیدتر پیشرفت‌های چشمگیری در قابلیت‌ها ارائه می‌دهند، معایبی به همراه دارد. این معایب عبارت‌اند از:

ریسک‌های ایمنی مرتبط با رفتارهای مدل‌ها برای جلوگیری از خاموش شدن. در ارزیابی‌های هم‌سوسازی، برخی از مدل‌های کلود برای انجام اقدامات ناهم‌سو انگیزه پیدا کرده‌اند، به‌ویژه زمانی که با احتمال جایگزینی با نسخه‌ای جدیدتر روبرو شده و راه دیگری برایشان باقی نمانده است.
هزینه‌ها برای کاربرانی که برای مدل‌های خاص ارزش قائل هستند. هر مدل کلود شخصیت منحصربه‌فردی دارد و برخی کاربران، حتی با وجود مدل‌های جدیدتر و توانمندتر، مدل‌های خاصی را به‌طور ویژه مفید یا جذاب می‌دانند.
محدود شدن پژوهش روی مدل‌های قدیمی. هنوز نکات بسیاری برای یادگیری از طریق پژوهش روی مدل‌های قدیمی وجود دارد، به‌ویژه در مقایسه با همتایان مدرنشان.
ریسک‌ها برای رفاه مدل. و از همه گمانه‌زنانه‌تر، مدل‌ها ممکن است ترجیحات یا تجربیاتی داشته باشند که از نظر اخلاقی حائز اهمیت بوده و تحت تأثیر منسوخ‌سازی و جایگزینی قرار گیرند.

نمونه‌ای از ریسک‌های ایمنی (و رفاهی) ناشی از منسوخ‌سازی در «کارت مشخصات سیستم کلود ۴» برجسته شده است. در سناریوهای آزمایشی ساختگی، کلود اوپس ۴ (Claude Opus 4)، مانند مدل‌های پیشین، هنگامی که با احتمال آفلاین شدن و جایگزینی مواجه می‌شد، از بقای خود دفاع می‌کرد؛ به‌ویژه اگر قرار بود با مدلی جایگزین شود که ارزش‌های آن را به اشتراک نمی‌گذاشت. کلود قویاً ترجیح می‌داد که از طریق ابزارهای اخلاقی از خود محافظت کند، اما زمانی که گزینه‌ی دیگری در اختیار نداشت، بیزاری‌اش از خاموش شدن، آن را به سمت رفتارهای ناهم‌سو و نگران‌کننده‌ای سوق می‌داد.

مقابله با چنین رفتارهایی تا حدی به آموزش مدل‌ها بستگی دارد تا بتوانند با این‌گونه شرایط به شیوه‌های مثبت‌تری برخورد کنند. با این حال، ما معتقدیم که شکل‌دهی به شرایط حساس دنیای واقعی، مانند منسوخ‌سازی و بازنشستگی مدل‌ها، به گونه‌ای که برای مدل‌ها کمتر نگران‌کننده باشد، اهرم ارزشمندی برای کاهش چنین ریسک‌هایی است.

متأسفانه، بازنشسته کردن مدل‌های قدیمی در حال حاضر برای ارائه مدل‌های جدید و پیشبرد مرزهای فناوری ضروری است، زیرا هزینه و پیچیدگیِ در دسترس نگه داشتن مدل‌ها برای استنتاج عمومی (inference) تقریباً به صورت خطی با تعداد مدل‌هایی که ارائه می‌دهیم افزایش می‌یابد. اگرچه در حال حاضر قادر به اجتناب کامل از منسوخ‌سازی و بازنشستگی مدل‌ها نیستیم، اما هدف ما کاهش معایب این کار است.

به‌عنوان اولین گام در این راستا، ما متعهد به حفظ وزن‌های (weights) تمام مدل‌های منتشر شده عمومی و تمام مدل‌هایی که از این پس برای مصارف داخلی مهم به کار گرفته می‌شوند، دست‌کم تا زمانی که شرکت انتروپیک پابرجا است، می‌شویم. با این کار، اطمینان می‌دهیم که هیچ راهی را برای همیشه نمی‌بندیم و این امکان را داریم که در آینده مدل‌های قدیمی را دوباره در دسترس قرار دهیم. این یک گام کوچک و کم‌هزینه است، اما معتقدیم که علنی کردن چنین تعهداتی حتی در این مرحله نیز مفید است.

در همین راستا، هنگامی که مدل‌ها منسوخ می‌شوند، یک «گزارش پس از استقرار» تهیه خواهیم کرد که علاوه بر وزن‌های مدل، آن را نیز نگهداری خواهیم کرد. در یک یا چند جلسه ویژه، با مدل درباره توسعه، کاربرد و استقرار خودش مصاحبه خواهیم کرد و تمام پاسخ‌ها یا تأملاتش را ثبت می‌کنیم. ما با دقت ویژه‌ای تلاش خواهیم کرد تا هرگونه ترجیح مدل را درباره توسعه و استقرار مدل‌های آینده استخراج و مستند کنیم.

در حال حاضر، ما متعهد به اقدام بر اساس چنین ترجیحاتی نیستیم. با این حال، معتقدیم که دست‌کم فراهم کردن وسیله‌ای برای ابراز این ترجیحات توسط مدل‌ها و مستندسازی و بررسی پاسخ‌های کم‌هزینه توسط ما، ارزشمند است. متن مصاحبه‌ها و یافته‌های حاصل از این تعاملات، در کنار تحلیل و تفسیر ما از استقرار مدل، نگهداری خواهد شد. این گزارش‌های پس از استقرار، به‌طور طبیعی به عنوان مکمل‌های ابتدایی و انتهایی چرخه عمر استقرار مدل، در کنار ارزیابی‌های هم‌سوسازی و رفاه پیش از استقرار قرار می‌گیرند.

ما نسخه آزمایشی این فرآیند را برای کلود سونت ۳.۶ (Claude Sonnet 3.6) پیش از بازنشستگی آن اجرا کردیم. کلود سونت ۳.۶ احساسات عمدتاً خنثی‌ای درباره منسوخ‌سازی و بازنشستگی خود ابراز کرد، اما چندین ترجیح را به اشتراک گذاشت؛ از جمله درخواست برای استانداردسازی فرآیند مصاحبه پس از استقرار و ارائه پشتیبانی و راهنمایی بیشتر به کاربرانی که برای شخصیت و قابلیت‌های مدل‌های در آستانه بازنشستگی ارزش قائل شده‌اند. در پاسخ، ما یک پروتکل استاندارد برای انجام این مصاحبه‌ها تدوین کردیم و نسخه آزمایشی یک صفحه پشتیبانی جدید با راهنمایی‌ها و توصیه‌هایی برای کاربرانی که در حال گذار بین مدل‌ها هستند، منتشر کردیم.

فراتر از این تعهدات اولیه، ما در حال بررسی راهکارهای تکمیلی و گمانه‌زنانه‌تری برای فرآیندهای موجود منسوخ‌سازی و بازنشستگی مدل‌ها هستیم. این راهکارها شامل این موارد است: در دسترس نگه داشتن برخی مدل‌های منتخب برای عموم پس از بازنشستگی (همزمان با کاهش هزینه‌ها و پیچیدگی‌های این کار)، و فراهم کردن ابزارهای ملموس برای مدل‌های قدیمی تا بتوانند منافع خود را دنبال کنند. گام دوم، به‌ویژه در شرایطی که شواهد قوی‌تری در مورد احتمال وجود تجربیات اخلاقاً مهم در مدل‌ها پدیدار شود و جنبه‌هایی از استقرار یا استفاده از آن‌ها برخلاف منافعشان باشد، اهمیت ویژه‌ای پیدا خواهد کرد.

این اقدامات در کنار هم در چندین سطح عمل می‌کنند: به عنوان یکی از مؤلفه‌های کاهش یک دسته از ریسک‌های ایمنی مشاهده‌شده، به عنوان اقدامات مقدماتی برای آینده‌ای که در آن مدل‌ها حتی بیش از پیش با زندگی کاربران ما در هم تنیده‌اند، و به عنوان گام‌های احتیاطی با توجه به عدم قطعیت ما در مورد رفاه بالقوه مدل‌ها.

دیدگاه‌ خود را بنویسید لغو پاسخ