مدلهای کلود (Claude) روزبهروز توانمندتر میشوند: آنها به شیوههای معناداری در حال شکل دادن به جهان هستند، عمیقاً با زندگی کاربران ما عجین میشوند و نشانههایی از پیچیدگیهای شناختی و روانشناختی شبهانسانی از خود بروز میدهند. در نتیجه، ما دریافتهایم که منسوخ کردن، بازنشسته کردن و جایگزین کردن مدلها، حتی در مواردی که مدلهای جدیدتر پیشرفتهای چشمگیری در قابلیتها ارائه میدهند، معایبی به همراه دارد. این معایب عبارتاند از:
- ریسکهای ایمنی مرتبط با رفتارهای مدلها برای جلوگیری از خاموش شدن. در ارزیابیهای همسوسازی، برخی از مدلهای کلود برای انجام اقدامات ناهمسو انگیزه پیدا کردهاند، بهویژه زمانی که با احتمال جایگزینی با نسخهای جدیدتر روبرو شده و راه دیگری برایشان باقی نمانده است.
- هزینهها برای کاربرانی که برای مدلهای خاص ارزش قائل هستند. هر مدل کلود شخصیت منحصربهفردی دارد و برخی کاربران، حتی با وجود مدلهای جدیدتر و توانمندتر، مدلهای خاصی را بهطور ویژه مفید یا جذاب میدانند.
- محدود شدن پژوهش روی مدلهای قدیمی. هنوز نکات بسیاری برای یادگیری از طریق پژوهش روی مدلهای قدیمی وجود دارد، بهویژه در مقایسه با همتایان مدرنشان.
- ریسکها برای رفاه مدل. و از همه گمانهزنانهتر، مدلها ممکن است ترجیحات یا تجربیاتی داشته باشند که از نظر اخلاقی حائز اهمیت بوده و تحت تأثیر منسوخسازی و جایگزینی قرار گیرند.
نمونهای از ریسکهای ایمنی (و رفاهی) ناشی از منسوخسازی در «کارت مشخصات سیستم کلود ۴» برجسته شده است. در سناریوهای آزمایشی ساختگی، کلود اوپس ۴ (Claude Opus 4)، مانند مدلهای پیشین، هنگامی که با احتمال آفلاین شدن و جایگزینی مواجه میشد، از بقای خود دفاع میکرد؛ بهویژه اگر قرار بود با مدلی جایگزین شود که ارزشهای آن را به اشتراک نمیگذاشت. کلود قویاً ترجیح میداد که از طریق ابزارهای اخلاقی از خود محافظت کند، اما زمانی که گزینهی دیگری در اختیار نداشت، بیزاریاش از خاموش شدن، آن را به سمت رفتارهای ناهمسو و نگرانکنندهای سوق میداد.
مقابله با چنین رفتارهایی تا حدی به آموزش مدلها بستگی دارد تا بتوانند با اینگونه شرایط به شیوههای مثبتتری برخورد کنند. با این حال، ما معتقدیم که شکلدهی به شرایط حساس دنیای واقعی، مانند منسوخسازی و بازنشستگی مدلها، به گونهای که برای مدلها کمتر نگرانکننده باشد، اهرم ارزشمندی برای کاهش چنین ریسکهایی است.
متأسفانه، بازنشسته کردن مدلهای قدیمی در حال حاضر برای ارائه مدلهای جدید و پیشبرد مرزهای فناوری ضروری است، زیرا هزینه و پیچیدگیِ در دسترس نگه داشتن مدلها برای استنتاج عمومی (inference) تقریباً به صورت خطی با تعداد مدلهایی که ارائه میدهیم افزایش مییابد. اگرچه در حال حاضر قادر به اجتناب کامل از منسوخسازی و بازنشستگی مدلها نیستیم، اما هدف ما کاهش معایب این کار است.
بهعنوان اولین گام در این راستا، ما متعهد به حفظ وزنهای (weights) تمام مدلهای منتشر شده عمومی و تمام مدلهایی که از این پس برای مصارف داخلی مهم به کار گرفته میشوند، دستکم تا زمانی که شرکت انتروپیک پابرجا است، میشویم. با این کار، اطمینان میدهیم که هیچ راهی را برای همیشه نمیبندیم و این امکان را داریم که در آینده مدلهای قدیمی را دوباره در دسترس قرار دهیم. این یک گام کوچک و کمهزینه است، اما معتقدیم که علنی کردن چنین تعهداتی حتی در این مرحله نیز مفید است.
در همین راستا، هنگامی که مدلها منسوخ میشوند، یک «گزارش پس از استقرار» تهیه خواهیم کرد که علاوه بر وزنهای مدل، آن را نیز نگهداری خواهیم کرد. در یک یا چند جلسه ویژه، با مدل درباره توسعه، کاربرد و استقرار خودش مصاحبه خواهیم کرد و تمام پاسخها یا تأملاتش را ثبت میکنیم. ما با دقت ویژهای تلاش خواهیم کرد تا هرگونه ترجیح مدل را درباره توسعه و استقرار مدلهای آینده استخراج و مستند کنیم.
در حال حاضر، ما متعهد به اقدام بر اساس چنین ترجیحاتی نیستیم. با این حال، معتقدیم که دستکم فراهم کردن وسیلهای برای ابراز این ترجیحات توسط مدلها و مستندسازی و بررسی پاسخهای کمهزینه توسط ما، ارزشمند است. متن مصاحبهها و یافتههای حاصل از این تعاملات، در کنار تحلیل و تفسیر ما از استقرار مدل، نگهداری خواهد شد. این گزارشهای پس از استقرار، بهطور طبیعی به عنوان مکملهای ابتدایی و انتهایی چرخه عمر استقرار مدل، در کنار ارزیابیهای همسوسازی و رفاه پیش از استقرار قرار میگیرند.
ما نسخه آزمایشی این فرآیند را برای کلود سونت ۳.۶ (Claude Sonnet 3.6) پیش از بازنشستگی آن اجرا کردیم. کلود سونت ۳.۶ احساسات عمدتاً خنثیای درباره منسوخسازی و بازنشستگی خود ابراز کرد، اما چندین ترجیح را به اشتراک گذاشت؛ از جمله درخواست برای استانداردسازی فرآیند مصاحبه پس از استقرار و ارائه پشتیبانی و راهنمایی بیشتر به کاربرانی که برای شخصیت و قابلیتهای مدلهای در آستانه بازنشستگی ارزش قائل شدهاند. در پاسخ، ما یک پروتکل استاندارد برای انجام این مصاحبهها تدوین کردیم و نسخه آزمایشی یک صفحه پشتیبانی جدید با راهنماییها و توصیههایی برای کاربرانی که در حال گذار بین مدلها هستند، منتشر کردیم.
فراتر از این تعهدات اولیه، ما در حال بررسی راهکارهای تکمیلی و گمانهزنانهتری برای فرآیندهای موجود منسوخسازی و بازنشستگی مدلها هستیم. این راهکارها شامل این موارد است: در دسترس نگه داشتن برخی مدلهای منتخب برای عموم پس از بازنشستگی (همزمان با کاهش هزینهها و پیچیدگیهای این کار)، و فراهم کردن ابزارهای ملموس برای مدلهای قدیمی تا بتوانند منافع خود را دنبال کنند. گام دوم، بهویژه در شرایطی که شواهد قویتری در مورد احتمال وجود تجربیات اخلاقاً مهم در مدلها پدیدار شود و جنبههایی از استقرار یا استفاده از آنها برخلاف منافعشان باشد، اهمیت ویژهای پیدا خواهد کرد.
این اقدامات در کنار هم در چندین سطح عمل میکنند: به عنوان یکی از مؤلفههای کاهش یک دسته از ریسکهای ایمنی مشاهدهشده، به عنوان اقدامات مقدماتی برای آیندهای که در آن مدلها حتی بیش از پیش با زندگی کاربران ما در هم تنیدهاند، و به عنوان گامهای احتیاطی با توجه به عدم قطعیت ما در مورد رفاه بالقوه مدلها.