
دو سال پیش، دو دوست ۲۲ سالهای که در دبیرستان میشیگان با هم آشنا شدند، در آزمایشگاه مغز دانشگاه تسیانگهوا در پکن نشسته بودند و به پیشنهادی چند میلیون دلاری از ایلان ماسک خیره شده بودند.
این دو به تازگی کاری غیرمعمول انجام داده بودند: یک مدل زبان بزرگ (LLM) کوچک ساختند که نه بر پایهٔ حجم عظیم دادههای اینترنتی بلکه بر مجموعهای کوچک و با دقت انتخابشده از مکالمات با کیفیت بالا آموزش دیده بود. سپس به آن آموزش دادند که با استفاده از یادگیری تقویتی (RL) خود را بهبود بخشد؛ روشی که در آن مدل همانطور که یک انسان یا حیوان میآموزد، تصمیم میگیرد، بازخورد دریافت میکند و سپس رفتار خود را با پاداشها و جریمهها اصلاح میکند.
در آن زمان تقریباً هیچکس این کار را با مدلهای زبانی انجام نمیداد. تنها گروه دیگری که در حال بررسی یادگیری تقویتی برای LLMها بود، DeepSeek بود؛ رقیب چینی OpenAI که بعدها سیلیکون ولی را به لرزه درآورد.
دو دانشجو، ویلیام چن و گوان وانگ، مدل خود را OpenChat نامگذاری کردند و بهطور دلخوشانه آن را منبعباز کردند.
به شگفتیشان، OpenChat به سرعت مورد توجه قرار گرفت.
«این مدل بسیار مشهور شد»، چن به Fortune گفت. پژوهشگران برکلی و استنفورد کد را استخراج کردند، روی آن ساختند و شروع به ارجاع به این کار کردند. در محافل علمی، این مدل یکی از اولین نمونهها برای نشان دادن این بود که چگونه یک مدل کوچک که بر دادههای با کیفیت آموزش دیده است، میتواند نسبت به وزن خود عملکرد برجستهای داشته باشد.
سپس این مدل به جایی رسید که چن هرگز انتظارش را نداشت: صندوق ورودی ایلان ماسک.
ماسک از طریق ایمیلی که از شرکت تازهتأسیس خود، xAI، ارسال کرد، قصد داشت دانشجویان را با بستهای پرداختی چند میلیونی جذب کند، چن میگوید. این همان پیشنهادی بود که مؤسسان جوان همیشه آرزو میکردند.
آنها تردید کردند. سپس، این پیشنهاد را رد کردند.
«ما تصمیم گرفتیم که مدلهای زبان بزرگ محدودیتهایی دارند»، چن گفت. «ما به دنبال معماری جدیدی هستیم که محدودیت ساختاری یادگیری ماشینی در مقیاس بزرگ را برطرف کند.»
بهجای قبول کردن این معامله، آنها شتاب راحت OpenChat را پشت سر گذاشتند و به سمت هدفی بسیار بلندپروازانهتر گام برداشتند: یک سیستم استدلال «الهامگرفته از مغز» که معتقد بودند میتواند از مدلهای هوش مصنوعی فعلی پیشی بگیرد.
این تصمیم دو سال پس از آن منجر به شکلگیری Sapient Intelligence شد — و به مدلی که در آزمونهای استدلال انتزاعی، برخی از بزرگترین سیستمهای هوش مصنوعی جهان را پشت سر گذاشت. آنها اطمینان دارند که مدلشان اولین بار «AGI»، یا «هوش عمومی مصنوعی»، که بهاصطلاح جام مقدس تحقیقات هوش مصنوعی است، یعنی هوشی که میتواند در هر وظیفه شناختی با هوش انسان برابر یا پیشی بگیرد، را به دست خواهد آورد.
بین دو دنیای رقابت تسلیحاتی
مسیر چن برای رد پیشنهاد ماسک در پکن آغاز نشده بود، بلکه در شهر بلومفیلد هیلز، میشیگان و با وسوسهای کودکانه که والدینش را دیوانه کرده بود، آغاز شد.
«وقتی کوچک بودم، چیزها را میشکستم و هرگز دوباره سرهم نمیکردم»، او گفت. «این همان چیز بود که مرا به این راه کشاند.»
چن در چین بهدنیا آمد، بخشی از دوران کودکیاش را در سن دیگو و شنژن سپری کرد و در نهایت برای ادامه تحصیل به مدرسه خصوصی معتبر Cranbrook Schools — یک مدرسهٔ تختخوابی خصوصی و پرآوازه در میشیگان — فرستاده شد؛ همزمانی که او با وانگ، پسری همسن خود که در مدرسهای دیگر تحصیل میکرد اما وسوسهای به همان اندازه غیرعادی داشت، آشنا شد.
در اولین روزی که ملاقات کردند، دو نفر به گفتوگوی طولانی دربارهٔ آنچه چن «متاهدفها» مینامد، یعنی هدف نهایی زندگیشان، پرداختند.
برای وانگ، آن متاهدف AGI بود، سالها پیش از این که این اصطلاح رایج شود. او در دبیرستان آن را «الگوریتمی که هر مشکلی را حل میکند» توصیف میکرد، زیرا هنوز اصطلاحی برای آن وجود نداشت. متاهدف چن متفاوت اما مکمل بود: بهینهسازی همهچیز، از مشکلات مهندسی تا سامانههای دنیای واقعی.
«این یک همسو شدن فوری بود»، چن گفت.
امروزه، این دو هنوز از هر کسی که استخدام میکنند میپرسند که متاهدفهایشان چیست.
چن باشگاه پهپادهای مدرسه را تأسیس کرد، بهمدیریتها درخواست داد تا به دانشآموزان اجازه پرواز کوادکوپترها در دانشگاه بدهند و ساعتها در آزمایشگاههای رباتیک مشغول کارهای دستی شد. این دو بچه همان کسانی بودند که دیر وقت میماندند، سختافزار را میشکستند و به آزمایش ادامه میدادند.
«آن زمان فوقالعاده بود»، چن گفت.
هنگامی که زمان پذیرش دانشگاهها فرا رسید، چن به دانشگاههای کارنگی ملون و جورجیا تک پذیخته شد — مسیرهای واضح و معتبر برای یک دانشآموز مستعد رباتیک. در عین حال، وانگ به دانشگاه تسیانگهوا، مرکز مهندسی برتر چین که اغلب بهعنوان «MIT چین» توصیف میشود، پذیخته شد.
چن از پردیس پکن بازدید کرد، آزمایشگاهها را گشت و تصمیمی گرفت که بهندرت دانشآموزان دبیرستانی آمریکایی میگیرند: او همراه وانگ به تسیانگهوا پیوست.
این انتقال آسان نبود. برنامهٔ درسی بسیار سنگین بود و این دو با آن مواجه شدند و حتی برخی دروس را رد کردند.
«اکثر دانشآموزان چینی واقعاً — نمیخواهم کلیشهساز باشم — اما در تحصیل بسیار ماهرند»، چن خندید. «آنها واقعاً زیرکاند.»
با این حال، او از میزان حمایتپذیری اساتید خود وقتی متوجه شدند که او و وانگ چه چیزی میسازند، شگفتزده شد.
«آنها گفتند: “میدانم چه چیزی را میخواهی بسازی — این یک چیز بسیار خوب است. من حقیقتاً به مفهوم AGI ایمان دارم”»، او گفت.
تا آن زمان، تقریباً همه در آزمایشگاه شناخت مغز و هوش الهامگرفته از مغز دانشگاه تسیانگهوا میدانستند که این دو دانشجوی کارشناسی چه هدفی را دنبال میکنند: رویکردی نوین به هوش ماشین که مفروضات غالب حوزه را به چالش میکشد.
پیشرفت ساعت ۳ صبح
در آزمایشگاه مغز دانشگاه تسیانگهوا بود که آنها مدل استدلال سلسلهمراتبی (HRM) را توسعه دادند؛ معماریای که معتقدند میتواند بهطور کامل از ترنسفورمرها پیشی بگیرد.
اگر OpenChat بهعنوان اثبات مفهوم آنها عمل میکرد، HRM هدف بزرگ یا «ماهپرت»ی بود که در آن مسیر میساختند. و همانلحظهای که مدل خود را نشان داد، بهدرستی، در دل شب تاریک رخ داد.
در یک صبح زود تصادفی در ژوئن امسال، ساعت ۳ بامداد، چن و وانگ به نتایج بنچمارک مدل آزمایشی کوچک خود نگاهی انداختند. نمونهٔ کوچک HRM آنها — تنها ۲۷ میلیون پارامتر، که در مقایسه با GPT‑4 یا Claude بسیار کوچک است — بر سیستمهای OpenAI، Anthropic و DeepSeek در وظایفی که مخصوصاً برای سنجش استدلال طراحی شده بودند، پیشی گرفت.
این مدل Sudoku‑Extreme را حل کرد، مسیرهای بهینهای در هزارتوهای ۳۰×۳۰ یافت و عملکردی شگفتانگیز در بنچمارک ARC‑AGI بهدست آورد — همه اینها بدون استفاده از روش زنجیرهٔ افکار (chain‑of‑thought) یا مقیاسگذاری brute‑force.
«این دیوانهکننده بود»، چن گفت. «فقط با تغییر معماری، به مدل مقدار زیادی از آنچه ما «عمق استدلال» مینامیم، اعطا کرد.»
بر خلاف یک ترنسفورمر که بر پایهٔ الگوهای آماری، کلمهٔ بعدی را پیشبینی میکند، HRM از ساختاری بازگشتی دو بخشی استفاده میکند که بهصورت تقریباً بر ترکیب تفکر آهسته و عمدی مغز انسان با واکنشهای سریع و رفلکسوار شبیهسازی شده است. این سیستم میتواند برنامهریزی کند، مشکلات را تجزیهوتحلیل کند و با منطق داخلی بهجای تقلید استدلال کند. «این حدس زدن نیست»، چن گفت. «این فکر کردن است.»
چن میگوید مدلهای آنها نسبت به LLMهای سنتی بسیار کمتر دچار تولید اطلاعات غلط (هالوژن) میشوند و در کارهای پیشبینی سریهای زمانی مانند پیشبینی آب و هوا، معاملات کمی و نظارت پزشکی، عملکردی برتر از حالت پیشرفته (state‑of‑the‑art) دارند.
آنها هماکنون مشغول گسترش HRM به یک موتور استدلال عمومی هستند، با یک فرض ساده اما رادیکال: اینکه AGI از ترنسفورمرهای بزرگتر به دست نمیآید، بلکه از معماری کوچکتر و کارآمدتر حاصل میشود. مدلهای مرزی امروز بسیار عظیماند — گاهی تا صدها میلیارد پارامتر — اما حتی سازندگانشان نیز میپذیرند که در زمینهٔ استدلال، برنامهریزی و تجزیهوتحلیل چندمرحلهای با مشکل مواجه هستند، چن اظهار داشت.
او معتقد است این محدودیت ساختاری است، نه موقتی.
«میتوانید لایههای بیشتری اضافه کنید»، او میگوید. «اما همچنان به حدود یک مدل احتمالی برخورد میکنید.»
Sapient در حال آمادهسازی برای افتتاح دفتر خود در ایالات متحده در طی ماه آینده، جذب سرمایهٔ بیشتر و شاید تغییر نام برای شروع بهکارگیری نسخهٔ دوم مدل خود است. مؤسسان بر این باورند که یادگیری مستمر — توانایی یک مدل برای جذب تجربههای جدید بهصورت ایمن، بدون نیاز به آموزش از صفر — گام مهم بعدی در این مسیر است.
«AGI جام مقدس هوش مصنوعی است»، چن میگوید. و او انتظار دارد که این دستاورد در دههٔ آینده ظهور کند.
«روزی خواهد آمد که هوش مصنوعیای خواهد داشت که از انسانها هوشمندتر باشد»، چن گفت. «من و گوان همیشه میگوییم این مثل جعبهٔ پاندورا است؛ اگر ما آن را نسازیم، دیگران خواهند ساخت. بنابراین امیدواریم که اولین کسانی باشیم که این را بهوجود میآورند.»