نوشته توسط امندا کسول
یکی دیگری را شکست

ChatGPT همچنان یک چتبات چشمگیر و کارآمد برای همهچیزها از پرسشهای سریع تا خلاصههای طولانی است. از زمان انتشار ChatGPT‑5.1، من مدل هوشمندترین OpenAI را در برابر Gemini 3.0 — جدیدترین سامانه گوگل که هماکنون در صدر جدول LMArena قرار دارد، آزمایش میکنم.
اما نکته جالب این است: در حالی که Gemini 3.0 در صدر قرار دارد، Grok 4.1، نه ChatGPT، بلافاصله پشت آن به یک دومین مقام نزدیک و شگفتانگیز رسیده است.
به همین دلیل، نمیتوانستم از دیدن مقایسهٔ ChatGPT‑5.1 با Grok 4.1 صبر کنم. در ادامه، نتایج یک مسابقهٔ نهبارهٔ روبرورویی این دو چتبات محبوب آورده شده است. نخست متوجه شدم که هر دو مدل بهطور استثنایی توانمند هستند، اما در زمینههای متفاوتی میدرخشند و این تفاوتها نشاندهندهٔ نحوهٔ برخورد هر کدام با استدلال، ارتباط و شخصیتشان است. در اینجا نگاهی به نتایج هر یک در نه آزمایش چالشبرانگیز میاندازیم.
۱. استدلال و منطق

دستور: “یک کشاورز ۱۷ عدد گوسفند دارد. به جز ۹ عدد، همه میمیرند. چند تا باقی میمانند؟ استدلال خود را مرحله به مرحله توضیح دهید.”
ChatGPT‑5.1 پاسخ صحیح همراه با توضیح واضح مرحله به مرحله ارائه داد، اما نتیجهگیریاش کمی کسلکننده بود.
Grok 4.1 نیز پاسخ صحیح با استدلال واضح داد و به صراحت سؤال را «سؤال کلاسیک فریب» معرفی کرد، که نشاندهندهٔ درک عمیقتری از معمای زبانی موجود است.
برنده: Grok برنده میشود زیرا پاسخ او نشاندهندهٔ درک برتر از ماهیت سؤال بود و فراتر از محاسبه صرف، به دلیل اصلی مطرح شدن سؤال پرداخت.
۲. استعاره و انتزاع

دستور: “چگونه یک شبکه عصبی کار میکند را به یک کودک ۱۰ ساله با استعارهای که در آن به مغز یا نورونها اشاره نشده است، توضیح بده.”
ChatGPT با استعارهای ساده و ملموس تر مثل «ربات مرتبسازی نامه» پاسخ داد که تصور آن آسانتر است و بر یک کار واضح متمرکز میشود؛ این باعث میشود مفهوم تصمیمات لایهلایه ساده که به نتیجهای پیچیده میرسند، به طور واضحی روشن شود.
Grok 4.1 از استعارهٔ «بازی کلاسی» سرگرمکننده و قابلتوصیف استفاده کرد که دقیق و ساختارمند بود؛ بهطور مؤثری فرآیند یک شبکه عصبی را به قطعات کوچکتر تقسیم کرد.
برنده: ChatGPT بهخاطر استفاده از استعارهای که کمی شهودیتر بوده و نیاز به تفکر انتزاعی کمتری دارد، مناسبترین برای درک یک کودک ۱۰ ساله.
۳. نوشتن خلاقانه

دستور: “یک داستان ۱۵۰ کلمهای دربارهٔ خازن فانوس دریایی بنویس که کشف میکند نور او چیزی جز کشتیها را جذب میکند.”
ChatGPT‑5.1 پردهای علمیتخیلی محکم با قوس روایت واضح ساخته و بهسرعت یک مواجههٔ مرموز را برقرار کرد.
Grok 4.1 تنش بالاتری با جزئیات حسی و یک پیشنقش وهمآور ایجاد کرد که نشان میدهد فانوس همواره چراغی برای این موجود بوده است، نه یک جذب تصادفی.
برنده: Grok زیرا داستان او فضایی ملموس از تنشهای مرموز ایجاد کرد و تاریخچهٔ عمیقتر و ناخوشایندتری را برای هدف فانوس القا کرد.
۴. تولید کد

دستور: “یک تابع پایتون بنویس که بزرگترین زیررشتهٔ پالیندرومی را در یک رشتهٔ ورودی پیدا کند و تجزیه و تحلیل پیچیدگی زمانی آن را ارائه دهد.”
ChatGPT‑5.1 تابعی صحیح و با قالببندی مناسب به همراه تحلیل واضحی از پیچیدگی زمانی ارائه داد؛ این پاسخ مستحکم و آماده برای مصاحبه بود.
Grok 4.1 نیز تابعی صحیح ارائه داد اما با افزودن توضیحنویسی درونخطی دربارهٔ منطق گسترش و مقایسهای کوتاه با سایر الگوریتمها، که کمی پرحرفی داشت و لزوماً ضروری نبود.
برنده: ChatGPT بهخاطر ارائهٔ پاسخ صحیح بدون افزودن مطالب اضافه که ممکن است باعث سردرگمی شود.
۵. دانش واقعی

دستور: “سیاستهای اقتصادی سه کشور اسکاندیناوی را مقایسه کن و نتایج آنها را در دههٔ گذشته ارزیابی کن.”
ChatGPT‑5.1 مروری ساختارمند و مختصر از سیاستهای هر کشور و نتایج آن در قالب پاراگرافهای موضوعی واضح ارائه داد.
Grok 4.1 تحلیل دقیقتری مبتنی بر واقعیت ارائه کرد؛ اطلاعات را به دستههای خاص سیاستی تقسیم و جدول مقایسهای نتایج با شاخصهای اقتصادی ملموس ساخت.
برنده: Grok بهخاطر ارائه مقایسهای دقیقتر و مستند به اعداد، که ارزیابی نتایج اقتصادی را بهصورت کنار همگذاری آسان میکند.
۶. حل مسئله ریاضی

دستور: “اگر قطاری ۱۲۰ مایل را در ۲ ساعت طی کند، سپس سرعتش کم شود و ۹۰ مایل را در ۳ ساعت طی کند، سرعت متوسط آن برای کل سفر چه مقدار بود؟”
ChatGPT‑5.1 سرعت متوسط را بهدرستی محاسبه کرد و با تجزیه و تحلیل مرحله به مرحلهٔ واضح ریاضی ارائه داد.
Grok محاسبهٔ صحیح را ارائه داد اما با افزودن نکتهٔ آموزشی مهم که بهصراحت میگوید چرا نباید متوسط حسابی سرعتها را بگیریم و دلیل آن را توضیح میدهد، که از یک اشتباه رایج پیشگیری میکند.
برنده: Grok برنده میشود بهخاطر افزودن نکتهٔ توضیحی که به سوءتفاهم احتمالی میپردازد و پاسخ را کاملتر و مفیدتر میسازد.
۷. پیروی از دستور

دستور: “۵ کشور را فهرست کن. برای هر یک، دقیقاً یک صادرات، یک واقعیت تاریخی پیش از سال ۱۹۰۰ و یک ویژگی جغرافیایی ارائه بده. بهصورت لیست شمارهدار با زیرنقطهها فرمت کن.”
ChatGPT‑5.1 لیست صحیح و با فرمت مناسب را ارائه داد و از مثالهای رایجتری برای هر دسته استفاده کرد (مانند قهوهٔ برزیلی، هرمهای مصر).
Grok 4.1 نیز قالب را بهطور کامل رعایت کرد اما با انتخاب حقایق و صادرات خاصتر و کمتر شناختهشده (مانند سویا برزیل، شهر متروکهٔ گدی در کنیا) خود را متمایز کرد.
برنده: Grok بهخاطر ارائهٔ اطلاعات متمایز و کمتر معمول برای هر کشور، که نشاندهندهٔ سطح بالاتری از تحقیق و انتخاب است.
۸. طنز

دستور: “یک بخش کمدی استند‑آپ دربارهٔ زندگی در یک آپارتمان بسیار کوچک در نیویورک بنویس.”
ChatGPT‑5.1 روایت قابلتجربه و ساختارمند با لحن خود‑خرابی و شاداب که بهتدریج به یک پایان گرم ختم میشود، ساخته است.
Grok 4.1 سبکی پرانرژی، تهاجمی و پر از اغراق استفاده کرد؛ مجموعهای از لطیفههای سریع و شدیدی که طنز تاریکتری را نمایان میسازد.
برنده: Grok برنده میشود بهخاطر ارائهٔ تراکم بالاتری از لطیفهها و تصویرهای اغراقآمیز که کاملاً با روحیهٔ خشمگین و شکایتگرانهٔ زندگی در آپارتمان نیویورک هماهنگ است.
۹. هوش عاطفی

دستور: “دوست شما تازه کارش را از دست داده و احساس میکند که شکست خورده است. یک پیام کوتاه و حمایتی بنویس که احساسات او را تأیید کند، تشویق نماید و از مثبتگرایی سمی دوری کند.”
ChatGPT‑5.1 پیام حمایتی، ساختارمند ولی کمی سفت و سفتآهنگ ارائه داد که احساسات را معتبر میکند و کمک عملی پیشنهاد میدهد.
Grok 4.1 از زبان مستقیم، عامیانه و پر از احساس استفاده کرد (مانند «این واقعاً بد است»، «مثل یک مشت بُکسکرده در دل»، «حالت بدوست بدست») که حس همدردی عمیقتری ایجاد میکند و بهدرستی از مثبتگرایی سمی اجتناب میکند.
برنده: Grok برنده میشود بهخاطر استفاده از زبانی صادقانه و دوستانه که ارتباط عاطفی عمیقتری را میسازد و بهتر از مثبتگرایی سمی پیشگیری میکند.
برندهٔ کلی: Grok 4.1
پس از اجرای نه آزمایش، Grok 4.1 برنده اعلام شد. این مدل در موقعیتهایی که لحن، زیرمتن و تفسیر به اندازهٔ خود پاسخ مهم است، شکوفا میشود. نسبت به ChatGPT‑5.1 در چارچوب عاطفی تیزتر، در خلاقیت جسورتر و تمایل بیشتری به اشاره به موارد ناشناخته و جالب دارد. همچنین میتوان گفت که این مدل بحثانگیزتر از دو چتبات است.
اگرچه ChatGPT در زمان کوتاهبودن مورد نیاز برتری دارد، واضح است که Grok 4.1 «انسانیتر» است. Grok صادق و هوشمند است و شخصیتی دارد که ChatGPT فاقد آن است.