من تازه ChatGPT‑5.1 را در برابر Grok 4.1 با ۹ پرامپت آزمایش کردم

نوشته توسط امندا کسول

یکی دیگری را شکست

آرم‌های Grok و ChatGPT — (منبع تصویر: Shutterstock)

ChatGPT همچنان یک چت‌بات چشمگیر و کارآمد برای همه‌چیزها از پرسش‌های سریع تا خلاصه‌های طولانی است. از زمان انتشار ChatGPT‑5.1، من مدل هوشمندترین OpenAI را در برابر Gemini 3.0 — جدیدترین سامانه گوگل که هم‌اکنون در صدر جدول LMArena قرار دارد، آزمایش می‌کنم.

اما نکته جالب این است: در حالی که Gemini 3.0 در صدر قرار دارد، Grok 4.1، نه ChatGPT، بلافاصله پشت آن به یک دومین مقام نزدیک و شگفت‌انگیز رسیده است.

به همین دلیل، نمی‌توانستم از دیدن مقایسهٔ ChatGPT‑5.1 با Grok 4.1 صبر کنم. در ادامه، نتایج یک مسابقهٔ نه‌بارهٔ روبرو‌رویی این دو چت‌بات محبوب آورده شده است. نخست متوجه شدم که هر دو مدل به‌طور استثنایی توانمند هستند، اما در زمینه‌های متفاوتی می‌درخشند و این تفاوت‌ها نشان‌دهندهٔ نحوهٔ برخورد هر کدام با استدلال، ارتباط و شخصیت‌شان است. در اینجا نگاهی به نتایج هر یک در نه آزمایش چالش‌برانگیز می‌اندازیم.

۱. استدلال و منطق

ChatGPT مقابل Grok — (منبع تصویر: Future)

دستور: “یک کشاورز ۱۷ عدد گوسفند دارد. به جز ۹ عدد، همه می‌میرند. چند تا باقی می‌مانند؟ استدلال خود را مرحله به مرحله توضیح دهید.”

ChatGPT‑5.1 پاسخ صحیح همراه با توضیح واضح مرحله به مرحله ارائه داد، اما نتیجه‌گیری‌اش کمی کسل‌کننده بود.

Grok 4.1 نیز پاسخ صحیح با استدلال واضح داد و به صراحت سؤال را «سؤال کلاسیک فریب» معرفی کرد، که نشان‌دهندهٔ درک عمیق‌تری از معمای زبانی موجود است.

برنده: Grok برنده می‌شود زیرا پاسخ او نشان‌دهندهٔ درک برتر از ماهیت سؤال بود و فراتر از محاسبه صرف، به دلیل اصلی مطرح شدن سؤال پرداخت.

۲. استعاره و انتزاع

دستور: “چگونه یک شبکه عصبی کار می‌کند را به یک کودک ۱۰ ساله با استعاره‌ای که در آن به مغز یا نورون‌ها اشاره نشده است، توضیح بده.”

ChatGPT با استعاره‌ای ساده و ملموس تر مثل «ربات مرتب‌سازی نامه» پاسخ داد که تصور آن آسان‌تر است و بر یک کار واضح متمرکز می‌شود؛ این باعث می‌شود مفهوم تصمیمات لایه‌لایه ساده که به نتیجه‌ای پیچیده می‌رسند، به‌ طور واضحی روشن شود.

Grok 4.1 از استعارهٔ «بازی کلاسی» سرگرم‌کننده و قابل‌توصیف استفاده کرد که دقیق و ساختارمند بود؛ به‌طور مؤثری فرآیند یک شبکه عصبی را به قطعات کوچکتر تقسیم کرد.

برنده: ChatGPT به‌خاطر استفاده از استعاره‌ای که کمی شهودی‌تر بوده و نیاز به تفکر انتزاعی کمتری دارد، مناسب‌ترین برای درک یک کودک ۱۰ ساله.

۳. نوشتن خلاقانه

دستور: “یک داستان ۱۵۰ کلمه‌ای دربارهٔ خازن فانوس دریایی بنویس که کشف می‌کند نور او چیزی جز کشتی‌ها را جذب می‌کند.”

ChatGPT‑5.1 پرده‌ای علمی‌تخیلی محکم با قوس روایت واضح ساخته و به‌سرعت یک مواجههٔ مرموز را برقرار کرد.

Grok 4.1 تنش بالاتری با جزئیات حسی و یک پیش‌نقش وهم‌آور ایجاد کرد که نشان می‌دهد فانوس همواره چراغی برای این موجود بوده است، نه یک جذب تصادفی.

برنده: Grok زیرا داستان او فضایی ملموس از تنش‌های مرموز ایجاد کرد و تاریخچهٔ عمیق‌تر و ناخوشایندتری را برای هدف فانوس القا کرد.

۴. تولید کد

دستور: “یک تابع پایتون بنویس که بزرگ‌ترین زیررشتهٔ پالیندرومی را در یک رشتهٔ ورودی پیدا کند و تجزیه و تحلیل پیچیدگی زمانی آن را ارائه دهد.”

ChatGPT‑5.1 تابعی صحیح و با قالب‌بندی مناسب به همراه تحلیل واضحی از پیچیدگی زمانی ارائه داد؛ این پاسخ مستحکم و آماده برای مصاحبه بود.

Grok 4.1 نیز تابعی صحیح ارائه داد اما با افزودن توضیح‌نویسی درون‌خطی دربارهٔ منطق گسترش و مقایسه‌ای کوتاه با سایر الگوریتم‌ها، که کمی پرحرفی داشت و لزوماً ضروری نبود.

برنده: ChatGPT به‌خاطر ارائهٔ پاسخ صحیح بدون افزودن مطالب اضافه که ممکن است باعث سردرگمی شود.

۵. دانش واقعی

دستور: “سیاست‌های اقتصادی سه کشور اسکاندیناوی را مقایسه کن و نتایج آن‌ها را در دههٔ گذشته ارزیابی کن.”

ChatGPT‑5.1 مروری ساختارمند و مختصر از سیاست‌های هر کشور و نتایج آن در قالب پاراگراف‌های موضوعی واضح ارائه داد.

Grok 4.1 تحلیل دقیق‌تری مبتنی بر واقعیت ارائه کرد؛ اطلاعات را به دسته‌های خاص سیاستی تقسیم و جدول مقایسه‌ای نتایج با شاخص‌های اقتصادی ملموس ساخت.

برنده: Grok به‌خاطر ارائه مقایسه‌ای دقیق‌تر و مستند به اعداد، که ارزیابی نتایج اقتصادی را به‌صورت کنار هم‌گذاری آسان می‌کند.

۶. حل مسئله ریاضی

دستور: “اگر قطاری ۱۲۰ مایل را در ۲ ساعت طی کند، سپس سرعتش کم شود و ۹۰ مایل را در ۳ ساعت طی کند، سرعت متوسط آن برای کل سفر چه مقدار بود؟”

ChatGPT‑5.1 سرعت متوسط را به‌درستی محاسبه کرد و با تجزیه‌ و تحلیل مرحله به مرحلهٔ واضح ریاضی ارائه داد.

Grok محاسبهٔ صحیح را ارائه داد اما با افزودن نکتهٔ آموزشی مهم که به‌صراحت می‌گوید چرا نباید متوسط حسابی سرعت‌ها را بگیریم و دلیل آن را توضیح می‌دهد، که از یک اشتباه رایج پیشگیری می‌کند.

برنده: Grok برنده می‌شود به‌خاطر افزودن نکتهٔ توضیحی که به سوء‌تفاهم احتمالی می‌پردازد و پاسخ را کامل‌تر و مفیدتر می‌سازد.

۷. پیروی از دستور

دستور: “۵ کشور را فهرست کن. برای هر یک، دقیقاً یک صادرات، یک واقعیت تاریخی پیش از سال ۱۹۰۰ و یک ویژگی جغرافیایی ارائه بده. به‌صورت لیست شماره‌دار با زیرنقطه‌ها فرمت کن.”

ChatGPT‑5.1 لیست صحیح و با فرمت مناسب را ارائه داد و از مثال‌های رایج‌تری برای هر دسته استفاده کرد (مانند قهوهٔ برزیلی، هرم‌های مصر).

Grok 4.1 نیز قالب را به‌طور کامل رعایت کرد اما با انتخاب حقایق و صادرات خاص‌تر و کمتر شناخته‌شده (مانند سویا برزیل، شهر متروکهٔ گدی در کنیا) خود را متمایز کرد.

برنده: Grok به‌خاطر ارائهٔ اطلاعات متمایز و کمتر معمول برای هر کشور، که نشان‌دهندهٔ سطح بالاتری از تحقیق و انتخاب است.

۸. طنز

دستور: “یک بخش کمدی استند‑آپ دربارهٔ زندگی در یک آپارتمان بسیار کوچک در نیویورک بنویس.”

ChatGPT‑5.1 روایت قابل‌تجربه و ساختارمند با لحن خود‑خرابی و شاداب که به‌تدریج به یک پایان گرم ختم می‌شود، ساخته است.

Grok 4.1 سبکی پرانرژی، تهاجمی و پر از اغراق استفاده کرد؛ مجموعه‌ای از لطیفه‌های سریع و شدیدی که طنز تاریک‌تری را نمایان می‌سازد.

برنده: Grok برنده می‌شود به‌خاطر ارائهٔ تراکم بالاتری از لطیفه‌ها و تصویرهای اغراق‌آمیز که کاملاً با روحیهٔ خشمگین و شکایت‌گرانهٔ زندگی در آپارتمان نیویورک هماهنگ است.

۹. هوش عاطفی

دستور: “دوست شما تازه کارش را از دست داده و احساس می‌کند که شکست خورده است. یک پیام کوتاه و حمایتی بنویس که احساسات او را تأیید کند، تشویق نماید و از مثبت‌گرایی سمی دوری کند.”

ChatGPT‑5.1 پیام حمایتی، ساختارمند ولی کمی سفت و سفت‌آهنگ ارائه داد که احساسات را معتبر می‌کند و کمک عملی پیشنهاد می‌دهد.

Grok 4.1 از زبان مستقیم، عامیانه و پر از احساس استفاده کرد (مانند «این واقعاً بد است»، «مثل یک مشت بُکس‌کرده در دل»، «حالت بدوست بدست») که حس همدردی عمیق‌تری ایجاد می‌کند و به‌درستی از مثبت‌گرایی سمی اجتناب می‌کند.

برنده: Grok برنده می‌شود به‌خاطر استفاده از زبانی صادقانه و دوستانه که ارتباط عاطفی عمیق‌تری را می‌سازد و بهتر از مثبت‌گرایی سمی پیشگیری می‌کند.

برندهٔ کلی: Grok 4.1

پس از اجرای نه آزمایش، Grok 4.1 برنده اعلام شد. این مدل در موقعیت‌هایی که لحن، زیرمتن و تفسیر به اندازهٔ خود پاسخ مهم است، شکوفا می‌شود. نسبت به ChatGPT‑5.1 در چارچوب عاطفی تیزتر، در خلاقیت جسورتر و تمایل بیشتری به اشاره به موارد ناشناخته و جالب دارد. همچنین می‌توان گفت که این مدل بحث‌انگیزتر از دو چت‌بات است.

اگرچه ChatGPT در زمان کوتاه‌بودن مورد نیاز برتری دارد، واضح است که Grok 4.1 «انسانی‌تر» است. Grok صادق و هوشمند است و شخصیتی دارد که ChatGPT فاقد آن است.

من تازه ChatGPT‑5.1 را در برابر Grok 4.1 با ۹ پرامپت آزمایش کردم — و برنده واضحی مشخص شد

۱. استدلال و منطق

۲. استعاره و انتزاع

۳. نوشتن خلاقانه

۴. تولید کد

۵. دانش واقعی

۶. حل مسئله ریاضی

۷. پیروی از دستور

۸. طنز

۹. هوش عاطفی

برندهٔ کلی: Grok 4.1

دیدگاه‌ خود را بنویسید لغو پاسخ

۱. استدلال و منطق

۲. استعاره و انتزاع

۳. نوشتن خلاقانه

۴. تولید کد

۵. دانش واقعی

۶. حل مسئله ریاضی

۷. پیروی از دستور

۸. طنز

۹. هوش عاطفی

برندهٔ کلی: Grok 4.1

دیدگاه‌ خود را بنویسید لغو پاسخ

برندهٔ کلی: Grok 4.1