جدول رتبه‌ بندی مدل‌های هوش مصنوعی جولای 2025؛ ایلان ماسک با Grok4 در صدر!

شهرام خندقی

1404/04/25

جدول رتبه‌ بندی مدل‌های هوش مصنوعی جولای 2025؛ ایلان ماسک با Grok4 در صدر!

سرفصل های این مقاله:

🥇 بهترین‌ها در نگاه کلی: ۱۰ مدل برتر بر اساس دانش عمومی (GPQA) 🧠 بهترین مدل‌ها در زمینه‌های تخصصی 🧭 جمع بندی این بخش: مدل‌های متن‌باز در برابر غول‌های تجاری: رقابت نزدیک یا فاصله بعید؟ جمع‌بندی: رقابت همچنان ادامه دارد، اما مسیر انتخاب روشن‌تر شده

در دنیای مدل‌های زبانی بزرگ، هر چند وقت یکبار اتفاقی می‌افتد که قواعد بازی را به‌هم می‌زند. “Grok-4” یکی از این اتفاقات است! مدل جدید شرکت xAI (متعلق به ایلان ماسک) که وارد میدان شده و به‌‌سرعت صدر جدول‌های ارزیابی را تصاحب کرده است. مدلی که شاید خیلی‌ها انتظارش را نداشتند، اما حالا با تحسین در موردش صحبت می‌شود. در بنچمارک‌هایی مانند “GPQA” که به‌‌طور خاص برای سنجش سطح دانش عمومی طراحی شده، Grok‑4 با امتیاز ۸۷.۵٪ از همه مدل‌های مطرح جلو زده است. از “Claude” گرفته تا “Gemini” و حتی “ChatGPT”، همه را پشت سر گذاشته و این در جهانی که رقابت بین مدل‌ها بسیار نزدیک است، یک شوک بزرگ به حساب می‌رود.

مطالعه این مقاله از سبزلرن به شما کمک می‌کند تا بدانید، یک مدل برنده مطلق وجود ندارد و انتخاب بهترین مدل کاملا به نیاز شما بستگی دارد. در این مقاله بر اساس آخرین داده‌های llm-stats، رتبه‌بندی مدل‌های مطرحی مثل Grok‑4، Gemini، Claude، o3 و DeepSeek را بررسی می‌کنیم. همچنین در ادامه یاد می‌گیرید هر مدل در چه بخشی قوی‌تر است تا برای کاربرد واقعی‌تان انتخابی هوشمندانه داشته باشید.

🥇 بهترین‌ها در نگاه کلی: ۱۰ مدل برتر بر اساس دانش عمومی (GPQA)

در رقابت پرشتاب مدل‌های زبانی بزرگ (LLM)، همیشه یک سوال اساسی مطرح است که کدام مدل دقیق‌ترین پاسخ‌ها را می‌دهد؟ برای پاسخ به این سوال، یکی از قابل‌اتکاترین معیارها بنچمارک “GPQA” است. مجموعه‌ای از سوالات پیچیده و مفهومی که سطح دانش عمومی و استدلال زبانی مدل‌ها را می‌سنجد. در آخرین رتبه‌بندی منتشر شده در “llm-stats” ده مدل برتر در این شاخص معرفی شده‌اند. این رتبه‌ها بر اساس درصد موفقیت در پاسخ‌گویی به سوالات GPQA تنظیم شده‌اند و در جدول زیر می‌توانید مقایسه‌ای دقیق از آن‌ها ببینید:

جدول ۱۰ مدل برتر بر اساس بنچمارک GPQA (تا جولای ۲۰۲۵)

رتبه	مدل	GPQA (%)	کانتکست (توکن)	هزینه ورودی ($/M)	هزینه خروجی ($/M)	لایسنس
🥇	Grok-4	۸۷.۵٪	۲۵۶۰۰۰	$۳.۰۰	$۱۵.۰۰	Proprietary
🥈	Gemini 2.5 Pro Preview	۸۶.۴٪	۱۰۴۸۵۷۶	$۱.۲۵	$۱۰.۰۰	Proprietary
🥉	Claude 3.7 Sonnet	۸۴.۸٪	۲۰۰۰۰۰	$۳.۰۰	$۱۵.۰۰	Proprietary
4️⃣	Grok-3	۸۴.۶٪	۱۲۸۰۰۰	$۳.۰۰	$۱۵.۰۰	Proprietary
5️⃣	Grok-3 Mini	۸۴.۰٪	۱۲۸۰۰۰	$۰.۳۰	$۰.۵۰	Proprietary
6️⃣	Claude Sonnet 4	۸۳.۸٪	۲۰۰۰۰۰	$۳.۰۰	$۱۵.۰۰	Proprietary
7️⃣	Claude Opus 4	۸۳.۳٪	۲۰۰۰۰۰	$۱۵.۰۰	$۷۵.۰۰	Proprietary
8️⃣	o3	۸۳.۳٪	۲۰۰۰۰۰	$۲.۰۰	$۸.۰۰	Proprietary
9️⃣	Gemini 2.5 Flash	۸۲.۸٪	۱۰۴۸۵۷۶	$۰.۱۵	$۰.۶۰	Proprietary
🔟	o4-mini	۸۱.۴٪	۲۰۰۰۰۰	$۱.۱۰	$۴.۴۰	Proprietary

چند نکته مهم از این جدول:

Grok-4 با اختلاف کمی در صدر ایستاده، و نشان داده درک بسیار دقیقی از مفاهیم عمومی دارد.
Gemini 2.5 Pro Preview علاوه بر امتیاز بالا، به‌خاطر کانتکست عظیم و قیمت مناسب، یکی از اقتصادی‌ترین گزینه‌هاست.
Claude 3.7 Sonnet هنوز یکی از پایدارترین و محبوب‌ترین مدل‌هاست و در بسیاری از تعاملات انسانی طبیعی‌تر عمل می‌کند.
Grok-3 Mini و Gemini 2.5 Flash به نسبت قیمت، عملکردی فوق‌العاده دارند و برای استفاده‌های روزمره مقرون‌به‌صرفه‌اند.
مدل‌های OpenAI مثل o3 و 4o-mini نیز در بین ۱۰ تای اول هستند، هرچند در GPQA کمی عقب‌تر از رقبای دیگر قرار گرفته‌اند.

🧠 بهترین مدل‌ها در زمینه‌های تخصصی

رتبه‌بندی کلی مدل‌های LLM شاید نقطه شروع خوبی باشد، اما کافی نیست. در واقع، هر مدل در یک یا چند حوزه خاص می‌درخشد و اگر قرار است از هوش مصنوعی در پروژه‌ای واقعی استفاده کنیم، باید دقیقاً بدانیم کدام مدل برای چه کاری مناسب‌تر است.

در این بخش برترین مدل‌ها در شش حوزه تخصصی را بررسی می‌کنیم:

1️⃣ بهترین مدل برای کدنویسی

معیار: Aider Polyglot benchmark

رتبه	مدل	امتیاز کدنویسی (%)
🥇	Gemini 2.5 Pro Preview	۸۲.۲٪
🥈	o3 (OpenAI)	۸۱.۳٪
🥉	DeepSeek-R1-0528	۷۱.۶٪

مدل “Gemini” با اختلاف کمی نسبت به o3 در صدر قرار دارد و نشان داده که در تولید کدهای دقیق، خوانا و کاربردی بسیار توانمند است. نکته جالب‌تر، عملکرد “DeepSeek-R1” است که به‌رغم متن‌باز بودن، در رتبه سوم قرار گرفته و این خبر خوبی برای توسعه‌دهنده‌هایی که به اپن‌سورس علاقه‌مندند.

2️⃣ بهترین مدل مولتی‌مدال (متنی + تصویری)

معیار: MMMU benchmark

رتبه	مدل	امتیاز مولتی‌مدال (%)
🥇	o3 (OpenAI)	۸۲.۹٪
🥈	Gemini 2.5 Pro	۸۲.۰٪
🥉	o4-mini	۸۱.۶٪

مدل‌های”OpenAI” به‌ویژه در درک ترکیبی تصویر و متن عملکرد بسیار خوبی دارند. o3 در صدر جدول ایستاده و می‌تواند برای کاربردهایی مثل “OCR” پیشرفته، آنالیز تصویر یا طراحی سیستم‌های دیداری-زبانی انتخابی عالی باشد.

3️⃣ بهترین مدل در دانش عمومی

معیار: GPQA benchmark (همان معیار بخش اول)

رتبه	مدل	GPQA (%)
🥇	Grok-4	۸۷.۵٪
🥈	Gemini 2.5	۸۶.۴٪
🥉	Claude 3.7	۸۴.۸٪

درک عمومی از اطلاعات گسترده، توانایی پاسخ به سوالات دشوار و داشتن دانش عمومی به‌روز که “Grok-4” در این حوزه پیشتاز است.

4️⃣ مدل‌هایی با طولانی‌ترین کانتکست (Max Input Tokens)

رتبه	مدل	حداکثر توکن ورودی
🥇	LLaMA 4 Scout	۱۰ میلیون توکن
🥈	Gemini 1.5 Pro	۲.۱ میلیون توکن
🥉	Gemini 1.5 Flash	۱ میلیون توکن

اگر با متون بسیار بلند، مکالمات چند روزه یا فایل‌های عظیم سروکار دارید، “LLaMA 4 Scout” با کانتکست ۱۰ میلیونی بی‌رقیب است.

5️⃣ سریع‌ترین مدل از نظر سرعت پاسخ‌دهی (Throughput)

رتبه	ارائه‌دهنده	سرعت (توکن/ثانیه)
🥇	SambaNova	۶۳۹
🥈	Groq	۳۰۷
🥉	Together AI	۹۸

برای اپلیکیشن‌های بلادرنگ (Real-time) مثل چت‌بات‌ها یا دستیارهای صوتی، “SambaNova” با بیشترین توان پردازش بهترین گزینه است.

6️⃣ ارزان‌ترین مدل‌ها از نظر قیمت ورودی API

رتبه	ارائه‌دهنده	هزینه / 1M توکن ورودی
🥇	DeepInfra	$۰.۱۷
🥈	Novita	$۰.۱۷
🥉	Lambda	$۰.۱۸

اگر بودجه محدودی دارید یا پروژه‌تان در مقیاس وسیع اجرا می‌شود، انتخاب API ارزان مثل “DeepInfra” می‌تواند صرفه‌جویی زیادی ایجاد کند.

🧭 جمع بندی این بخش:

هیچ مدلی در همه‌چیز بهترین نیست.
اگر کدنویسی می‌خواهید، برو سراغ “Gemini” یا “DeepSeek”.
اگر به متن‌های طولانی می‌پردازید، “LLaMA 4 Scout” انتخاب اول است.
برای اپلیکیشن‌های بلادرنگ، “SambaNova” سریع‌ترین گزینه است.
و اگر دنبال اقتصادی‌ترین راه‌حل هستی؟ “DeepInfra” با هزینه پایین برنده است.

مدل‌های متن‌باز در برابر غول‌های تجاری: رقابت نزدیک یا فاصله بعید؟

مدل‌های متن‌باز یا همان اپن سورس طی دو سال اخیر جهشی چشمگیر داشته‌اند. اگر زمانی تنها گزینه‌هایی برای تست و پژوهش بودند، حالا مدل‌هایی مثل DeepSeek-R1 و LLaMA 4 وارد رقابت جدی با غول‌های تجاری شده‌اند. DeepSeek در بنچمارک‌های کدنویسی عملکردی در سطح مدل‌های پیشرفته دارد و LLaMA با پشتیبانی از ورودی‌های فوق‌طولانی، در زمینه‌ی long-context بی‌رقیب است.

مزیت اصلی این مدل‌ها در آزادی استفاده، قیمت پایین و امکان استقرار لوکال است. اما در مقابل، دسترسی به سخت‌افزار مناسب، نیاز به تنظیم دقیق و کیفیت نسبتاً پایین‌تر در بعضی وظایف، محدودیت‌هایی هستند که نباید نادیده گرفته شوند.

بیشتر بخوانید: لیست کامل و به روز بهترین هوش مصنوعی رایگان

جمع‌بندی: رقابت همچنان ادامه دارد، اما مسیر انتخاب روشن‌تر شده

در دنیای پرتلاطم مدل‌های زبانی که هر روز در آن رقابت و نوآوری موج می‌زند، مهم‌ترین اصل برای کاربران و سازمان‌ها انتخاب آگاهانه بر اساس نیاز واقعی است؛ چراکه بنچمارک‌ها و رتبه‌بندی‌ها فقط مسیر را نشان می‌دهند، اما مقصد با توجه به اولویت‌هایی مثل دقت، سرعت، مقیاس‌پذیری، هزینه یا میزان کنترل بر مدل، متفاوت خواهد بود. تنوع مدل‌ها امروز این امکان را فراهم کرده که برای هر کاربرد، گزینه‌ای مناسب پیدا شود؛ به‌شرط آن‌که درک دقیقی از هدف و الزامات خود داشته باشید.

و به یاد داشته باشید: بهترین مدل‌ها همیشه در حال تغییرند. اما انتخاب هوشمند، یک مهارت ماندگار است.