جدول رتبه بندی مدلهای هوش مصنوعی جولای 2025؛ ایلان ماسک با Grok4 در صدر!

در دنیای مدلهای زبانی بزرگ، هر چند وقت یکبار اتفاقی میافتد که قواعد بازی را بههم میزند. “Grok-4” یکی از این اتفاقات است! مدل جدید شرکت xAI (متعلق به ایلان ماسک) که وارد میدان شده و بهسرعت صدر جدولهای ارزیابی را تصاحب کرده است. مدلی که شاید خیلیها انتظارش را نداشتند، اما حالا با تحسین در موردش صحبت میشود. در بنچمارکهایی مانند “GPQA” که بهطور خاص برای سنجش سطح دانش عمومی طراحی شده، Grok‑4 با امتیاز ۸۷.۵٪ از همه مدلهای مطرح جلو زده است. از “Claude” گرفته تا “Gemini” و حتی “ChatGPT”، همه را پشت سر گذاشته و این در جهانی که رقابت بین مدلها بسیار نزدیک است، یک شوک بزرگ به حساب میرود.
مطالعه این مقاله از سبزلرن به شما کمک میکند تا بدانید، یک مدل برنده مطلق وجود ندارد و انتخاب بهترین مدل کاملا به نیاز شما بستگی دارد. در این مقاله بر اساس آخرین دادههای llm-stats، رتبهبندی مدلهای مطرحی مثل Grok‑4، Gemini، Claude، o3 و DeepSeek را بررسی میکنیم. همچنین در ادامه یاد میگیرید هر مدل در چه بخشی قویتر است تا برای کاربرد واقعیتان انتخابی هوشمندانه داشته باشید.
🥇 بهترینها در نگاه کلی: ۱۰ مدل برتر بر اساس دانش عمومی (GPQA)
در رقابت پرشتاب مدلهای زبانی بزرگ (LLM)، همیشه یک سوال اساسی مطرح است که کدام مدل دقیقترین پاسخها را میدهد؟ برای پاسخ به این سوال، یکی از قابلاتکاترین معیارها بنچمارک “GPQA” است. مجموعهای از سوالات پیچیده و مفهومی که سطح دانش عمومی و استدلال زبانی مدلها را میسنجد. در آخرین رتبهبندی منتشر شده در “llm-stats” ده مدل برتر در این شاخص معرفی شدهاند. این رتبهها بر اساس درصد موفقیت در پاسخگویی به سوالات GPQA تنظیم شدهاند و در جدول زیر میتوانید مقایسهای دقیق از آنها ببینید:
جدول ۱۰ مدل برتر بر اساس بنچمارک GPQA (تا جولای ۲۰۲۵)
رتبه | مدل | GPQA (%) | کانتکست (توکن) | هزینه ورودی ($/M) | هزینه خروجی ($/M) | لایسنس |
🥇 | Grok-4 | ۸۷.۵٪ | ۲۵۶۰۰۰ | $۳.۰۰ | $۱۵.۰۰ | Proprietary |
🥈 | Gemini 2.5 Pro Preview | ۸۶.۴٪ | ۱۰۴۸۵۷۶ | $۱.۲۵ | $۱۰.۰۰ | Proprietary |
🥉 | Claude 3.7 Sonnet | ۸۴.۸٪ | ۲۰۰۰۰۰ | $۳.۰۰ | $۱۵.۰۰ | Proprietary |
4️⃣ | Grok-3 | ۸۴.۶٪ | ۱۲۸۰۰۰ | $۳.۰۰ | $۱۵.۰۰ | Proprietary |
5️⃣ | Grok-3 Mini | ۸۴.۰٪ | ۱۲۸۰۰۰ | $۰.۳۰ | $۰.۵۰ | Proprietary |
6️⃣ | Claude Sonnet 4 | ۸۳.۸٪ | ۲۰۰۰۰۰ | $۳.۰۰ | $۱۵.۰۰ | Proprietary |
7️⃣ | Claude Opus 4 | ۸۳.۳٪ | ۲۰۰۰۰۰ | $۱۵.۰۰ | $۷۵.۰۰ | Proprietary |
8️⃣ | o3 | ۸۳.۳٪ | ۲۰۰۰۰۰ | $۲.۰۰ | $۸.۰۰ | Proprietary |
9️⃣ | Gemini 2.5 Flash | ۸۲.۸٪ | ۱۰۴۸۵۷۶ | $۰.۱۵ | $۰.۶۰ | Proprietary |
🔟 | o4-mini | ۸۱.۴٪ | ۲۰۰۰۰۰ | $۱.۱۰ | $۴.۴۰ | Proprietary |
چند نکته مهم از این جدول:
- Grok-4 با اختلاف کمی در صدر ایستاده، و نشان داده درک بسیار دقیقی از مفاهیم عمومی دارد.
- Gemini 2.5 Pro Preview علاوه بر امتیاز بالا، بهخاطر کانتکست عظیم و قیمت مناسب، یکی از اقتصادیترین گزینههاست.
- Claude 3.7 Sonnet هنوز یکی از پایدارترین و محبوبترین مدلهاست و در بسیاری از تعاملات انسانی طبیعیتر عمل میکند.
- Grok-3 Mini و Gemini 2.5 Flash به نسبت قیمت، عملکردی فوقالعاده دارند و برای استفادههای روزمره مقرونبهصرفهاند.
- مدلهای OpenAI مثل o3 و 4o-mini نیز در بین ۱۰ تای اول هستند، هرچند در GPQA کمی عقبتر از رقبای دیگر قرار گرفتهاند.
🧠 بهترین مدلها در زمینههای تخصصی
رتبهبندی کلی مدلهای LLM شاید نقطه شروع خوبی باشد، اما کافی نیست. در واقع، هر مدل در یک یا چند حوزه خاص میدرخشد و اگر قرار است از هوش مصنوعی در پروژهای واقعی استفاده کنیم، باید دقیقاً بدانیم کدام مدل برای چه کاری مناسبتر است.
در این بخش برترین مدلها در شش حوزه تخصصی را بررسی میکنیم:
1️⃣ بهترین مدل برای کدنویسی
معیار: Aider Polyglot benchmark
رتبه | مدل | امتیاز کدنویسی (%) |
🥇 | Gemini 2.5 Pro Preview | ۸۲.۲٪ |
🥈 | o3 (OpenAI) | ۸۱.۳٪ |
🥉 | DeepSeek-R1-0528 | ۷۱.۶٪ |
مدل “Gemini” با اختلاف کمی نسبت به o3 در صدر قرار دارد و نشان داده که در تولید کدهای دقیق، خوانا و کاربردی بسیار توانمند است. نکته جالبتر، عملکرد “DeepSeek-R1” است که بهرغم متنباز بودن، در رتبه سوم قرار گرفته و این خبر خوبی برای توسعهدهندههایی که به اپنسورس علاقهمندند.
2️⃣ بهترین مدل مولتیمدال (متنی + تصویری)
معیار: MMMU benchmark
رتبه | مدل | امتیاز مولتیمدال (%) |
🥇 | o3
(OpenAI) |
۸۲.۹٪ |
🥈 | Gemini 2.5 Pro | ۸۲.۰٪ |
🥉 | o4-mini | ۸۱.۶٪ |
مدلهای”OpenAI” بهویژه در درک ترکیبی تصویر و متن عملکرد بسیار خوبی دارند. o3 در صدر جدول ایستاده و میتواند برای کاربردهایی مثل “OCR” پیشرفته، آنالیز تصویر یا طراحی سیستمهای دیداری-زبانی انتخابی عالی باشد.
3️⃣ بهترین مدل در دانش عمومی
معیار: GPQA benchmark (همان معیار بخش اول)
رتبه | مدل | GPQA (%) |
🥇 | Grok-4 | ۸۷.۵٪ |
🥈 | Gemini 2.5 | ۸۶.۴٪ |
🥉 | Claude 3.7 | ۸۴.۸٪ |
درک عمومی از اطلاعات گسترده، توانایی پاسخ به سوالات دشوار و داشتن دانش عمومی بهروز که “Grok-4” در این حوزه پیشتاز است.
4️⃣ مدلهایی با طولانیترین کانتکست (Max Input Tokens)
رتبه | مدل | حداکثر توکن ورودی |
🥇 | LLaMA 4 Scout | ۱۰ میلیون توکن |
🥈 | Gemini 1.5 Pro | ۲.۱ میلیون توکن |
🥉 | Gemini 1.5 Flash | ۱ میلیون توکن |
اگر با متون بسیار بلند، مکالمات چند روزه یا فایلهای عظیم سروکار دارید، “LLaMA 4 Scout” با کانتکست ۱۰ میلیونی بیرقیب است.
5️⃣ سریعترین مدل از نظر سرعت پاسخدهی (Throughput)
رتبه | ارائهدهنده | سرعت (توکن/ثانیه) |
🥇 | SambaNova | ۶۳۹ |
🥈 | Groq | ۳۰۷ |
🥉 | Together AI | ۹۸ |
برای اپلیکیشنهای بلادرنگ (Real-time) مثل چتباتها یا دستیارهای صوتی، “SambaNova” با بیشترین توان پردازش بهترین گزینه است.
6️⃣ ارزانترین مدلها از نظر قیمت ورودی API
رتبه | ارائهدهنده | هزینه / 1M توکن ورودی |
🥇 | DeepInfra | $۰.۱۷ |
🥈 | Novita | $۰.۱۷ |
🥉 | Lambda | $۰.۱۸ |
اگر بودجه محدودی دارید یا پروژهتان در مقیاس وسیع اجرا میشود، انتخاب API ارزان مثل “DeepInfra” میتواند صرفهجویی زیادی ایجاد کند.
🧭 جمع بندی این بخش:
- هیچ مدلی در همهچیز بهترین نیست.
- اگر کدنویسی میخواهید، برو سراغ “Gemini” یا “DeepSeek”.
- اگر به متنهای طولانی میپردازید، “LLaMA 4 Scout” انتخاب اول است.
- برای اپلیکیشنهای بلادرنگ، “SambaNova” سریعترین گزینه است.
- و اگر دنبال اقتصادیترین راهحل هستی؟ “DeepInfra” با هزینه پایین برنده است.
مدلهای متنباز در برابر غولهای تجاری: رقابت نزدیک یا فاصله بعید؟
مدلهای متنباز یا همان اپن سورس طی دو سال اخیر جهشی چشمگیر داشتهاند. اگر زمانی تنها گزینههایی برای تست و پژوهش بودند، حالا مدلهایی مثل DeepSeek-R1 و LLaMA 4 وارد رقابت جدی با غولهای تجاری شدهاند. DeepSeek در بنچمارکهای کدنویسی عملکردی در سطح مدلهای پیشرفته دارد و LLaMA با پشتیبانی از ورودیهای فوقطولانی، در زمینهی long-context بیرقیب است.
مزیت اصلی این مدلها در آزادی استفاده، قیمت پایین و امکان استقرار لوکال است. اما در مقابل، دسترسی به سختافزار مناسب، نیاز به تنظیم دقیق و کیفیت نسبتاً پایینتر در بعضی وظایف، محدودیتهایی هستند که نباید نادیده گرفته شوند.
جمعبندی: رقابت همچنان ادامه دارد، اما مسیر انتخاب روشنتر شده
در دنیای پرتلاطم مدلهای زبانی که هر روز در آن رقابت و نوآوری موج میزند، مهمترین اصل برای کاربران و سازمانها انتخاب آگاهانه بر اساس نیاز واقعی است؛ چراکه بنچمارکها و رتبهبندیها فقط مسیر را نشان میدهند، اما مقصد با توجه به اولویتهایی مثل دقت، سرعت، مقیاسپذیری، هزینه یا میزان کنترل بر مدل، متفاوت خواهد بود. تنوع مدلها امروز این امکان را فراهم کرده که برای هر کاربرد، گزینهای مناسب پیدا شود؛ بهشرط آنکه درک دقیقی از هدف و الزامات خود داشته باشید.
و به یاد داشته باشید: بهترین مدلها همیشه در حال تغییرند.
اما انتخاب هوشمند، یک مهارت ماندگار است.
نظری برای این مقاله ثبت نشده است