بنچمارکهای هوش مصنوعی یک شوخی تلخ هستند – و این سازندگانشان هستند که میخندند
تحقیقی نشان میدهد بسیاری از این آزمونها معیارهای درستی را نمیسنجند
شرکتهای هوش مصنوعی مرتباً عملکرد مدلهای خود را در آزمونهای بنچمارک بهعنوان نشانهای از برتری فناورانه و فکری به رخ میکشند. اما این نتایج که بهطور گسترده در بازاریابی استفاده میشوند، ممکن است چندان معتبر نباشند.
یک مطالعه [PDF] از سوی پژوهشگران مؤسسه اینترنت آکسفورد (OII) و چندین دانشگاه و سازمان دیگر نشان داده است که از میان ۴۴۵ بنچمارک مدلهای زبان بزرگ (LLM) برای پردازش زبان طبیعی و یادگیری ماشین، تنها ۱۶ درصد از روشهای علمی دقیق برای مقایسه عملکرد مدلها استفاده میکنند.
علاوه بر این، حدود نیمی از این بنچمارکها ادعا میکنند که مفاهیم انتزاعی مانند «استدلال» یا «بیضرری» را میسنجند، بدون آنکه تعریف روشنی از این اصطلاحات یا نحوه اندازهگیری آنها ارائه دهند.
اندرو بین، نویسنده اصلی این مطالعه، در بیانیهای گفت: «بنچمارکها تقریباً پشتوانه تمام ادعاها درباره پیشرفتهای هوش مصنوعی هستند. اما بدون تعاریف مشترک و سنجش صحیح، دشوار است که بفهمیم آیا مدلها واقعاً در حال بهبود هستند یا فقط اینطور به نظر میرسد.»
وقتی OpenAI در اوایل امسال GPT-5 را منتشر کرد، تبلیغات این شرکت بر پایهی امتیازات بنچمارکهایی مانند AIME 2025، SWE-bench Verified، Aider Polyglot، MMMU و HealthBench Hard استوار بود.
این آزمونها مجموعهای از سؤالات را پیش روی مدلهای هوش مصنوعی قرار میدهند و سازندگان مدلها تلاش میکنند تا رباتهایشان به بیشترین تعداد ممکن از آنها پاسخ دهند. سؤالات یا چالشها بسته به تمرکز آزمون متفاوت است. برای مثال، در یک بنچمارک ریاضیمحور مانند AIME 2025، از مدلهای هوش مصنوعی خواسته میشود به سؤالاتی مانند این پاسخ دهند:
مجموع تمام اعداد صحیح مثبت $n$ را بیابید که $n+2$ شمارنده حاصلضرب $3(n+3)(n^2+9)$ باشد.
در آن زمان OpenAI اعلام کرد: «[GPT-5] در زمینههای ریاضیات (۹۴.۶ درصد در AIME 2025 بدون ابزار)، کدنویسی در دنیای واقعی (۷۴.۹ درصد در SWE-bench Verified و ۸۸ درصد در Aider Polyglot)، درک چندوجهی (۸۴.۲ درصد در MMMU) و سلامت (۴۶.۲ درصد در HealthBench Hard) معیار جدیدی برای پیشرفتهترین سطح فناوری تعیین میکند — و این پیشرفتها در استفاده روزمره نیز مشهود است. با قابلیت استدلال گسترده GPT-5 pro، این مدل همچنین در GPQA با کسب امتیاز ۸۸.۴ درصد بدون ابزار، رکورد جدیدی ثبت کرده است.»
اما همانطور که در مطالعه OII با عنوان «سنجش آنچه اهمیت دارد: اعتبار سازه در بنچمارکهای مدلهای زبان بزرگ» اشاره شده است، ۲۷ درصد از بنچمارکهای بررسیشده بر «نمونهگیری در دسترس» تکیه دارند؛ به این معنی که دادههای نمونه بهجای استفاده از روشهایی مانند نمونهگیری تصادفی یا طبقهای، صرفاً برای راحتی کار انتخاب شدهاند.
- پژوهشگران با ارائه مدلی بهتر، به دنبال پایان دادن به هیجان کاذب کدنویسی با هوش مصنوعی هستند
- Gemini Deep Research گوگل اکنون میتواند ایمیلهای شما را بخواند و در گوگل درایوتان کاوش کند
- عاملهای هوش مصنوعی با قابلیت جستجو ممکن است در آزمونهای بنچمارک تقلب کنند
- متا به فریبکاری در معرفی لاما ۴ برای دستکاری رتبه بنچمارک هوش مصنوعی متهم شد
در این مطالعه آمده است: «برای مثال، اگر یک بنچمارک از سؤالات امتحانی که استفاده از ماشینحساب در آن ممنوع است، مانند AIME، استفاده کند، اعداد هر مسئله طوری انتخاب شدهاند که محاسبات پایه را تسهیل کنند. آزمون گرفتن تنها با این مسائل، عملکرد مدل را در مواجهه با اعداد بزرگتر، که مدلهای زبان بزرگ با آنها مشکل دارند، پیشبینی نمیکند.»
نویسندگان مطالعه OII یک چکلیست با هشت توصیه برای بهبود بنچمارکها ایجاد کردهاند. این توصیهها شامل تعریف پدیده مورد سنجش، آمادگی برای آلودگی دادهها و استفاده از روشهای آماری برای مقایسه مدلهاست. در کنار OII، سایر نویسندگان این مطالعه به دانشگاه EPFL، دانشگاه استنفورد، دانشگاه فنی مونیخ، دانشگاه کالیفرنیا برکلی، مؤسسه امنیت هوش مصنوعی بریتانیا، مؤسسه وایزنباوم و دانشگاه ییل وابسته هستند.
گروه تحقیقاتی «بین و همکارانش» اولین کسانی نیستند که اعتبار آزمونهای بنچمارک هوش مصنوعی را زیر سؤال میبرند. برای نمونه، در ماه فوریه، پژوهشگران مرکز تحقیقات مشترک کمیسیون اروپا مقالهای با عنوان «آیا میتوانیم به بنچمارکهای هوش مصنوعی اعتماد کنیم؟ مروری میانرشتهای بر مسائل کنونی در ارزیابی هوش مصنوعی» منتشر کردند.
همانطور که در آن زمان اشاره کردیم، نویسندگان آن پژوهش «مجموعهای از نقصهای سیستماتیک در شیوههای فعلی بنچمارکینگ، مانند انگیزههای نادرست، مشکلات اعتبار سازه، مجهولات ناشناخته و مشکلات مربوط به دستکاری نتایج بنچمارک» را شناسایی کردند.
دستکم برخی از طراحان آزمونهای بنچمارک از این نگرانیها آگاه هستند. در همان روزی که مطالعه OII اعلام شد، گرگ کامراد، رئیس بنیاد جایزه آرک (Arc Prize Foundation)، یک سازمان غیرانتفاعی که برنامه اهدای جایزه بر اساس بنچمارک «مجموعه استدلال و انتزاع برای هوش عمومی مصنوعی» (ARC-AGI) را مدیریت میکند، اعلام کرد: «برنامه ARC Prize Verified با هدف افزایش دقت در ارزیابی سیستمهای پیشرو بر اساس بنچمارک ARC-AGI راهاندازی میشود.»
کامراد اشاره کرد که راستیآزمایی و دقت در آزمونها ضروری است، زیرا امتیازاتی که توسط سازندگان مدل یا اشخاص ثالث گزارش میشوند، ممکن است از مجموعه دادهها و روشهای پرامپتدهی متفاوتی حاصل شده باشند که مقایسه را دشوار میسازد.
کامراد توضیح داد: «این موضوع باعث سردرگمی در بازار میشود و در نهایت ما را از هدفمان که سنجش پیشرفت هوش مصنوعی پیشرو است، دور میکند.»
گزارشها حاکی از آن است که OpenAI و مایکروسافت بنچمارک داخلی خود را برای تعیین زمان دستیابی به هوش عمومی مصنوعی (AGI) دارند – مفهومی که OpenAI آن را بهطور مبهم «سیستمهای هوش مصنوعی که عموماً از انسانها هوشمندترند» تعریف میکند. این نقطه عطف برای دو شرکت اهمیت دارد، زیرا OpenAI را از تعهدات مربوط به حقوق مالکیت معنوی و قرارداد انحصاری Azure API با مایکروسافت رها میکند.
به گزارش The Information، این بنچمارک هوش عمومی مصنوعی زمانی محقق میشود که OpenAI سیستمهای هوش مصنوعیای توسعه دهد که حداقل ۱۰۰ میلیارد دلار سود ایجاد کنند. به نظر میرسد اندازهگیری پول آسانتر از اندازهگیری هوش است. ®