بنچمارک‌های هوش مصنوعی یک شوخی تلخ هستند – و این سازندگانشان هستند که می‌خندند

0

تحقیقی نشان می‌دهد بسیاری از این آزمون‌ها معیارهای درستی را نمی‌سنجند

شرکت‌های هوش مصنوعی مرتباً عملکرد مدل‌های خود را در آزمون‌های بنچمارک به‌عنوان نشانه‌ای از برتری فناورانه و فکری به رخ می‌کشند. اما این نتایج که به‌طور گسترده در بازاریابی استفاده می‌شوند، ممکن است چندان معتبر نباشند.

یک مطالعه [PDF] از سوی پژوهشگران مؤسسه اینترنت آکسفورد (OII) و چندین دانشگاه و سازمان دیگر نشان داده است که از میان ۴۴۵ بنچمارک مدل‌های زبان بزرگ (LLM) برای پردازش زبان طبیعی و یادگیری ماشین، تنها ۱۶ درصد از روش‌های علمی دقیق برای مقایسه عملکرد مدل‌ها استفاده می‌کنند.

علاوه بر این، حدود نیمی از این بنچمارک‌ها ادعا می‌کنند که مفاهیم انتزاعی مانند «استدلال» یا «بی‌ضرری» را می‌سنجند، بدون آنکه تعریف روشنی از این اصطلاحات یا نحوه اندازه‌گیری آن‌ها ارائه دهند.

اندرو بین، نویسنده اصلی این مطالعه، در بیانیه‌ای گفت: «بنچمارک‌ها تقریباً پشتوانه تمام ادعاها درباره پیشرفت‌های هوش مصنوعی هستند. اما بدون تعاریف مشترک و سنجش صحیح، دشوار است که بفهمیم آیا مدل‌ها واقعاً در حال بهبود هستند یا فقط این‌طور به نظر می‌رسد.»

وقتی OpenAI در اوایل امسال GPT-5 را منتشر کرد، تبلیغات این شرکت بر پایه‌ی امتیازات بنچمارک‌هایی مانند AIME 2025، SWE-bench Verified، Aider Polyglot، MMMU و HealthBench Hard استوار بود.

این آزمون‌ها مجموعه‌ای از سؤالات را پیش روی مدل‌های هوش مصنوعی قرار می‌دهند و سازندگان مدل‌ها تلاش می‌کنند تا ربات‌هایشان به بیشترین تعداد ممکن از آن‌ها پاسخ دهند. سؤالات یا چالش‌ها بسته به تمرکز آزمون متفاوت است. برای مثال، در یک بنچمارک ریاضی‌محور مانند AIME 2025، از مدل‌های هوش مصنوعی خواسته می‌شود به سؤالاتی مانند این پاسخ دهند:

مجموع تمام اعداد صحیح مثبت $n$ را بیابید که $n+2$ شمارنده حاصل‌ضرب $3(n+3)(n^2+9)$ باشد.

در آن زمان OpenAI اعلام کرد: «[GPT-5] در زمینه‌های ریاضیات (۹۴.۶ درصد در AIME 2025 بدون ابزار)، کدنویسی در دنیای واقعی (۷۴.۹ درصد در SWE-bench Verified و ۸۸ درصد در Aider Polyglot)، درک چندوجهی (۸۴.۲ درصد در MMMU) و سلامت (۴۶.۲ درصد در HealthBench Hard) معیار جدیدی برای پیشرفته‌ترین سطح فناوری تعیین می‌کند — و این پیشرفت‌ها در استفاده روزمره نیز مشهود است. با قابلیت استدلال گسترده GPT-5 pro، این مدل همچنین در GPQA با کسب امتیاز ۸۸.۴ درصد بدون ابزار، رکورد جدیدی ثبت کرده است.»

اما همان‌طور که در مطالعه OII با عنوان «سنجش آنچه اهمیت دارد: اعتبار سازه در بنچمارک‌های مدل‌های زبان بزرگ» اشاره شده است، ۲۷ درصد از بنچمارک‌های بررسی‌شده بر «نمونه‌گیری در دسترس» تکیه دارند؛ به این معنی که داده‌های نمونه به‌جای استفاده از روش‌هایی مانند نمونه‌گیری تصادفی یا طبقه‌ای، صرفاً برای راحتی کار انتخاب شده‌اند.

در این مطالعه آمده است: «برای مثال، اگر یک بنچمارک از سؤالات امتحانی که استفاده از ماشین‌حساب در آن ممنوع است، مانند AIME، استفاده کند، اعداد هر مسئله طوری انتخاب شده‌اند که محاسبات پایه را تسهیل کنند. آزمون گرفتن تنها با این مسائل، عملکرد مدل را در مواجهه با اعداد بزرگ‌تر، که مدل‌های زبان بزرگ با آن‌ها مشکل دارند، پیش‌بینی نمی‌کند.»

نویسندگان مطالعه OII یک چک‌لیست با هشت توصیه برای بهبود بنچمارک‌ها ایجاد کرده‌اند. این توصیه‌ها شامل تعریف پدیده مورد سنجش، آمادگی برای آلودگی داده‌ها و استفاده از روش‌های آماری برای مقایسه مدل‌هاست. در کنار OII، سایر نویسندگان این مطالعه به دانشگاه EPFL، دانشگاه استنفورد، دانشگاه فنی مونیخ، دانشگاه کالیفرنیا برکلی، مؤسسه امنیت هوش مصنوعی بریتانیا، مؤسسه وایزنباوم و دانشگاه ییل وابسته هستند.

گروه تحقیقاتی «بین و همکارانش» اولین کسانی نیستند که اعتبار آزمون‌های بنچمارک هوش مصنوعی را زیر سؤال می‌برند. برای نمونه، در ماه فوریه، پژوهشگران مرکز تحقیقات مشترک کمیسیون اروپا مقاله‌ای با عنوان «آیا می‌توانیم به بنچمارک‌های هوش مصنوعی اعتماد کنیم؟ مروری میان‌رشته‌ای بر مسائل کنونی در ارزیابی هوش مصنوعی» منتشر کردند.

همان‌طور که در آن زمان اشاره کردیم، نویسندگان آن پژوهش «مجموعه‌ای از نقص‌های سیستماتیک در شیوه‌های فعلی بنچمارکینگ، مانند انگیزه‌های نادرست، مشکلات اعتبار سازه، مجهولات ناشناخته و مشکلات مربوط به دستکاری نتایج بنچمارک» را شناسایی کردند.

دست‌کم برخی از طراحان آزمون‌های بنچمارک از این نگرانی‌ها آگاه هستند. در همان روزی که مطالعه OII اعلام شد، گرگ کامراد، رئیس بنیاد جایزه آرک (Arc Prize Foundation)، یک سازمان غیرانتفاعی که برنامه اهدای جایزه بر اساس بنچمارک «مجموعه استدلال و انتزاع برای هوش عمومی مصنوعی» (ARC-AGI) را مدیریت می‌کند، اعلام کرد: «برنامه ARC Prize Verified با هدف افزایش دقت در ارزیابی سیستم‌های پیشرو بر اساس بنچمارک ARC-AGI راه‌اندازی می‌شود.»

کامراد اشاره کرد که راستی‌آزمایی و دقت در آزمون‌ها ضروری است، زیرا امتیازاتی که توسط سازندگان مدل یا اشخاص ثالث گزارش می‌شوند، ممکن است از مجموعه داده‌ها و روش‌های پرامپت‌دهی متفاوتی حاصل شده باشند که مقایسه را دشوار می‌سازد.

کامراد توضیح داد: «این موضوع باعث سردرگمی در بازار می‌شود و در نهایت ما را از هدفمان که سنجش پیشرفت هوش مصنوعی پیشرو است، دور می‌کند.»

گزارش‌ها حاکی از آن است که OpenAI و مایکروسافت بنچمارک داخلی خود را برای تعیین زمان دستیابی به هوش عمومی مصنوعی (AGI) دارند – مفهومی که OpenAI آن را به‌طور مبهم «سیستم‌های هوش مصنوعی که عموماً از انسان‌ها هوشمندترند» تعریف می‌کند. این نقطه عطف برای دو شرکت اهمیت دارد، زیرا OpenAI را از تعهدات مربوط به حقوق مالکیت معنوی و قرارداد انحصاری Azure API با مایکروسافت رها می‌کند.

به گزارش The Information، این بنچمارک هوش عمومی مصنوعی زمانی محقق می‌شود که OpenAI سیستم‌های هوش مصنوعی‌ای توسعه دهد که حداقل ۱۰۰ میلیارد دلار سود ایجاد کنند. به نظر می‌رسد اندازه‌گیری پول آسان‌تر از اندازه‌گیری هوش است. ®

ممکن است شما دوست داشته باشید
ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.