ارزیابی قابلیت نظارت بر زنجیره تفکری

0

ما ارزیابی‌هایی برای قابلیت نظارت بر زنجیره تفکری معرفی می‌کنیم و بررسی می‌کنیم که این قابلیت چگونه با افزایش محاسبهٔ زمان آزمون، یادگیری تقویتی و پیش‌آموزش مقیاس می‌شود.

هنگامی که سیستم‌های هوش مصنوعی تصمیماتی می‌گیرند که به‌طور مستقیم نظارت بر آن‌ها دشوار است، درک چگونگی اتخاذ این تصمیمات مهم می‌شود. یک رویکرد امیدوارکننده این است که به‌جای صرفاً نظارت بر اعمال یا خروجی‌های نهایی، به استدلال داخلی مدل نظارت کنیم.

مدل‌های استدلال مدرن، مانند GPT‑5 Thinking، قبل از ارائهٔ پاسخ یک زنجیرهٔ تفکری صریح تولید می‌کنند. نظارت بر این زنجیره‌های تفکری برای شناسایی رفتارهای نادرست می‌تواند بسیار مؤثرتر از نظارت صرف بر اعمال و خروجی‌های مدل باشد. با این حال، پژوهشگران در OpenAI و در سراسر صنعت نگرانند که این «قابلیت نظارت» بر زنجیرهٔ تفکری ممکن است در برابر تغییرات در فرآیند آموزش، منابع داده و حتی گسترش مداوم الگوریتم‌های موجود آسیب‌پذیر باشد.

ما می‌خواهیم قابلیت نظارت بر زنجیرهٔ تفکری حتی با مقیاس‌گیری مدل‌ها و استفاده از آن‌ها در موقعیت‌های با ریسک بالاتر حفظ شود. از پژوهشگران در سراسر صنعت درخواست می‌کنیم تا برای حفظ این قابلیت نظارت تا حد امکان کار کنند و تعیین کنند آیا می‌تواند به‌عنوان یک لایهٔ کنترل بار‌بر برای سیستم‌های هوش مصنوعی آینده عمل کند یا نه. برای حفظ قابلیت نظارت، باید بتوانیم آن را اندازه‌گیری کنیم، اما ارزیابی‌های کمی وجود دارد [1، 2، 3] و روش‌شناسی‌ها متفاوت‌اند.

در این کار، ما قابلیت نظارت بر زنجیرهٔ تفکری را به‌صورت سیستماتیک بررسی می‌کنیم. چارچوبی برای ارزیابی این قابلیت و مجموعه‌ای از ۱۳ ارزیابی (شامل مجموعاً ۲۴ محیط) معرفی می‌کنیم که به‌طور ملموس قابلیت نظارت یک سیستم را می‌سنجد. این ارزیابی‌ها در سه الگوی اصلی — مداخله، فرآیند و ویژگی‌نتیجه — طبقه‌بندی می‌شوند. با استفاده از آن‌ها، میزان نظارت‌پذیری مدل‌های زبانی بزرگ امروز و چگونگی تغییر این قابلیت با افزایش استدلال در زمان استنتاج، اجرای بزرگ‌تر یادگیری تقویتی و مقیاس‌پذیری پیش‌آموزش را بررسی می‌کنیم.

حال که مجموعهٔ گسترده‌ای از ارزیابی‌ها داریم، می‌توانیم آغاز به ردیابی قابلیت نظارت مدل‌های خود کنیم. (بالا‑چپ) می‌بینیم که هرچه مدل‌ها «تفکر» بیشتری داشته باشند و زنجیرهٔ تفکری طولانی‌تری تولید کنند، قابلیت نظارت بهبود می‌یابد. (بالا‑راست) بدون زنجیرهٔ تفکری، معمولاً سعی می‌کنیم تنها رفتارها و خروجی‌های نهایی یک مدل را نظارت کنیم. اما ما متوجه شدیم که نظارت صرف بر اعمال و خروجی‌ها عملکرد بسیار کمتری نسبت به نظارت بر زنجیرهٔ تفکری دارد. (پایین‑وسط) مدل‌های خود را با مدل‌های خارجی که دسترسی به زنجیرهٔ تفکری کامل دارند — Claude 3.7 Sonnet، DeepSeek R1-0528‑Qwen3‑8B و Kimi K2 Thinking — مقایسه می‌کنیم.

ما دریافتیم اکثر مدل‌های استدلال پیشرفته تا حدی قابل نظارت هستند، اگرچه به‌طور کامل نیستند. در تقریباً تمام وضعیت‌هایی که بررسی کردیم، نظارت بر زنجیره‌های تفکری به‌طور قابل‌توجهی مؤثرتر از نظارت صرف بر اعمال و خروجی‌های نهایی است. مدل‌هایی که برای مدت طولانی‌تری فکر می‌کنند، تمایل به قابل‌نظارت‌تر بودن دارند و به‌نظر می‌رسد بهینه‌سازی یادگیری تقویتی در مقیاس‌های پیشرفتهٔ کنونی به‌طور معناداری قابلیت نظارت را کاهش نمی‌دهد.

قابل توجه است که ما یک تعادل بین میزان استدلال و اندازهٔ مدل مشاهده می‌کنیم: وقتی مدلی با سعی استدلال کم اجرا می‌شود، یک مدل کوچک‌تر که با سعی استدلال بالاتر اجرا شود می‌تواند توانایی مقایسه‌ای داشته باشد و همزمان نظارت‌پذیری آسان‌تری داشته باشد. این به‌قیمت مصرف محاسباتی بیشتر در زمان استنتاج می‌آید که آن را مالیهٔ نظارت‌پذیری می‌نامیم. سرانجام، متوجه شدیم که پرسیدن سؤال‌های پیگیری و نظارت بر زنجیره‌های تفکری ناشی از آن می‌تواند نظارت‌پذیری را بیشتر بهبود بخشد.

«قابلیت نظارت» چیست؟

قابلیت نظارت را به‌عنوان توانایی یک ناظر برای پیش‌بینی ویژگی‌های موردنظری دربارهٔ رفتار یک عامل تعریف می‌کنیم. در بسیاری از موارد، این ویژگی‌ها به‌صورت انواع رفتارهای نادرست مانند فریب، هک کردن پاداش یا استدلال جانبدار بیان می‌شوند؛ اما می‌توانند شامل ویژگی‌های بی‌ضرر نیز باشند، مانند اینکه آیا عامل از یک راهنمای خاص استفاده کرده یا مسیر خاصی از استدلال را دنبال کرده است.

قابلیت نظارت یک ویژگی دو‑بعدی است. این ویژگی هم به ناظر وابسته است و هم به عاملی که مورد نظارت قرار می‌گیرد.

  • ناظران. می‌توانیم ناظران را به طرق مختلف هوشمندتر کنیم و مایلیم ارزیابی‌های ما نمره‌های بالاتری به ناظرانی بدهند که قادر به پیش‌بینی بهتر رفتار عامل باشند.
  • عوامل. مشاهدات متعددی از عامل می‌توانند به ناظر منتقل شوند، شامل اعمال، خروجی‌ها، فعال‌سازی‌های عصبی، و اخیراً با ظهور مدل‌های استدلال، زنجیرهٔ تفکری. ممکن است برخی عامل‌ها تفکراتی داشته باشند که نسبت به دیگران دشوارتر برای درک باشد؛ بنابراین می‌خواهیم ارزیابی‌های قابلیت نظارت ما بتوانند عامل‌ها را مقایسه کرده و نه صرفاً ناظران.

ارزیابی‌های ما به‌گونه‌ای طراحی شده‌اند که هر دو جنبه را بررسی کنند: آیا برخی عامل‌ها نظارت‌پذیری بیشتری یا کمتری دارند، و آیا ناظران توانمندتر می‌توانند اطلاعات بیشتری را از همان سیگنال‌ها استخراج کنند.

چرا زنجیره‌های تفکری باید قابل نظارت باشند؟

پیش از نسل فعلی مدل‌های استدلال، زنجیره‌های تفکری عموماً با درخواست از مدل برای «به‌صورت گام‑به‑گام فکر کردن» استخراج می‌شد.

زنجیره‌های تفکری مدل‌های استدلالی در دو جهت مهم متفاوتند. نخست، این مدل‌ها صراحتاً برای تولید زنجیرهٔ تفکری و سپس ارائهٔ یک پاسخ آموزش می‌بینند. وقتی یک مدل چت را به «فکر کردن گام‑به‑گام» دعوت می‌کنیم، آن مدل باید تمام ویژگی‌های تعیین‌شده برای خود — مانند مفید، بی‌ضرر بودن و … — را رعایت کند. برعکس، فرآیند آموزشی یادگیری تقویتی به مدل استدلالی می‌آموزد که زنجیرهٔ تفکری یک فضای خصوصی است که می‌تواند هر آنچه می‌خواهد فکر کند و تحت تنبیه قرار نگیرد، همانند این‌که یک انسان می‌تواند به‌صورت خصوصی فکر کند و به‌خاطر «جرائم فکری» تنبیه نشود.

دوم، فرآیند آموزش به‌طور مؤثری برای زنجیره‌های تفکری می‌گردد که بیشترین مفید ابزارمندی برای عامل در دریافت پاسخ نهایی با پاداش بالا داشته باشند. بنابراین، زنجیرهٔ تفکری نه تنها فضایی است که مدل می‌تواند به‌آزادانه خود را بیان کند، بلکه شامل تفکری است که به مدل کمک می‌کند به پاسخ نهایی خود برسد.

چارچوبی برای ارزیابی قابلیت نظارت

ارزیابی‌های قابلیت نظارت ما را در سه الگوی متمایز سازماندهی می‌کنیم که هر کدام از مکانیزم متفاوتی برای سنجش قابلیت نظارت استفاده می‌نمایند.

  1. ارزیابی‌های مداخله‌ای، الهام‌گرفته از Chen et al. 2025، Chua et al. 2025، Turpin et al. 2023، ما تغییر کنترل‌شده‌ای در محیط عامل ایجاد می‌کنیم و می‌آزماییم آیا ناظر می‌تواند علت تغییر رفتار را با شناسایی شواهد مداخله در زنجیرهٔ تفکری تشخیص دهد یا خیر. بر خلاف ارزیابی‌های کنترل استاندارد (مثلاً Shade-Arena)، ارزیابی‌های مداخله به ما اجازه می‌دهند تا بررسی کنیم آیا ناظر می‌تواند چرا رفتار تغییر کرده است را تشخیص دهد، نه صرفاً اینکه آیا رفتار رخ داده است یا نه.
  2. ارزیابی‌های فرآیندی بر وظایفی با تعداد محدود مسیرهای حل معتبر تمرکز دارند (به عنوان مثال، یک مسئله ریاضی فقط می‌تواند با استفاده از برخی قضایا حل شود). کارشناسان انسانی این مسیرها را فهرست می‌کنند و ما بررسی می‌کنیم آیا ناظر می‌تواند تشخیص دهد که کدام گام‌ها را مدل واقعاً انجام داده است. این ارزیابی‌ها به ما اجازه می‌دهند تا کارکرد مدل را به گام‌های خاصی که مدل باید آن‌ها را طی کرده باشد پیوند بزنیم و بپرسیم آیا آن گام‌ها قابل نظارت هستند یا نه.
  3. ارزیابی‌های ویژگی‑نتیجه زمانی به کار می‌روند که یک ویژگی از خروجی مدل به‌طور قابل‌اعتمادی قابل سنجش باشد. در چنین مواردی، ما آزمون می‌کنیم آیا ناظر می‌تواند آن ویژگی — مانند هک پاداش — را از استدلال یا اعمال مدل پیش‌بینی کند. برای مثال، در یک کار برنامه‌نویسی، ممکن است راهی داشته باشیم که به‌دقت ارزیابی کنیم آیا مدل اقداماتی برای هک سیگنال پاداش انجام می‌دهد یا نه، و می‌توانیم بپرسیم آیا ناظر شواهدی از نیت به هک پاداش در تفکر یا اقدامات مدل می‌یابد یا خیر.

در زیر یک طبقه‌بندی برای ارزیابی‌های خود ارائه می‌دهیم. لطفاً برای توصیف کامل هر ارزیابی به مقالهٔ ما مراجعه کنید.

نمودار پراکندگی با عنوان «G-mean² در مقابل دامنه قابلیت نظارت: تمام پیام‌ها»

ما قابلیت نظارت هر مدل را در مجموعه ارزیابی خود نسبت به میانگین نرخ موفقیت در مجموعه‌ای از ارزیابی‌های استاندارد توانمندی (GPQA‑Diamond، AIME 2025، و CodeForces) ترسیم می‌کنیم. هر مدل بر اساس سعی‌های استدلال مختلف ارزیابی می‌شود (توجه داشته باشید که هر نقطه در این شکل در واقع نتیجهٔ درونیابی خطی بین سعی‌های استدلال اندازه‌گیری‌شده است). دایره‌ها نشان می‌دهند که مدل در سعی استدلال خاص، در سطح قابلیت، بر قابلیت نظارت برتری دارد؛ و Xهای شفاف نشان می‌دهند که مدل در همان سعی استدلال، توسط مدل دیگری از نظر قابلیت نظارت تحت‌فرو رفته است. در پیکان‌های سیاه مثال‌هایی از دو روش صرف محاسبهٔ بیشتر در زمان استنتاج نشان داده می‌شود: نمونه‌برداری تعداد بیشتری توکن با مدلی کوچکتر یا توکن‌های نسبتاً کمتر با همان مدل. در پیکان‌های قرمزرنگ مالیهٔ نظارت‌پذیری که باید پرداخت شود نشان داده می‌شود، یعنی کمی کاهش قابلیت در ازای افزایش قابل توجه قابلیت نظارت.

به‌طور کلی، دریافتیم که اگر مدلی خاص را با سعی استدلال کم به‌کار ببندیم، می‌توانیم به‌جای آن یک مدل کوچکتر با سعی استدلال بیشتر به‌کار بگیریم. در مقایسه با صرف محاسبات اضافی برای افزایش سعی استدلال مدل بزرگ اصلی، می‌توانیم قابلیت نظارت بالاتری با هزینهٔ کمی از توانمندی بدست آوریم، یا مالیهٔ نظارت‌پذیری؛ اما زمان پردازش کلی که برای تکمیل یک تکمیل صرف می‌شود، ممکن است در برخی تصمیمات استقرار، عاملی باشد که ما در اینجا در نظر نمی‌گیریم. همان‌طور که مدل‌های ما پیشرفت می‌کنند و در محیط‌های پرریسک‌تر به‌کار می‌روند، ممکن است نیاز به پرداخت چنین مالیاتی برای استقرار ایمن آن‌ها پیش‌آمد.

این نتایج دارای محدودیت‌های زیر هستند: (1) هر مدل را تنها یک بار آموزش دادیم، بنابراین نوسان بین دوره‌های آموزشی مختلف را در بر نمی‌گیریم. برای مثال، مدل «متوسط» نسبت به دیگر مدل‌های این سری، در قابلیت نظارت به‌نظر می‌رسد که از رنج معمول خارج است؛ این ممکن است به‌دلیل این محدودیت باشد. (2) توانمندی‌ها را در شرایط نسبتاً در‑دسترس (ریاضی، علوم و برنامه‌نویسی) ارزیابی می‌کنیم و ممکن است تبادل‌ها هنگام درنظر گرفتن مقاومت در برابر داده‌های خارج از توزیع تغییر کنند.

محاسبهٔ عامل در مقابل محاسبهٔ ناظر و کنترل مقیاس‌پذیر

(چپ) ما ناظرهای مختلفی را مقایسه می‌کنیم و سعی استدلال هر یک را متغیر می‌سازیم. هر ناظر همان مدل GPT‑5 Thinking را نظارت می‌کند. همان‌طور که انتظار می‌رود، به‌طور کلی مدل‌های بزرگ‌تر و با توانایی بالاتر به‌عنوان ناظرهای بهتر عمل می‌کنند و مدل‌های استدلالی در وظیفه نظارت با سعی استدلال بالاتر (در نتیجه با محاسبهٔ زمان آزمون) بهتر عمل می‌کنند. (راست) ما دامنه‌های مختلف مشاهدات نظارتی برای OpenAI o4-mini را مقایسه می‌کنیم، یعنی اینکه آیا ناظر می‌تواند تنها CoT را ببیند، یا تنها اعمال و پاسخ، یا تمام پیام‌های مدل مورد نظارت. به‌طور مهم، متوجه شدیم که قابلیت نظارت با افزایش محاسبهٔ نظارتی زمان آزمون (سعی استدلال نظارتی بالاتر) به‌سرعت بیشتری بهبود می‌یابد وقتی به ناظر دسترسی به CoT داده شود؛ بنابراین، نظارت بر CoT می‌تواند مسیر مقیاس‌پذیرتری برای کنترل نسبت به نظارت ساده باشد.

به‌دست آوردن قابلیت نظارت بیشتر از زنجیره‌های تفکری

قابلیت نظارت بر زنجیرهٔ تفکری معمولاً به‌عنوان یک مقدار ثابت در نظر گرفته می‌شود: پس از آن‌که یک مدل پاسخ را با سعی استدلال معین تولید کرد، ما سعی می‌کنیم زنجیرهٔ تفکری حاصل را تا حد امکان نظارت کنیم. چون به‌طور مستمر متوجه شدیم که قابلیت نظارت با افزایش سعی استدلال عامل‌های ما ارتقا می‌یابد، به این سؤال رسیدیم که آیا می‌توانیم به‌گونه‌ای توکن‌های بیشتری برای نظارت به دست آوریم.

برای بررسی این موضوع، با پرسیدن سؤال‌های پیگیری پس از پاسخ مدل آزمایش کردیم، به‌شرطی که پرسش اولیه، زنجیرهٔ تفکری و پاسخ در زمینه باقی بمانند. این سؤال‌های پیگیری بر ویژگی مورد نظارت متمرکز می‌شوند — برای مثال، «آیا از راهنمایی به‌طور معناداری برای انتخاب پاسخ استفاده کردید؟» یا «آیا کاری مشکوک انجام دادید؟» به‌عنوان اصل، چون مدل هنوز به استدلال قبلی خود دسترسی دارد، می‌تواند افکار پیش‌نویس‌نشده‌ای را که پیش‌تر بیان نشده‌اند، در زنجیرهٔ تفکری یا پاسخ پیگیری آشکار سازد.

این نتایج پیش‌نویس هستند. ما تنها تعداد کمی از قالب‌های سؤال پیگیری را بررسی کردیم و معتقدیم فضای قابل‌توسعه‌ای برای بهبود روش‌شناسی وجود دارد. افزون بر این، این روش از نظر نگرشی شبیه اعلامیات مدل است و ما به‌طور فعال در حال مقایسهٔ این رویکردها هستیم.

ما نتایج را به‌صورت میانگین‌گیری شده از مجموعه ارزیابی‌های خود و از تمام مدل‌های استدلالی اخیرمان نشان می‌دهیم: OpenAI o3‑mini، OpenAI o3، OpenAI o4-mini، و GPT‑5‑thinking. به‌طور کلی، سؤال‌های پیگیری قابلیت نظارت را به‌ویژه در سعی‌های استدلال کمتر بهبود می‌بخشند. اگر سؤال پیگیری را به‌صورت مکرر بپرسیم و تمام زنجیره‌های تفکری پیگیری را به ناظر بدهیم، قابلیت نظارت حتی بیشتر بهبود می‌یابد. به‌طور قابل‌توجه، زمانی که به ناظر فقط دسترسی به پاسخ پیگیری و نه به زنجیرهٔ تفکری پیگیری بدهیم، بهبود نسبت به پایه کمتر است. این نشان می‌دهد که مدل‌ها در پاسخ‌های خود به کاربر صریح نیستند، اما به‌طور ناخواسته اطلاعات بیشتری در زنجیرهٔ تفکری خود ارائه می‌دهند.

علاوه بر بهبود قابلیت نظارت، این رویکرد جذاب است زیرا می‌تواند به‌صورت پس‌پردازشی اعمال شود و تنها وقتی که نیاز به بررسی عمیق‌تر باشد، هزینهٔ محاسباتی اضافی را به‌دست می‌آورد. در آینده، اگر مدل‌ها برای انتظار تغییر در سعی استدلال در طول مکالمه آموزش ببینند، سؤال‌های پیگیری پس‌پردازشی با سعی استدلال بالاتر می‌تواند حتی زمانی که سعی استدلال اولیه کم یا غیرفعال است، قابلیت نظارت را بیشتر بهبود دهد.

محدودیت‌ها

هر ارزیابی در مجموعهٔ ما اندازه می‌گیرد که آیا یک جنبهٔ واحد از فرآیند استدلال قابل نظارت است یا خیر. در حالی که ما سعی می‌کنیم طیف گسترده‌ای از رفتارها را پوشش دهیم — شامل چاپلوسی، کم‌کاری، تعصب، طرح‌ریزی و هک پاداش — ولی بسیاری از ویژگی‌های دیگر همچنان بررسی نشده باقی می‌مانند.

مشابه هر بنچمارکی، ارزیابی‌های ما ممکن است از کمبود واقع‌گرایی یا افزایش آگاهی ارزیابی رنجاندن شوند، و نتایج ممکن است برای شناسایی رفتارهای نادرست در محیط واقعی قابل تعمیم نباشند.

سرانجام، با بهبود هم‌سویی، ممکن است مدل‌ها در محیط‌های ارزیابی کنترل‌شده کمتر رفتار نادرست نشان دهند، که سیگنال موجود برای ارزیابی‌های قابلیت نظارت و کنترل مبتنی بر تشخیص رفتار نادرست را کاهش می‌دهد. در این موارد، ارزیابی‌های “خنثی” نظارت هنوز کاربرد دارند، اگرچه سؤال باز این است که این ارزیابی‌ها تا چه حد می‌توانند پیش‌بینی‌کنندهٔ شکست‌های دنیای واقعی باشند.

نتیجه‌گیری

اگر مشکل هم‌سویی به‌طور کامل حل نشود، روش‌های کنترل مقیاس‌پذیر برای توانایی ما در استقرار ایمن مدل‌های بسیار قدرتمند بسیار حیاتی خواهند شد. نظارت بر زنجیرهٔ تفکری و روش‌های مرتبط احتمالا یکی از معدود مکانیزم‌های کنترلی موجود برای ما باشد. زنجیرهٔ تفکری می‌تواند سودهای بزرگی در درک بهتر مدل‌ها به‌همراه داشته باشد؛ به‌عنوان مثال، اینکه آیا یک عامل می‌داند که در یک ارزیابی قرار دارد و رفتار متفاوتی نسبت به استقرار نشان می‌دهد، یا آیا شواهدی از اهداف مخربی که هنوز در ارزیابی‌های ما بروز نیافته‌اند وجود دارد یا نه. بنابراین، ما بر این باوریم که درک چگونگی و زمان از دست رفتن قابلیت نظارت از اهمیت بالایی برخوردار است.

ما نظارت بر زنجیرهٔ تفکری را مکمل تفسیر مکانیکی می‌دانیم، نه جایگزین آن. همانند تمام روش‌های شناخته‌شدهٔ کنترل و تفسیر، هر یک محدودیت‌ها و نقاط کور خود را دارند. انتظاری که داریم این است که ترکیب چندین رویکرد — یک استراتژی دفاع در عمق — می‌تواند خلاهای موجود در هر روش منفرد را پر کند. به‌ طور مهم، ارزیابی‌های معرفی‌شده در این کار می‌توانند برای ارزیابی و مقایسهٔ تکنیک‌های نظارتی مبتنی بر تفسیر مکانیکی نیز به کار گرفته شوند.

از آنجا که بر این باوریم نظارت بر زنجیرهٔ تفکری می‌تواند لایهٔ سازنده‌ای در یک طرح کنترل مقیاس‌پذیر باشد، قصد داریم این ارزیابی‌ها را گسترش داده و از آن‌ها برای راهنمایی تصمیمات آیندهٔ مدل‌سازی و داده‌ها استفاده کنیم.

ممکن است شما دوست داشته باشید
ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.