ارزیابی قابلیت نظارت بر زنجیره تفکری
ما ارزیابیهایی برای قابلیت نظارت بر زنجیره تفکری معرفی میکنیم و بررسی میکنیم که این قابلیت چگونه با افزایش محاسبهٔ زمان آزمون، یادگیری تقویتی و پیشآموزش مقیاس میشود.
هنگامی که سیستمهای هوش مصنوعی تصمیماتی میگیرند که بهطور مستقیم نظارت بر آنها دشوار است، درک چگونگی اتخاذ این تصمیمات مهم میشود. یک رویکرد امیدوارکننده این است که بهجای صرفاً نظارت بر اعمال یا خروجیهای نهایی، به استدلال داخلی مدل نظارت کنیم.
مدلهای استدلال مدرن، مانند GPT‑5 Thinking، قبل از ارائهٔ پاسخ یک زنجیرهٔ تفکری صریح تولید میکنند. نظارت بر این زنجیرههای تفکری برای شناسایی رفتارهای نادرست میتواند بسیار مؤثرتر از نظارت صرف بر اعمال و خروجیهای مدل باشد. با این حال، پژوهشگران در OpenAI و در سراسر صنعت نگرانند که این «قابلیت نظارت» بر زنجیرهٔ تفکری ممکن است در برابر تغییرات در فرآیند آموزش، منابع داده و حتی گسترش مداوم الگوریتمهای موجود آسیبپذیر باشد.
ما میخواهیم قابلیت نظارت بر زنجیرهٔ تفکری حتی با مقیاسگیری مدلها و استفاده از آنها در موقعیتهای با ریسک بالاتر حفظ شود. از پژوهشگران در سراسر صنعت درخواست میکنیم تا برای حفظ این قابلیت نظارت تا حد امکان کار کنند و تعیین کنند آیا میتواند بهعنوان یک لایهٔ کنترل باربر برای سیستمهای هوش مصنوعی آینده عمل کند یا نه. برای حفظ قابلیت نظارت، باید بتوانیم آن را اندازهگیری کنیم، اما ارزیابیهای کمی وجود دارد [1، 2، 3] و روششناسیها متفاوتاند.
در این کار، ما قابلیت نظارت بر زنجیرهٔ تفکری را بهصورت سیستماتیک بررسی میکنیم. چارچوبی برای ارزیابی این قابلیت و مجموعهای از ۱۳ ارزیابی (شامل مجموعاً ۲۴ محیط) معرفی میکنیم که بهطور ملموس قابلیت نظارت یک سیستم را میسنجد. این ارزیابیها در سه الگوی اصلی — مداخله، فرآیند و ویژگینتیجه — طبقهبندی میشوند. با استفاده از آنها، میزان نظارتپذیری مدلهای زبانی بزرگ امروز و چگونگی تغییر این قابلیت با افزایش استدلال در زمان استنتاج، اجرای بزرگتر یادگیری تقویتی و مقیاسپذیری پیشآموزش را بررسی میکنیم.
حال که مجموعهٔ گستردهای از ارزیابیها داریم، میتوانیم آغاز به ردیابی قابلیت نظارت مدلهای خود کنیم. (بالا‑چپ) میبینیم که هرچه مدلها «تفکر» بیشتری داشته باشند و زنجیرهٔ تفکری طولانیتری تولید کنند، قابلیت نظارت بهبود مییابد. (بالا‑راست) بدون زنجیرهٔ تفکری، معمولاً سعی میکنیم تنها رفتارها و خروجیهای نهایی یک مدل را نظارت کنیم. اما ما متوجه شدیم که نظارت صرف بر اعمال و خروجیها عملکرد بسیار کمتری نسبت به نظارت بر زنجیرهٔ تفکری دارد. (پایین‑وسط) مدلهای خود را با مدلهای خارجی که دسترسی به زنجیرهٔ تفکری کامل دارند — Claude 3.7 Sonnet، DeepSeek R1-0528‑Qwen3‑8B و Kimi K2 Thinking — مقایسه میکنیم.
ما دریافتیم اکثر مدلهای استدلال پیشرفته تا حدی قابل نظارت هستند، اگرچه بهطور کامل نیستند. در تقریباً تمام وضعیتهایی که بررسی کردیم، نظارت بر زنجیرههای تفکری بهطور قابلتوجهی مؤثرتر از نظارت صرف بر اعمال و خروجیهای نهایی است. مدلهایی که برای مدت طولانیتری فکر میکنند، تمایل به قابلنظارتتر بودن دارند و بهنظر میرسد بهینهسازی یادگیری تقویتی در مقیاسهای پیشرفتهٔ کنونی بهطور معناداری قابلیت نظارت را کاهش نمیدهد.
قابل توجه است که ما یک تعادل بین میزان استدلال و اندازهٔ مدل مشاهده میکنیم: وقتی مدلی با سعی استدلال کم اجرا میشود، یک مدل کوچکتر که با سعی استدلال بالاتر اجرا شود میتواند توانایی مقایسهای داشته باشد و همزمان نظارتپذیری آسانتری داشته باشد. این بهقیمت مصرف محاسباتی بیشتر در زمان استنتاج میآید که آن را مالیهٔ نظارتپذیری مینامیم. سرانجام، متوجه شدیم که پرسیدن سؤالهای پیگیری و نظارت بر زنجیرههای تفکری ناشی از آن میتواند نظارتپذیری را بیشتر بهبود بخشد.
«قابلیت نظارت» چیست؟
قابلیت نظارت را بهعنوان توانایی یک ناظر برای پیشبینی ویژگیهای موردنظری دربارهٔ رفتار یک عامل تعریف میکنیم. در بسیاری از موارد، این ویژگیها بهصورت انواع رفتارهای نادرست مانند فریب، هک کردن پاداش یا استدلال جانبدار بیان میشوند؛ اما میتوانند شامل ویژگیهای بیضرر نیز باشند، مانند اینکه آیا عامل از یک راهنمای خاص استفاده کرده یا مسیر خاصی از استدلال را دنبال کرده است.
قابلیت نظارت یک ویژگی دو‑بعدی است. این ویژگی هم به ناظر وابسته است و هم به عاملی که مورد نظارت قرار میگیرد.
- ناظران. میتوانیم ناظران را به طرق مختلف هوشمندتر کنیم و مایلیم ارزیابیهای ما نمرههای بالاتری به ناظرانی بدهند که قادر به پیشبینی بهتر رفتار عامل باشند.
- عوامل. مشاهدات متعددی از عامل میتوانند به ناظر منتقل شوند، شامل اعمال، خروجیها، فعالسازیهای عصبی، و اخیراً با ظهور مدلهای استدلال، زنجیرهٔ تفکری. ممکن است برخی عاملها تفکراتی داشته باشند که نسبت به دیگران دشوارتر برای درک باشد؛ بنابراین میخواهیم ارزیابیهای قابلیت نظارت ما بتوانند عاملها را مقایسه کرده و نه صرفاً ناظران.
ارزیابیهای ما بهگونهای طراحی شدهاند که هر دو جنبه را بررسی کنند: آیا برخی عاملها نظارتپذیری بیشتری یا کمتری دارند، و آیا ناظران توانمندتر میتوانند اطلاعات بیشتری را از همان سیگنالها استخراج کنند.
چرا زنجیرههای تفکری باید قابل نظارت باشند؟
پیش از نسل فعلی مدلهای استدلال، زنجیرههای تفکری عموماً با درخواست از مدل برای «بهصورت گام‑به‑گام فکر کردن» استخراج میشد.
زنجیرههای تفکری مدلهای استدلالی در دو جهت مهم متفاوتند. نخست، این مدلها صراحتاً برای تولید زنجیرهٔ تفکری و سپس ارائهٔ یک پاسخ آموزش میبینند. وقتی یک مدل چت را به «فکر کردن گام‑به‑گام» دعوت میکنیم، آن مدل باید تمام ویژگیهای تعیینشده برای خود — مانند مفید، بیضرر بودن و … — را رعایت کند. برعکس، فرآیند آموزشی یادگیری تقویتی به مدل استدلالی میآموزد که زنجیرهٔ تفکری یک فضای خصوصی است که میتواند هر آنچه میخواهد فکر کند و تحت تنبیه قرار نگیرد، همانند اینکه یک انسان میتواند بهصورت خصوصی فکر کند و بهخاطر «جرائم فکری» تنبیه نشود.
دوم، فرآیند آموزش بهطور مؤثری برای زنجیرههای تفکری میگردد که بیشترین مفید ابزارمندی برای عامل در دریافت پاسخ نهایی با پاداش بالا داشته باشند. بنابراین، زنجیرهٔ تفکری نه تنها فضایی است که مدل میتواند بهآزادانه خود را بیان کند، بلکه شامل تفکری است که به مدل کمک میکند به پاسخ نهایی خود برسد.
چارچوبی برای ارزیابی قابلیت نظارت
ارزیابیهای قابلیت نظارت ما را در سه الگوی متمایز سازماندهی میکنیم که هر کدام از مکانیزم متفاوتی برای سنجش قابلیت نظارت استفاده مینمایند.
- ارزیابیهای مداخلهای، الهامگرفته از Chen et al. 2025، Chua et al. 2025، Turpin et al. 2023، ما تغییر کنترلشدهای در محیط عامل ایجاد میکنیم و میآزماییم آیا ناظر میتواند علت تغییر رفتار را با شناسایی شواهد مداخله در زنجیرهٔ تفکری تشخیص دهد یا خیر. بر خلاف ارزیابیهای کنترل استاندارد (مثلاً Shade-Arena)، ارزیابیهای مداخله به ما اجازه میدهند تا بررسی کنیم آیا ناظر میتواند چرا رفتار تغییر کرده است را تشخیص دهد، نه صرفاً اینکه آیا رفتار رخ داده است یا نه.
- ارزیابیهای فرآیندی بر وظایفی با تعداد محدود مسیرهای حل معتبر تمرکز دارند (به عنوان مثال، یک مسئله ریاضی فقط میتواند با استفاده از برخی قضایا حل شود). کارشناسان انسانی این مسیرها را فهرست میکنند و ما بررسی میکنیم آیا ناظر میتواند تشخیص دهد که کدام گامها را مدل واقعاً انجام داده است. این ارزیابیها به ما اجازه میدهند تا کارکرد مدل را به گامهای خاصی که مدل باید آنها را طی کرده باشد پیوند بزنیم و بپرسیم آیا آن گامها قابل نظارت هستند یا نه.
- ارزیابیهای ویژگی‑نتیجه زمانی به کار میروند که یک ویژگی از خروجی مدل بهطور قابلاعتمادی قابل سنجش باشد. در چنین مواردی، ما آزمون میکنیم آیا ناظر میتواند آن ویژگی — مانند هک پاداش — را از استدلال یا اعمال مدل پیشبینی کند. برای مثال، در یک کار برنامهنویسی، ممکن است راهی داشته باشیم که بهدقت ارزیابی کنیم آیا مدل اقداماتی برای هک سیگنال پاداش انجام میدهد یا نه، و میتوانیم بپرسیم آیا ناظر شواهدی از نیت به هک پاداش در تفکر یا اقدامات مدل مییابد یا خیر.
در زیر یک طبقهبندی برای ارزیابیهای خود ارائه میدهیم. لطفاً برای توصیف کامل هر ارزیابی به مقالهٔ ما مراجعه کنید.
ما قابلیت نظارت هر مدل را در مجموعه ارزیابی خود نسبت به میانگین نرخ موفقیت در مجموعهای از ارزیابیهای استاندارد توانمندی (GPQA‑Diamond، AIME 2025، و CodeForces) ترسیم میکنیم. هر مدل بر اساس سعیهای استدلال مختلف ارزیابی میشود (توجه داشته باشید که هر نقطه در این شکل در واقع نتیجهٔ درونیابی خطی بین سعیهای استدلال اندازهگیریشده است). دایرهها نشان میدهند که مدل در سعی استدلال خاص، در سطح قابلیت، بر قابلیت نظارت برتری دارد؛ و Xهای شفاف نشان میدهند که مدل در همان سعی استدلال، توسط مدل دیگری از نظر قابلیت نظارت تحتفرو رفته است. در پیکانهای سیاه مثالهایی از دو روش صرف محاسبهٔ بیشتر در زمان استنتاج نشان داده میشود: نمونهبرداری تعداد بیشتری توکن با مدلی کوچکتر یا توکنهای نسبتاً کمتر با همان مدل. در پیکانهای قرمزرنگ مالیهٔ نظارتپذیری که باید پرداخت شود نشان داده میشود، یعنی کمی کاهش قابلیت در ازای افزایش قابل توجه قابلیت نظارت.
بهطور کلی، دریافتیم که اگر مدلی خاص را با سعی استدلال کم بهکار ببندیم، میتوانیم بهجای آن یک مدل کوچکتر با سعی استدلال بیشتر بهکار بگیریم. در مقایسه با صرف محاسبات اضافی برای افزایش سعی استدلال مدل بزرگ اصلی، میتوانیم قابلیت نظارت بالاتری با هزینهٔ کمی از توانمندی بدست آوریم، یا مالیهٔ نظارتپذیری؛ اما زمان پردازش کلی که برای تکمیل یک تکمیل صرف میشود، ممکن است در برخی تصمیمات استقرار، عاملی باشد که ما در اینجا در نظر نمیگیریم. همانطور که مدلهای ما پیشرفت میکنند و در محیطهای پرریسکتر بهکار میروند، ممکن است نیاز به پرداخت چنین مالیاتی برای استقرار ایمن آنها پیشآمد.
این نتایج دارای محدودیتهای زیر هستند: (1) هر مدل را تنها یک بار آموزش دادیم، بنابراین نوسان بین دورههای آموزشی مختلف را در بر نمیگیریم. برای مثال، مدل «متوسط» نسبت به دیگر مدلهای این سری، در قابلیت نظارت بهنظر میرسد که از رنج معمول خارج است؛ این ممکن است بهدلیل این محدودیت باشد. (2) توانمندیها را در شرایط نسبتاً در‑دسترس (ریاضی، علوم و برنامهنویسی) ارزیابی میکنیم و ممکن است تبادلها هنگام درنظر گرفتن مقاومت در برابر دادههای خارج از توزیع تغییر کنند.
محاسبهٔ عامل در مقابل محاسبهٔ ناظر و کنترل مقیاسپذیر
(چپ) ما ناظرهای مختلفی را مقایسه میکنیم و سعی استدلال هر یک را متغیر میسازیم. هر ناظر همان مدل GPT‑5 Thinking را نظارت میکند. همانطور که انتظار میرود، بهطور کلی مدلهای بزرگتر و با توانایی بالاتر بهعنوان ناظرهای بهتر عمل میکنند و مدلهای استدلالی در وظیفه نظارت با سعی استدلال بالاتر (در نتیجه با محاسبهٔ زمان آزمون) بهتر عمل میکنند. (راست) ما دامنههای مختلف مشاهدات نظارتی برای OpenAI o4-mini را مقایسه میکنیم، یعنی اینکه آیا ناظر میتواند تنها CoT را ببیند، یا تنها اعمال و پاسخ، یا تمام پیامهای مدل مورد نظارت. بهطور مهم، متوجه شدیم که قابلیت نظارت با افزایش محاسبهٔ نظارتی زمان آزمون (سعی استدلال نظارتی بالاتر) بهسرعت بیشتری بهبود مییابد وقتی به ناظر دسترسی به CoT داده شود؛ بنابراین، نظارت بر CoT میتواند مسیر مقیاسپذیرتری برای کنترل نسبت به نظارت ساده باشد.
بهدست آوردن قابلیت نظارت بیشتر از زنجیرههای تفکری
قابلیت نظارت بر زنجیرهٔ تفکری معمولاً بهعنوان یک مقدار ثابت در نظر گرفته میشود: پس از آنکه یک مدل پاسخ را با سعی استدلال معین تولید کرد، ما سعی میکنیم زنجیرهٔ تفکری حاصل را تا حد امکان نظارت کنیم. چون بهطور مستمر متوجه شدیم که قابلیت نظارت با افزایش سعی استدلال عاملهای ما ارتقا مییابد، به این سؤال رسیدیم که آیا میتوانیم بهگونهای توکنهای بیشتری برای نظارت به دست آوریم.
برای بررسی این موضوع، با پرسیدن سؤالهای پیگیری پس از پاسخ مدل آزمایش کردیم، بهشرطی که پرسش اولیه، زنجیرهٔ تفکری و پاسخ در زمینه باقی بمانند. این سؤالهای پیگیری بر ویژگی مورد نظارت متمرکز میشوند — برای مثال، «آیا از راهنمایی بهطور معناداری برای انتخاب پاسخ استفاده کردید؟» یا «آیا کاری مشکوک انجام دادید؟» بهعنوان اصل، چون مدل هنوز به استدلال قبلی خود دسترسی دارد، میتواند افکار پیشنویسنشدهای را که پیشتر بیان نشدهاند، در زنجیرهٔ تفکری یا پاسخ پیگیری آشکار سازد.
این نتایج پیشنویس هستند. ما تنها تعداد کمی از قالبهای سؤال پیگیری را بررسی کردیم و معتقدیم فضای قابلتوسعهای برای بهبود روششناسی وجود دارد. افزون بر این، این روش از نظر نگرشی شبیه اعلامیات مدل است و ما بهطور فعال در حال مقایسهٔ این رویکردها هستیم.
ما نتایج را بهصورت میانگینگیری شده از مجموعه ارزیابیهای خود و از تمام مدلهای استدلالی اخیرمان نشان میدهیم: OpenAI o3‑mini، OpenAI o3، OpenAI o4-mini، و GPT‑5‑thinking. بهطور کلی، سؤالهای پیگیری قابلیت نظارت را بهویژه در سعیهای استدلال کمتر بهبود میبخشند. اگر سؤال پیگیری را بهصورت مکرر بپرسیم و تمام زنجیرههای تفکری پیگیری را به ناظر بدهیم، قابلیت نظارت حتی بیشتر بهبود مییابد. بهطور قابلتوجه، زمانی که به ناظر فقط دسترسی به پاسخ پیگیری و نه به زنجیرهٔ تفکری پیگیری بدهیم، بهبود نسبت به پایه کمتر است. این نشان میدهد که مدلها در پاسخهای خود به کاربر صریح نیستند، اما بهطور ناخواسته اطلاعات بیشتری در زنجیرهٔ تفکری خود ارائه میدهند.
علاوه بر بهبود قابلیت نظارت، این رویکرد جذاب است زیرا میتواند بهصورت پسپردازشی اعمال شود و تنها وقتی که نیاز به بررسی عمیقتر باشد، هزینهٔ محاسباتی اضافی را بهدست میآورد. در آینده، اگر مدلها برای انتظار تغییر در سعی استدلال در طول مکالمه آموزش ببینند، سؤالهای پیگیری پسپردازشی با سعی استدلال بالاتر میتواند حتی زمانی که سعی استدلال اولیه کم یا غیرفعال است، قابلیت نظارت را بیشتر بهبود دهد.
محدودیتها
هر ارزیابی در مجموعهٔ ما اندازه میگیرد که آیا یک جنبهٔ واحد از فرآیند استدلال قابل نظارت است یا خیر. در حالی که ما سعی میکنیم طیف گستردهای از رفتارها را پوشش دهیم — شامل چاپلوسی، کمکاری، تعصب، طرحریزی و هک پاداش — ولی بسیاری از ویژگیهای دیگر همچنان بررسی نشده باقی میمانند.
مشابه هر بنچمارکی، ارزیابیهای ما ممکن است از کمبود واقعگرایی یا افزایش آگاهی ارزیابی رنجاندن شوند، و نتایج ممکن است برای شناسایی رفتارهای نادرست در محیط واقعی قابل تعمیم نباشند.
سرانجام، با بهبود همسویی، ممکن است مدلها در محیطهای ارزیابی کنترلشده کمتر رفتار نادرست نشان دهند، که سیگنال موجود برای ارزیابیهای قابلیت نظارت و کنترل مبتنی بر تشخیص رفتار نادرست را کاهش میدهد. در این موارد، ارزیابیهای “خنثی” نظارت هنوز کاربرد دارند، اگرچه سؤال باز این است که این ارزیابیها تا چه حد میتوانند پیشبینیکنندهٔ شکستهای دنیای واقعی باشند.
نتیجهگیری
اگر مشکل همسویی بهطور کامل حل نشود، روشهای کنترل مقیاسپذیر برای توانایی ما در استقرار ایمن مدلهای بسیار قدرتمند بسیار حیاتی خواهند شد. نظارت بر زنجیرهٔ تفکری و روشهای مرتبط احتمالا یکی از معدود مکانیزمهای کنترلی موجود برای ما باشد. زنجیرهٔ تفکری میتواند سودهای بزرگی در درک بهتر مدلها بههمراه داشته باشد؛ بهعنوان مثال، اینکه آیا یک عامل میداند که در یک ارزیابی قرار دارد و رفتار متفاوتی نسبت به استقرار نشان میدهد، یا آیا شواهدی از اهداف مخربی که هنوز در ارزیابیهای ما بروز نیافتهاند وجود دارد یا نه. بنابراین، ما بر این باوریم که درک چگونگی و زمان از دست رفتن قابلیت نظارت از اهمیت بالایی برخوردار است.
ما نظارت بر زنجیرهٔ تفکری را مکمل تفسیر مکانیکی میدانیم، نه جایگزین آن. همانند تمام روشهای شناختهشدهٔ کنترل و تفسیر، هر یک محدودیتها و نقاط کور خود را دارند. انتظاری که داریم این است که ترکیب چندین رویکرد — یک استراتژی دفاع در عمق — میتواند خلاهای موجود در هر روش منفرد را پر کند. به طور مهم، ارزیابیهای معرفیشده در این کار میتوانند برای ارزیابی و مقایسهٔ تکنیکهای نظارتی مبتنی بر تفسیر مکانیکی نیز به کار گرفته شوند.
از آنجا که بر این باوریم نظارت بر زنجیرهٔ تفکری میتواند لایهٔ سازندهای در یک طرح کنترل مقیاسپذیر باشد، قصد داریم این ارزیابیها را گسترش داده و از آنها برای راهنمایی تصمیمات آیندهٔ مدلسازی و دادهها استفاده کنیم.