مدل جدید o3-mini که این هفته توسط OpenAI رونمایی شد از امروز از طریق پلتفرم گیلاس در دسترس همهی کاربران قرار گرفته است. این مدل قدرتمند و سریع مرزهای توانایی مدلهای کوچک را گسترش میدهد و قابلیتهای برجستهای در زمینههای STEM دارد، بهویژه در علوم، ریاضیات و برنامهنویسی، در حالی که همچنان هزینه پایین و تأخیر کم OpenAI o1-mini را حفظ میکند.
مدل OpenAI o3-mini اولین مدل استدلالی کوچک است که از ویژگیهایd مانند function calling، Structured Outputs و developer messages پشتیبانی میکند و از همان ابتدا برای استفاده در محیطهای production آماده است. همچنین، توسعهدهندگان میتوانند از بین سه سطح تلاش استدلالی—کم، متوسط و زیاد—انتخاب کنند تا مدل را متناسب با نیازهای خاص خود بهینه کنند. این انعطافپذیری به o3-mini اجازه میدهد که در مواجهه با چالشهای پیچیده “عمیقتر فکر کند” یا در صورت نیاز به سرعت، اولویت را به کاهش تأخیر بدهد. این مدل از قابلیتهای پردازش تصویر پشتیبانی نمیکند، بنابراین توسعهدهندگانی که به استدلال بصری نیاز دارند باید همچنان از OpenAI o1 استفاده کنند.
در حالی که OpenAI o1 همچنان مدل استدلالی جامعتری برای دانش عمومی است، OpenAI o3-mini جایگزینی تخصصی برای حوزههای فنی است که نیاز به دقت و سرعت دارند. مشابه مدل OpenAI o1، مدل o3-mini نیز برای استدلال در STEM بهینه شده است. در سطح تلاش استدلالی متوسط، o3-mini عملکردی مشابه o1 در ریاضیات، برنامهنویسی و علوم ارائه میدهد، در حالی که پاسخها را با سرعت بیشتری تولید میکند. ارزیابیهای انجامشده توسط متخصصان نشان میدهد که o3-mini پاسخهایی دقیقتر و واضحتر با توانایی استدلالی قویتر نسبت به OpenAI o1-mini تولید میکند. تستکنندگان در ۵۶٪ موارد پاسخهای o3-mini را به o1-mini ترجیح دادهاند و کاهش ۳۹٪ در خطاهای بزرگ در سوالات دشوار دنیای واقعی را مشاهده کردهاند.
عمکرد مدل در ریاضی #
مدل o3-mini (high) در سوالات مسابقات AIME 2024 به دقت ۸۳.۶٪ دست یافته است که پیشرفت قابل توجهی را نشان میدهد. در سطح تلاش استدلالی کم، o3-mini عملکردی مشابه o1-mini دارد. در سطح متوسط، عملکرد آن برابر با o1 است و در سطح بالا، o3-mini از هر دو مدل o1-mini و o1 پیشی میگیرد.

عملکرد مدل در سوالات علمی سطح دکتری #
o3-mini (high) در سوالات زیستشناسی، شیمی و فیزیک در سطح دکتری به دقت ۷۷٪ رسیده است که نشاندهندهی پیشرفت قابل ملاحظهای نسبت به نسخههای قبلی است.

عملکرد مدل در برنامهنویسی #
o3-mini (high) به امتیاز Elo 2073 در مسائل برنامهنویسی Codeforces دست یافته است، که پیشرفتی چشمگیر نسبت به نسخههای قبلی محسوب میشود.

سرعت و کارایی مدل #
OpenAI o3-mini با بهرهگیری از سطح استدلالی متوسط، پاسخها را ۲۴٪ سریعتر از o1-mini تولید میکند، با میانگین زمان پاسخ ۷.۷ ثانیه در مقابل ۱۰.۱۶ ثانیه برای o1-mini.

ایمنی مدل #
OpenAI o3-mini با استفاده از تکنیک همراستاسازی استدلالی، قبل از پاسخدهی به درخواستها، ایمنی را از طریق مشخصات نوشتهشده توسط انسان ارزیابی میکند. ارزیابیهای انجامشده نشان میدهد که o3-mini از GPT-4o در تستهای ایمنی و مقابله با نفوذ (jailbreak) عملکرد بهتری دارد. ما از تمامی تستکنندگان ایمنی که در مرحله دسترسی اولیه به آزمایش o3-mini کمک کردند، سپاسگزاریم. جزئیات این ارزیابیها در o3-mini system card موجود است.