معرفی مدل OpenAI o3-mini

مدل جدید o3-mini که این هفته توسط OpenAI رونمایی شد از امروز از طریق پلتفرم گیلاس در دسترس همه‌ی کاربران قرار گرفته است. این مدل قدرتمند و سریع مرزهای توانایی مدل‌های کوچک را گسترش می‌دهد و قابلیت‌های برجسته‌ای در زمینه‌های STEM دارد، به‌ویژه در علوم، ریاضیات و برنامه‌نویسی، در حالی که همچنان هزینه پایین و تأخیر کم OpenAI o1-mini را حفظ می‌کند.

مدل OpenAI o3-mini اولین مدل استدلالی کوچک است که از ویژگی‌هایd مانند function calling، Structured Outputs و developer messages پشتیبانی می‌کند و از همان ابتدا برای استفاده در محیط‌های production آماده است. همچنین، توسعه‌دهندگان می‌توانند از بین سه سطح تلاش استدلالی—کم، متوسط و زیاد—انتخاب کنند تا مدل را متناسب با نیازهای خاص خود بهینه کنند. این انعطاف‌پذیری به o3-mini اجازه می‌دهد که در مواجهه با چالش‌های پیچیده “عمیق‌تر فکر کند” یا در صورت نیاز به سرعت، اولویت را به کاهش تأخیر بدهد. این مدل از قابلیت‌های پردازش تصویر پشتیبانی نمی‌کند، بنابراین توسعه‌دهندگانی که به استدلال بصری نیاز دارند باید همچنان از OpenAI o1 استفاده کنند.

در حالی که OpenAI o1 همچنان مدل استدلالی جامع‌تری برای دانش عمومی است، OpenAI o3-mini جایگزینی تخصصی برای حوزه‌های فنی است که نیاز به دقت و سرعت دارند. مشابه مدل OpenAI o1، مدل o3-mini نیز برای استدلال در STEM بهینه شده است. در سطح تلاش استدلالی متوسط، o3-mini عملکردی مشابه o1 در ریاضیات، برنامه‌نویسی و علوم ارائه می‌دهد، در حالی که پاسخ‌ها را با سرعت بیشتری تولید می‌کند. ارزیابی‌های انجام‌شده توسط متخصصان نشان می‌دهد که o3-mini پاسخ‌هایی دقیق‌تر و واضح‌تر با توانایی استدلالی قوی‌تر نسبت به OpenAI o1-mini تولید می‌کند. تست‌کنندگان در ۵۶٪ موارد پاسخ‌های o3-mini را به o1-mini ترجیح داده‌اند و کاهش ۳۹٪ در خطاهای بزرگ در سوالات دشوار دنیای واقعی را مشاهده کرده‌اند.

عمکرد مدل در ریاضی #

مدل o3-mini (high) در سوالات مسابقات AIME 2024 به دقت ۸۳.۶٪ دست یافته است که پیشرفت قابل توجهی را نشان می‌دهد. در سطح تلاش استدلالی کم، o3-mini عملکردی مشابه o1-mini دارد. در سطح متوسط، عملکرد آن برابر با o1 است و در سطح بالا، o3-mini از هر دو مدل o1-mini و o1 پیشی می‌گیرد.

عملکرد مدل در سوالات علمی سطح دکتری #

o3-mini (high) در سوالات زیست‌شناسی، شیمی و فیزیک در سطح دکتری به دقت ۷۷٪ رسیده است که نشان‌دهنده‌ی پیشرفت قابل ملاحظه‌ای نسبت به نسخه‌های قبلی است.

عملکرد مدل در برنامه‌نویسی #

o3-mini (high) به امتیاز Elo 2073 در مسائل برنامه‌نویسی Codeforces دست یافته است، که پیشرفتی چشمگیر نسبت به نسخه‌های قبلی محسوب می‌شود.

سرعت و کارایی مدل #

OpenAI o3-mini با بهره‌گیری از سطح استدلالی متوسط، پاسخ‌ها را ۲۴٪ سریع‌تر از o1-mini تولید می‌کند، با میانگین زمان پاسخ ۷.۷ ثانیه در مقابل ۱۰.۱۶ ثانیه برای o1-mini.

ایمنی مدل #

OpenAI o3-mini با استفاده از تکنیک هم‌راستاسازی استدلالی، قبل از پاسخ‌دهی به درخواست‌ها، ایمنی را از طریق مشخصات نوشته‌شده توسط انسان ارزیابی می‌کند. ارزیابی‌های انجام‌شده نشان می‌دهد که o3-mini از GPT-4o در تست‌های ایمنی و مقابله با نفوذ (jailbreak) عملکرد بهتری دارد. ما از تمامی تست‌کنندگان ایمنی که در مرحله دسترسی اولیه به آزمایش o3-mini کمک کردند، سپاسگزاریم. جزئیات این ارزیابی‌ها در o3-mini system card موجود است.