عملکرد ضعیف مدل اصلی ماوریک متا در رتبه بندی معروف LM Arena

عملکرد ضعیف مدل اصلی ماوریک متا در رتبه بندی معروف LM Arena
مدل اصلی هوش مصنوعی متا با نام Maverick در رتبهبندی محبوب LM Arena عملکرد ضعیفی از خود نشان داد و پایینتر از رقبای مطرحی چون GPT-4o و Claude 3.5 قرار گرفت.
در ابتدای هفته جاری، شرکت متا به دلیل استفاده از نسخه آزمایشی و منتشرنشدهای از مدل Llama 4 Maverick برای کسب امتیاز بالا در رتبهبندی جمعسپاریشدهی LM Arena، با موجی از انتقادها مواجه شد. این اقدام، مدیران LM Arena را وادار کرد تا از کاربران عذرخواهی کرده، سیاستهای خود را تغییر دهند و نسخهی بدون دستکاری یا همان ماوریک اصلی را مجدد ارزیابی کنند.
اما نتایج چندان رضایتبخش نبود.
مدل اصلی با نام کامل «Llama-4-Maverick-17B-128E-Instruct» در رتبهبندی روز جمعه، پایینتر از مدلهایی مانند GPT-4o (متعلق به OpenAI)، Claude 3.5 Sonnet (ساختهی Anthropic)، و Gemini 1.5 Pro (توسعهیافته توسط گوگل) قرار گرفت. این در حالی است که برخی از این مدلها ماهها پیش عرضه شدهاند.
کاربری در شبکه اجتماعی ایکس (توییتر سابق) در واکنش به این موضوع نوشت:
«نسخه واقعی Llama 4 بالاخره به لیست LM Arena اضافه شده، ولی احتمالش کمه دیده باشیدش، چون باید تا رتبه ۳۲ پایین برید تا پیداش کنید.»
چرا عملکرد ضعیف بود؟
بر اساس توضیح متا، نسخهی آزمایشی با عنوان «Llama-4-Maverick-03-26-Experimental» برای گفتگوهای تعاملی بهینهسازی شده بود. این بهینهسازیها موجب شده بود تا عملکرد مدل در تستهای انسانی LM Arena بهتر به نظر برسد؛ جایی که داوران انسانی خروجی مدلها را مقایسه کرده و ترجیح خود را اعلام میکنند.
البته باید اشاره کرد که LM Arena همواره به عنوان یک معیار دقیق و قابلاعتماد برای سنجش کیفیت مدلهای هوش مصنوعی مطرح نبوده است. اما تنظیم مدل صرفاً برای درخشش در یک معیار خاص، علاوه بر ایجاد تصویر اشتباه، پیشبینی عملکرد واقعی آن در شرایط متنوع را برای توسعهدهندگان دشوار میکند.
متا در پاسخ به این موضوع، در بیانیهای به تککرانچ گفت:
«ما با انواع مختلفی از نسخههای سفارشی مدلها آزمایش انجام میدهیم. نسخهی آزمایشی Llama-4-Maverick-03-26-Experimental برای گفتوگو بهینه شده و در LM Arena هم عملکرد خوبی داشت. اکنون نسخهی متنباز این مدل را منتشر کردهایم و مشتاقیم ببینیم توسعهدهندگان چگونه آن را برای کاربردهای خود سفارشیسازی میکنند.»
منبع : techcrunch

