عملکرد ضعیف مدل اصلی ماوریک متا در رتبه بندی معروف LM Arena

Raint
هوش مصنوعی, تکنولوژی

عملکرد ضعیف مدل اصلی ماوریک متا در رتبه بندی معروف LM Arena

مدل اصلی هوش مصنوعی متا با نام Maverick در رتبه‌بندی محبوب LM Arena عملکرد ضعیفی از خود نشان داد و پایین‌تر از رقبای مطرحی چون GPT-4o و Claude 3.5 قرار گرفت.

در ابتدای هفته جاری، شرکت متا به دلیل استفاده از نسخه آزمایشی و منتشرنشده‌ای از مدل Llama 4 Maverick برای کسب امتیاز بالا در رتبه‌بندی جمع‌سپاری‌شده‌ی LM Arena، با موجی از انتقادها مواجه شد. این اقدام، مدیران LM Arena را وادار کرد تا از کاربران عذرخواهی کرده، سیاست‌های خود را تغییر دهند و نسخه‌ی بدون دست‌کاری یا همان ماوریک اصلی را مجدد ارزیابی کنند.

اما نتایج چندان رضایت‌بخش نبود.

مدل اصلی با نام کامل «Llama-4-Maverick-17B-128E-Instruct» در رتبه‌بندی روز جمعه، پایین‌تر از مدل‌هایی مانند GPT-4o (متعلق به OpenAI)، Claude 3.5 Sonnet (ساخته‌ی Anthropic)، و Gemini 1.5 Pro (توسعه‌یافته توسط گوگل) قرار گرفت. این در حالی است که برخی از این مدل‌ها ماه‌ها پیش عرضه شده‌اند.

کاربری در شبکه اجتماعی ایکس (توییتر سابق) در واکنش به این موضوع نوشت:

«نسخه واقعی Llama 4 بالاخره به لیست LM Arena اضافه شده، ولی احتمالش کمه دیده باشیدش، چون باید تا رتبه ۳۲ پایین برید تا پیداش کنید.»

چرا عملکرد ضعیف بود؟

بر اساس توضیح متا، نسخه‌ی آزمایشی با عنوان «Llama-4-Maverick-03-26-Experimental» برای گفتگوهای تعاملی بهینه‌سازی شده بود. این بهینه‌سازی‌ها موجب شده بود تا عملکرد مدل در تست‌های انسانی LM Arena بهتر به نظر برسد؛ جایی که داوران انسانی خروجی مدل‌ها را مقایسه کرده و ترجیح خود را اعلام می‌کنند.

البته باید اشاره کرد که LM Arena همواره به عنوان یک معیار دقیق و قابل‌اعتماد برای سنجش کیفیت مدل‌های هوش مصنوعی مطرح نبوده است. اما تنظیم مدل صرفاً برای درخشش در یک معیار خاص، علاوه بر ایجاد تصویر اشتباه، پیش‌بینی عملکرد واقعی آن در شرایط متنوع را برای توسعه‌دهندگان دشوار می‌کند.

متا در پاسخ به این موضوع، در بیانیه‌ای به تک‌کرانچ گفت:

«ما با انواع مختلفی از نسخه‌های سفارشی مدل‌ها آزمایش انجام می‌دهیم. نسخه‌ی آزمایشی Llama-4-Maverick-03-26-Experimental برای گفت‌وگو بهینه شده و در LM Arena هم عملکرد خوبی داشت. اکنون نسخه‌ی متن‌باز این مدل را منتشر کرده‌ایم و مشتاقیم ببینیم توسعه‌دهندگان چگونه آن را برای کاربردهای خود سفارشی‌سازی می‌کنند.»

منبع : techcrunch

اخبار مرتبط در جیبی 724 :

دور شدن ماه از زمین؛ زمان روی زمین در مسیر تغییر قرار گرفته است

خداحافظی با یک میراث ۲۳ ساله ؛ استودیو Ubisoft Leamington تعطیل شد