عاجل

دراسة من "أوبن إيه آي" تكشف أفضل نموذج للاستخدام اليومي - البطريق نيوز

0 تعليق ارسل طباعة تبليغ حذف

انقر هنا للمشاركة على وسائل التواصل الاجتماعي

share2

كسفت "أوبن إيه آي" عن معيار جديد لتقييم أداء نماذج الذكاء الاصطناعي في المهام والاستخدام اليومي المتعلق بالأعمال اليومية، وذلك وفق تقرير نشره موقع "تيك رادار" التقني.

ويعتمد معيار "جي دي بي فال" (GDPVal) على قياس أداء نماذج الذكاء الاصطناعي المختلفة باستخدام مهام العمل المعتادة في العالم الحقيقي مقارنة بأداء البشر في 44 مهنة مختلفة.

وخلصت الدراسة التي أجرتها "أوبن إيه آي" بالاعتماد على المعيار الجديد إلى أن نموذج "كلود أوبس 4.1" (Claude Opus 4.1) من "آنثروبيك" هو الأفضل في هذه المهام، متغلبا في ذلك على نماذج "شات جي بي تي 5″ و"جيميناي" وغروك".

وأظهرت الدراسة أن "كلود أوبس 4.1" أدى بشكل أفضل من الخبراء البشر في 47.6% من المرات، بينما نتيجة "شات جي بي تي 5″ كانت 38.8% و"غروك 4″ حقق نسبة 24.3% و"جيميناي 2.5 برو" حقق 25.5%.

Close-up of phone screen displaying Anthropic Claude app, a Large Language Model (LLM) powered generative artificial intelligence chatbot, Lafayette, California, June 27, 2024. (Photo by Smith Collection/Gado/Getty Images)
"كلود" تفوق على كافة نماذج الذكاء الاصطناعي في دراسة "أوبن إيه آي" (غيتي إيميجز)

كما أن "كلود" كان الأفضل في 8 من أصل 9 صناعات مختلفة بما فيها القطاعات الحكومية والصحية والمساعدة الاجتماعية، وتضمنت المهام التي طلبت من النموذج أشياء مثل كتابة رسائل البريد الإلكتروني والرد على العملاء المنزعجين وتحسين الجداول وتدقيق الأسعار.

وتأتي هذه الدراسة ضمن مساعي "أوبن إيه آي" لتحقيق دراسة معمقة لنماذج الذكاء الاصطناعي المختلفة حتى وإن كانت منافسة لها، إذ طرحت الشركة منذ عدة أسابيع دراسة أخرى أظهرت أكثر الاستخدامات شيوعا في "شات جي بي تي".

وكان فريق الأبحاث الاقتصادية الموجود بالشركة مسؤولا عن هذه الدراسة بالتعاون مع الخبير الاقتصادي ديفيد ديمينج لمكتب البحوث الاقتصادية الوطني.

ويذكر بأن "أوبن إيه آي" تعمل على تقديم مجموعة من التحسينات على نموذج "شات جي بي تي" من بينها إمكانية الشراء مباشرة من داخل النموذج بالتعاون مع منصة "إيتسي" (Etsy) و"شوبيفاي" (Shopify)، فضلا عن طرح مزايا الرقابة الأبوية داخل "شات جي بي تي" للمراهقين.

إعلان

0 تعليق