أبل تطلق MGIE أول أداة من الشركة لإنشاء الصور بالذكاء الاصطناعي

أصدرت شركة أبل نموذجًا جديدًا مفتوح المصدر للذكاء الاصطناعي، يسمى “MGIE”، يمكنه تحرير الصور بناءً على تعليمات اللغة الطبيعية. يعمل MGIE، والذي يعني تحرير الصور بواسطة MLLM، على الاستفادة من نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) لتفسير أوامر المستخدم وإجراء عمليات معالجة على مستوى البكسل.

لقد وصل نموذج الذكاء الاصطناعي لتحرير الصور من أبل على الرغم من أنه لايزال بعيد عن أن يكون المنتج النهائي. MGIE، اختصار لتحرير الصور الموجهة بنماذج اللغات الكبيرة متعددة الوسائط، متاح حاليًا على GitHub وهناك ملف PDF يحتوي على التعليمات.

يستخدم النموذج تعليمات نصية لتغيير الصور وتحريرها. ويمكنه القيام بمهام تحرير الصور البسيطة مثل زيادة التباين أو السطوع وتغيير توازن اللون الأبيض. ولكن يمكنه أيضًا محاولة تفسير المطالبات الأكثر تعقيدًا – مثل جعل هذه البيتزا صحية أكثر – عن طريق إضافة طبقة نباتية.

يمكن للنموذج التعامل مع جوانب التحرير المختلفة، مثل تعديل نمط Photoshop وتحسين الصورة العامة. يمكن للنموذج أيضًا الاقتصاص وتغيير الحجم وملء حدود الصورة تلقائيًا وتغيير شعر الهدف وعينيه وملابسه وإزالة الكائنات الأخرى المحيطة بالصورة الرئيسية.

MGIE هو نتيجة للتعاون بين أبل وباحثين من جامعة كاليفورنيا، سانتا باربرا. تم تقديم النموذج في ورقة بحثية تم قبولها في المؤتمر الدولي (ICLR) 2024، وهو أحد أفضل الأماكن لأبحاث الذكاء الاصطناعي. توضح الورقة فعالية MGIE في تحسين المقاييس التلقائية والتقييم البشري.

كيف يمكن استخدام MGIE؟

يتوفر MGIE كمشروع مفتوح المصدر على GitHub، حيث يمكن للمستخدمين العثور على التعليمات البرمجية والبيانات والنماذج المدربة مسبقًا. يوفر المشروع أيضًا دفترًا تجريبيًا يوضح كيفية استخدام MGIE لمهام التحرير المختلفة. يمكن للمستخدمين أيضًا تجربة MGIE عبر الإنترنت من خلال عرض توضيحي على Hugging Face Spaces، وهي منصة للمشاركة والتعاون في مشاريع التعلم الآلي (ML).

نموذج MGIE هو مجرد خطوة أولى في رحلة الذكاء الاصطناعي التوليدي لشركة أبل. ومن غير المحتمل أن يظهر هذا على أي من أجهزة Apple الحالية، ولكن من المحتمل أن يكون بداية لأشياء قادمة.

أضف تعليق