تعرف على LLaVA: نموذج الوسائط المتعددة اللغوية الكبيرة ومساعد الرؤية الذي يربط بين مشفر الرؤية والفيكونيا للفهم البصري واللغوي للأغراض العامة

الذكاء الاصطناعي


بدأ البشر في التفاعل مع العالم من خلال أفضل ركيزتين هما اللغة والرؤية. ويرجع هذا كله إلى القدرات الفائقة التي تتمتع بها نماذج اللغة الكبيرة (LLMs) التي اكتسبت شعبية كبيرة مؤخرًا. وقد أحدثت نماذج اللغة الكبيرة ضجة كبيرة في العالم بفضل أدائها المتزايد بشكل كبير. فقد بدأت نماذج اللغة الكبيرة مثل GPT-3 وT5 وPaLM وما إلى ذلك في تقليد البشر من خلال تعلم القراءة وتلخيص البيانات النصية وتوليدها.

لقد طور باحثو الذكاء الاصطناعي مساعدًا متعدد الأغراض يمكنه متابعة تعليمات لغة الوسائط المتعددة والرؤية التي تتوافق مع النية البشرية لإكمال المهام في العالم الحقيقي بسهولة. لهذا الغرض، يتم تطوير نماذج رؤية أساسية معززة باللغة في فهم بصري للعالم المفتوح لأداء مهام مثل التصنيف والكشف والتجزئة والتعليق والتوليد المرئي والتحرير. مع إصدار OpenAI’s GPT-4، أثبت نموذج المحول وراء chatbot الشهير، ChatGPT، وقدرات الوسائط المتعددة الخاصة به أنه إضافة جيدة إلى قائمة LLMs.

في ورقة بحثية حديثة، قدم المؤلفون أول محاولة لاستخدام GPT-4 لتوليد بيانات تتبع الصور المتعددة الوسائط وتعليمات اللغة. قدم الفريق LLaVA، المساعد الأول للغة والرؤية، وهو نموذج متعدد الوسائط مدرب من البداية إلى النهاية يربط بين مشفر الرؤية وVicuna للفهم البصري واللغوي للأغراض العامة. Vicuna هو روبوت محادثة مفتوح المصدر يحتوي على 13 مليار معلمة يتم تدريبه عن طريق ضبط LLaMA على المحادثات التي يشارك فيها المستخدم.

🚀 انضم إلى أسرع مجتمع Subreddit لتعلم الآلة

LLaVa هي محاولة لتوسيع نطاق ضبط التعليمات في مجال الوسائط المتعددة. والهدف الرئيسي هو تمكين المستخدمين من إكمال مهامهم في الوقت الفعلي بمساعدة مساعد بصري يمكنه متابعة تعليمات الرؤية ولغة الوسائط المتعددة بشكل فعال والتي تتوافق مع النوايا البشرية. وتتمثل المساهمات المهمة التي قدمها الفريق فيما يلي:

  1. مساعدة الوسائط المتعددة في متابعة البيانات – قدم الفريق منظورًا لإعادة صياغة البيانات وخط أنابيب لتحويل أزواج الصور والنصوص إلى تنسيق مساعدة المتابعة بمساعدة نموذج GPT-4.
  2. نماذج الوسائط المتعددة الكبيرة – قام الفريق بتطوير نموذج الوسائط المتعددة الكبير من خلال ربط برنامج ترميز CLIP المفتوح مع برنامج فك تشفير اللغة LLaMA وضبطه من البداية إلى النهاية على بيانات لغة الرؤية التعليمية الناتجة.
  3. تحاول الدراسة التجريبية التحقق من فعالية البيانات التي ينشئها المستخدم لضبط تعليمات LMM. كما يقترح نصائح عملية لبناء عامل بصري عام الغرض يتبع التعليمات.
  4. تم تحقيق أداء SOTA بمساعدة GPT-4 على مجموعة بيانات منطق الوسائط المتعددة Science QA.
  5. الطبيعة مفتوحة المصدر – المشروع مفتوح المصدر، وبيانات التعليمات المولدة بواسطة الوسائط المتعددة، وقاعدة التعليمات البرمجية لتوليد البيانات وتدريب النموذج، ونقطة تفتيش النموذج، وعروض الدردشة المرئية مفتوحة للجمهور للوصول ويمكن الوصول إليها على https://github.com/haotian-liu/LLaVA .

أظهرت LLaVA قدرات محادثة متعددة الوسائط متميزة وحققت درجة نسبية بلغت 85.1% مقارنة بـ GPT-4 في مجموعة بيانات اصطناعية تتبع تعليمات الوسائط المتعددة. وعند ضبطها على ضمان الجودة العلمي، حقق التآزر بين LLaVA وGPT-4 دقة SOTA جديدة بلغت 92.53%. وتجعل النتائج من LLaVA نهجًا واعدًا ومساهمة كبيرة في نماذج اللغة الصادرة.


مسح ضوئي ورقة بحثية، كود، و مشروع. لا تنسى الانضمام 20 ألف+ملليمتر فرعي على موقع ريديتو قناة ديسكوردو النشرة البريد الإلكترونيحيث نشارك أحدث أخبار أبحاث الذكاء الاصطناعي ومشاريع الذكاء الاصطناعي الرائعة والمزيد. إذا كانت لديك أي أسئلة بخصوص المقال أعلاه أو إذا فاتنا شيء ما، فلا تتردد في مراسلتنا عبر البريد الإلكتروني على عاصف@marktechpost.com

🚀 تعرف على 100 أداة ذكاء اصطناعي في نادي أدوات الذكاء الاصطناعي

تانيا مالهوترا هي طالبة في السنة النهائية من جامعة دراسات البترول والطاقة في دهرادون، وتسعى للحصول على درجة البكالوريوس في هندسة علوم الكمبيوتر مع التخصص في الذكاء الاصطناعي والتعلم الآلي.
تتمتع بشغف كبير بعلم البيانات وتتمتع بالتفكير التحليلي والنقدي الجيد، إلى جانب الاهتمام الشديد باكتساب مهارات جديدة وقيادة المجموعات وإدارة العمل بطريقة منظمة.

Post a Comment

أحدث أقدم