تقنية جديدة من جوجل تعمل على إنشاء مقاطع صوتية لمقاطع الفيديو عن طريق الذكاء الاصطناعي

يعِد أحدث ابتكارات الذكاء الاصطناعي من جوجل بإحداث ثورة في طريقة إنشاء الموسيقى التصويرية لمقاطع الفيديو. ومن خلال الاستفادة من تقنيات التعلم الآلي المتقدمة، يمكن لهذه التقنية المتطورة إنشاء مسارات صوتية مخصصة وذات صلة بسياق مقطع الفيديو، مما يعزز تجربة المشاهدة. من خلال تحليل المحتوى المرئي للفيديو، ينتج نظام الذكاء الاصطناعي موسيقى ومؤثرات صوتية تتماشى بسلاسة مع السرد، مما يوفر مستوى جديدًا من صناعة المحتوى.

يعمل مختبر الذكاء الاصطناعي DeepMind التابع لشركة جوجل على هذه التقنية الجديدة التي يمكنها إنشاء مقاطع صوتية، وحتى حوار، لتتماشى مع مقاطع الفيديو. أعلنت جوجل عن التقدم الذي أحرزته في مشروع تقنية تحويل الفيديو إلى الصوت (V2A)، والذي يمكن إقرانه مع Google Veo وأدوات إنشاء الفيديو الأخرى مثل Sora من OpenAI. يوضح فريق DeepMind أن النظام يمكنه فهم وحدات البكسل الأولية ودمج تلك المعلومات مع المطالبات النصية لإنشاء مؤثرات صوتية لما يحدث على الشاشة. يمكن أيضًا استخدام الأداة لإنشاء مقاطع صوتية للقطات التقليدية، مثل الأفلام الصامتة وأي فيديو آخر بدون صوت.

قام باحثو DeepMind بتدريب التكنولوجيا على مقاطع الفيديو والتسجيلات الصوتية والتعليقات التوضيحية التي تم إنشاؤها بواسطة الذكاء الاصطناعي والتي تحتوي على أوصاف تفصيلية للأصوات ونصوص الحوار. وقالوا إنه من خلال القيام بذلك، تعلمت التكنولوجيا ربط أصوات معينة بالمشاهد المرئية. وكما لاحظ TechCrunch، فإن فريق DeepMind ليس أول من أطلق أداة ذكاء اصطناعي يمكنها إنشاء مؤثرات صوتية – فقد أصدرت ElevenLabs واحدة أيضًا. يقول فريق DeepMind: “يتميز بحثنا عن حلول تحويل الفيديو إلى الصوت الموجودة لأنه يمكنه فهم وحدات البكسل الأولية وإضافة الأوامر النصية هو أمر اختياري”.

على الرغم من أن اضافة أوامر نصية اختياري، إلا أنه يمكن استخدامها لتشكيل المنتج النهائي وتحسينه بحيث يكون دقيقًا وواقعيًا قدر الإمكان. يمكنك إدخال أوامر إيجابية لتوجيه الإخراج نحو إنشاء الأصوات التي تريدها، أو أوامر سلبية لتوجيهه بعيدًا عن الأصوات التي لا تريدها. في العينة في الأسفل، استخدم الفريق أوامر: “فيلم سينمائي، فيلم إثارة، فيلم رعب، موسيقى، توتر، أجواء، صوت خطوات”.

يعترف الباحثون أنهم ما زالوا يحاولون معالجة القيود الحالية لتقنية V2A الخاصة بهم، مثل الانخفاض في جودة الصوت الناتج الذي يمكن أن يحدث إذا كانت هناك تشوهات في الفيديو المصدر. كما أنهم ما زالوا يعملون على تحسين مزامنة الشفاه للحوار الذي تم إنشاؤه. بالإضافة إلى ذلك، تعهدوا بإخضاع التكنولوجيا “لتقييمات واختبارات صارمة للسلامة” قبل إطلاقها للعالم.

أضف تعليق