كلية الهندسة الخوارزمي تناقش رسالة ماجستير بعنوان (فصل مصدر الصوت بناءا" علئ نماذج الشبكة العصيية العميقة المقترحة)

نوقشت رسالة الماجستير للطالبة (رسل عامر براك) من قسم هندسة المعلومات والاتصالات يوم الخميس الموافق ٢٠٢٢/٤/١٤في قاعة مناقشات الدراسات العليا المركزية في الكلية ٠ وكانت اللجنة برئاسة (ا. م. د. ضياء جاسم كاظم) من كلية الهندسة جامعة بغداد وعضوية (ا. م. دعمار داود جاسم) من كلية الهندسة جامعة النهرين و(م. د. علي حسين حمد) من كلية الهندسة الخوارزمي واشراف (أ. م. د. احمد ستار هادي) رئيس قسم هندسة المعلومات والاتصالات من كلية الهندسة الخوارزمي استمعت اللجنة الئ الطالبة والتي حصلت علئ درجة جيد جدا لرسالتها الموسومة التي كانت الخلاصة منها
يعد فصل مصدر الصوت (ASS) مشكلة صعبة نظرًا لوجود نقص في الآلات التي تتصرف مثل الإنسان في التمييز بين العديد من مصادر الصوت في بيئتها والاستماع إلى القليل منها فقط. لذلك لا تزال مشكلة مثيرة للاهتمام يجب معالجتها. تم استخدام هذه الأنظمة في تطبيقات مختلفة ، بما في ذلك التعرف التلقائي على الكلام ، وخاصة في بيئة صاخبة. علاوة على ذلك ، يكون الأمر أكثر تعقيدًا عند التفكير في قناة واحدة (فصل مصدر أحادي الصوت) بدلاً من قناتين.
الهدف من هذه الأطروحة هو تصميم نظام يعتمد على الشبكات العصبية العميقة ( (DNNsلفصل المصادر الفردية لمزيج الصوت. سيتم الفصل على أساس نموذجين مقترحين ؛ النموذج الأول المقترح هو شبكة عصبية متكررة ذات بوابة متكررة ( (GRU-RNNلتقدير المصادر. النموذج الثاني المقترح هو نموذج التعلم العميق الهجين الذي يتكون من ثلاثة أنواع من الشبكات العصبية ؛ الشبكات العصبية الالتفافية ((CNN والشبكات العصبية الكثيفة ( (DNNوالشبكات العصبية المتكررة .(RNN) أخيرًا ، تم تدريب كلا النموذجين بشكل مشترك باستخدام قناع التردد الزمني الناعم (soft time-frequency mask). علاوة على ذلك ، تمت معالجة تأثير العديد من المعلمات الفائقة مثل قيمة معدل التعلم وخوارزمية التحسين وعدد التكرارات على أداء الفصل للنموذجين المقترحين.
يتم قياس أداء الخوارزميات المقترحة (GRU-RNN ونماذج التعلم العميق الهجين) باستخدام GNSDR التي تقيس جودة الصوت الإجمالية لفصل المصدر حيث تجمع بين GSIR و GSAR في قياس واحد. هذه المؤشرات الثلاثة هي الأكثر استخدامًا لتقييم أداء فصل مصدر الصوت (ASS) لديهم علاقة قوية مع الإدراك البشري. يتم تمثيل قمع إشارات التداخل بواسطة SIR ، بينما يشير SAR إلى قدرة خوارزمية الفصل على قمع أي ضوضاء مضافة ، ويشير SDR إلى أداء الفصل الكلي الذي يعد المؤشر القياسي الأكثر أهمية.
تم تقييم النماذج المقترحة باستخدام مجموعة بيانات MIR-1K وأثبتت النتائج أن نموذج التعلم العميق الهجين المقترح يُظهر أداءً فائقًا مقارنة بنموذج GRU-RNN والدراسات السابقة.