الأصوات المستنسخة بالذكاء الاصطناعي تفتقد دفء المشاعر
يستخدم منشئو المحتوى عدداً لا يحصى من أصوات المشاهير باللجوء إلى الذكاء الاصطناعي لاستحداث منشورات على وسائل التواصل الاجتماعي
يعتبر استنساخ الصوت باستخدام الذكاء الاصطناعي من بين أدوات عدة اكتسبت شهرة كبيرة خلال الأعوام الأخيرة، فإلى جانب نماذج اللغة وتوليد الصور، أصبحت أجهزة استنساخ الصوت باستخدام الذكاء الاصطناعي شائعة بين الشركات والأفراد على حد سواء، إذ تفتح باباً على إنشاء محتوى مبسط مع الحفاظ على المشاركة البشرية، إضافة إلى كلفتها التي تعتبر قليلة في مواجهة موازنة معينة تصرف لممثلي الصوت المحترفين.
وعليه يستخدم منشئو المحتوى عدداً لا يحصى من أصوات المشاهير باللجوء إلى الذكاء الاصطناعي لاستحداث منشورات على وسائل التواصل الاجتماعي، كما تروي النسخ الصوتية من الذكاء الاصطناعي كتباً صوتية كاملة، إضافة إلى دبلجة مقاطع الفيديو وإنشاء التعليقات الصوتية وتكوين روبوتات الدردشة وإيجاد مساعدين صوتيين متخصصين، وصولاً إلى عالم البودكاست باعتماده الأول على الصوت.
تنظيف التسجيل الصوتي من الكلام البشري عن طريق إزالة التوقفات المحرجة والكلمات الزائدة (بيكسلز)
نسخة رقمية
تستخدم عملية استنساخ الصوت بالذكاء الاصطناعي خوارزميات التعلم الآلي لإنشاء نسخة رقمية من صوت بشري، وبمجرد الانتهاء من العملية يستطيع المستخدم الاستماع إلى صوته أو أي صوت آخر استنسخه بنسخة واقعية من الصوت الأصلي، وتستعمل الأنظمة التقليدية لتحويل النص إلى كلام، أصوات اصطناعية تولدها بالكامل بواسطة الكمبيوتر لتبدو قريبة من صوت الإنسان، ولكن الفرق مع استنساخ الصوت هو أنه سيستمع إلى ما قد يبدو عليه صوت الشخص الأصلي في الحياة الواقعية، وتخضع هذه العملية للتطوير بصورة مستمرة، ولكنها قادرة بالفعل على الخروج بنتائج دقيقة للغاية.
لقد أصبحت آذاننا على دراية بالكلام الناتج من الكمبيوتر، فالأصوات الاصطناعية تقوم بدور الـ"دي جي" DJ وتردّ على مكالماتك الهاتفية. واستنسخ خبراء التكنولوجيا أصوات المشاهير الأحياء والأموات وأعادوا بناء أصوات أولئك الذين فقدوا قدرتهم على الكلام بسبب المرض. وفي يوم من الأيام، ستتمكن أدوات الكلام التي تعمل بالذكاء الاصطناعي من استعادة أصوات أقاربنا المتوفين.
تعمل شركات الذكاء الاصطناعي على تعزيز إنسانية استنساخاتها (بيكسلز)
إثبات وجود
واليوم مع الاستماع إلى بودكاست بصوت الذكاء الاصطناعي، سيلاحظ أن هناك شيئاً غريباً، إذ سيبدو صوت المستضيف المعروف مختلفاً بعض الشيء، وستكون الجمل متكلفة أو قد تكون لبعض الكلمات نبرة غريبة، وعليه سيتساءل المستمع هل هذا هو المستضيف الذي يتحدث بالفعل أم تم استنساخ صوته بواسطة الذكاء الاصطناعي؟.
فعندما يتعلق الأمر بإنتاج البث الصوتي، أثبتت الآلات قدرتها على تقديم يد المساعدة في غرفة التحرير مثل Descript التي قدمت ميزات التعلم الآلي التي تعمل على تنظيف التسجيل الصوتي من الكلام البشري عن طريق إزالة التوقفات المحرجة والكلمات الزائدة مثل "أممم".
وفي الآونة الأخيرة ظهرت خيارات أكثر للتعامل مع الجزء الأكثر تعقيداً في إنتاج البودكاست وهو التحدث، فقدمت Descript ميزة تسمى Overdub التي تخلق صوتاً افتراضياً يمكن استخدامه في تحرير الإنتاج، فإذا أخطأ المستضيف في نطق اسم شخص ما أو أخطأ في تاريخ يمكن للمنتج تكليف الروبوت نطق الاسم بصورة صحيحة ثم إضافة التعديل.
أدوات حديثة
وتذهب الأدوات الأحدث إلى أبعد من ذلك، ففي يناير (كانون الثاني) 2023، أطلقت شركة Podcastle وهي شركة ناشئة تقدم مجموعة من برامج البث الصوتي، أداة استنساخ صوتية تعمل بالذكاء الاصطناعي تسمى Revoice يمكنها إنشاء محاكاة رقمية لمستضيف بشري. وتعتبر الشركة وسيلة للمنتجين لإنشاء أي جانب من جوانب الإنتاج الصوتي، من قراءات الإعلانات إلى التعليقات الصوتية إلى الكتب الصوتية، بمجرد كتابة الكلمات التي يريدون أن يقولها الإصدار الافتراضي للمستضيف.
وبينما يمكن لبعض خدمات الذكاء الاصطناعي محاكاة الأصوات من خلال دراسة مقاطع صوتية للشخص الذي يتحدث، فإن Podcastle تطلب من المستخدمين قراءة نص يتكون من نحو 70 عبارة تم اختيارها لالتقاط مجموعة متنوعة من حركات الفم والصوتيات، تستغرق العملية من 30 إلى 45 دقيقة، اعتماداً على مدى حرص منشئ المحتوى على الحصول على التنغيمات الصحيحة.
آلة حديثة مقابل آلاف السنوات من التطور
يقول الرئيس التنفيذي لشركة Podcastleأرتافازد يريتسيان عن النسخة الصوتية، "الهدف أن تكون النسخة الصوتية قريبة جداً من الصوت الأصلي، وهي ليست عملية تجميل أو تحسين صوت أكثر مما هو عليه، ولكنها عملية دقيقة في كيفية نطق الكلمات"، مما اعتبره كثيرون هدفاً نبيلاً للشركة، لكن الذكاء الاصطناعي الصوتي لا يبدو دائماً بنفس نغمة الصوت البشري الحقيقي، إذ تبدو النغمة فيها سمات مثل الرتابة والآليّة، مع تلعثم غريب وتفاصيل اصطناعية في كل مكان.
وعن هذا يقول فيجاي بالاسوبرامانيان، الرئيس التنفيذي لشركة Pindrop التي تحلل الأصوات في المكالمات الصوتية والهاتفية لمنع الاحتيال، إن هذه العيوب في الإيقاع والانعطاف أمر لا مفر منه، ويتابع أن "صوتك هو شيء تم تطويره على مدى 10 آلاف عام من التطور، لذا فقد طورت أشياء معينة يصعب جداً على الآلات تقليدها".
وبينما تعمل شركات الذكاء الاصطناعي على تعزيز إنسانية استنساخاتها، يقول الرئيس التنفيذي لشركة ElevenLabsماتي ستانيسزوسكي إن نماذجها مدربة على تفسير سياق اللغة التي تريد أن يتحدث بها الصوت، وبناءً على كيفية كتابة الجملة يمكن للنموذج بعد ذلك التلاعب بنبرة الصوت ووتيرته الناتجة لتقريب نبرة أكثر إنسانية، فيمكن أن يمنحه ذلك شعوراً أكثر واقعية، ولكنه قد يؤدي أيضاً إلى زيادة الفوضى.
يحتوي هذا القسم على المقلات ذات صلة, الموضوعة في (Related Nodes field)
مستقبل البث الصوتي
وفي حين أن التقدم في هذه التكنولوجيا مثير للدهشة والإعجاب، إلا أن مولدات الصوت بالذكاء الاصطناعي ليست جاهزة للسيطرة على عالم البث الصوتي بعد.
ففي جوهره يدور البث الصوتي حول التواصل الإنساني ورواية القصص والفروق الدقيقة في المشاعر التي لا يمكن (حتى الآن) نقلها إلا من خلال صوت حقيقي، فهو يتعلق بالتقلبات الطفيفة والضحك العفوي والتوقفات المليئة بالترقب والعاطفة الحقيقية التي يتردد صداها لدى المستمعين على المستوى الشخصي.
قد تتمكن الأصوات التي يتم إنشاؤها بواسطة الذكاء الاصطناعي من محاكاة أنماط الكلام البشري، لكنها لا تستطيع تكرار المشاعر الخام أو التجارب الشخصية أو وجهات النظر الفريدة التي يجلبها مقدمو البرامج الصوتية الفردية إلى الطاولة، إذ ينجذب كثير من المستمعين إلى الشخصيات خلف الميكروفون وسيشعرون غالباً بأنهم على اتصال بالستمضيف.
وعلاوة على ذلك يرى الخبراء أنه على رغم قدرة الذكاء الاصطناعي على إنتاج المحتوى، فإنه لا يتمتع بالدافع الفطري لخلق شيء مقنع، فالبودكاست أكثر من مجرد محتوى، إنه يعكس نظرة المبدع إلى العالم وتجاربه وعواطفه، وهذا شيء لا يمكن لأي ذكاء اصطناعي أن يحاكيه مهما بلغت التكنولوجيا من تقدم.