تقنية

يريد منشئ صوت ChatGPT بناء التقنية من “Her”، بدون الواقع المرير

يفكر ألكسيس كونو كثيرًا في فيلم “هي”. على مدى السنوات العديدة الماضية، كان مهووسًا بمحاولة تحويل تقنية الصوت الخيالية للفيلم، سامانثا، إلى حقيقة.

حتى أن كونو يستخدم صورة شخصية خواكين فينيكس في الفيلم كشعار له على تويتر.

لافتة Conneau's X/twitter (حقوق الصورة: X)

مع وضع الصوت المتقدم الخاص بـ ChatGPT، وهو مشروع بدأه Conneau في OpenAI بعد قيامه بعمل مماثل في Meta، قام بذلك نوعًا ما. يعالج نظام الذكاء الاصطناعي الكلام ويرد بشكل أصلي مثل الإنسان.

الآن، لديه شركة ناشئة جديدة، WaveForms AI، التي تحاول بناء شيء أفضل.

يقضي كونو جزءًا كبيرًا من الوقت في التفكير في كيفية تجنب الواقع المرير الذي يظهر في هذا الفيلم، كما قال لـ TechCrunch في مقابلة. كان فيلم “هي” فيلم خيال علمي يدور حول عالم يطور فيه الناس علاقات حميمة مع أنظمة الذكاء الاصطناعي، بدلاً من البشر الآخرين.

“الفيلم عبارة عن ديستوبيا، أليس كذلك؟ قال كونو: “إنه ليس المستقبل الذي نريده”. “نريد جلب هذه التكنولوجيا – الموجودة الآن وستظل موجودة – ونريد جلبها إلى الأبد. نريد أن نفعل بالضبط عكس ما تفعله الشركة في هذا الفيلم.

إن بناء التكنولوجيا، بدون الواقع المرير الذي يأتي معها، يبدو وكأنه تناقض. لكن كونو ينوي بنائه على أي حال، وهو مقتنع بأن شركته الناشئة الجديدة للذكاء الاصطناعي ستساعد الناس على “الشعور بالذكاء الاصطناعي العام” بآذانهم.

في يوم الاثنين، أطلقت Conneau WaveForms AI، وهي شركة جديدة متخصصة في إدارة الصوت (LLM) تقوم بتدريب نماذجها الأساسية. تهدف إلى إطلاق منتجات صوتية تعمل بالذكاء الاصطناعي في عام 2025 تتنافس مع عروض OpenAI وGoogle. أعلنت الشركة الناشئة يوم الاثنين عن جمع 40 مليون دولار من التمويل الأولي، بقيادة أندريسن هورويتز.

يقول كونيو مارك أندريسن – الذي كتب ذلك سابقًا يجب أن يكون الذكاء الاصطناعي جزءًا من كل جانب من جوانب الحياة البشرية – أبدى اهتمامًا شخصيًا بمساعيه.

تجدر الإشارة إلى أن هوس كونو بفيلم “Her” ربما يكون قد أوقع OpenAI في مشكلة في مرحلة ما. أرسلت سكارليت جوهانسون تهديدًا قانونيًا لشركة Sam Altman الناشئة في وقت سابق من هذا العام، مما أجبر OpenAI في النهاية على حذف أحد أصوات ChatGPT الذي يشبه شخصيتها في الفيلم بشدة. أنكرت OpenAI محاولتها تقليد صوتها.

لكن لا يمكن إنكار مدى تأثير الفيلم على كونو. من الواضح أن فيلم “Her” كان خيالًا علميًا عندما تم إصداره في عام 2013 – في ذلك الوقت، كان Siri من Apple جديدًا تمامًا ومحدودًا للغاية. لكن اليوم، تبدو التكنولوجيا في متناول اليد بشكل مخيف.

تصل منصات الذكاء الاصطناعي المرافقة مثل Character.AI إلى ملايين المستخدمين أسبوعيًا الذين يرغبون فقط في التحدث مع روبوتات الدردشة الخاصة بها. يبرز هذا القطاع كحالة استخدام شائعة للذكاء الاصطناعي التوليدي – على الرغم من النتائج المأساوية والمقلقة في بعض الأحيان. يمكنك أن تتخيل كيف سيحب شخص ما يكتب باستخدام برنامج الدردشة الآلي طوال اليوم فرصة التحدث معه أيضًا، خاصة باستخدام التكنولوجيا المقنعة مثل وضع الصوت المتقدم في ChatGPT.

يشعر الرئيس التنفيذي لشركة WaveForms AI بالقلق من مساحة رفقة الذكاء الاصطناعي، وهي ليست جوهر شركته الجديدة. وبينما يعتقد أن الناس سيستخدمون منتجات WaveForms بطرق جديدة – مثل التحدث إلى الذكاء الاصطناعي لمدة 20 دقيقة في السيارة للتعرف على شيء ما – يقول كونيو إنه يريد أن تكون الشركة “أفقية” أكثر.

“[WaveForms AI] قال الرئيس التنفيذي: “يمكن أن يكون ذلك المعلم الذي يلهمك، كما تعلم، ربما ذلك المعلم الذي لن تجده في حياتك، على الأقل في حياتك البدنية”.

وفي المستقبل، يعتقد أن التحدث إلى الذكاء الاصطناعي التوليدي سيكون وسيلة أكثر شيوعًا للتفاعل مع جميع أنواع التكنولوجيا. قد يشمل ذلك التحدث إلى سيارتك والتحدث إلى جهاز الكمبيوتر الخاص بك. تهدف WaveForms إلى توفير الذكاء الاصطناعي “الذكي عاطفيًا” الذي يسهل كل شيء.

وقال كونو: “لا أؤمن بالمستقبل حيث يحل التفاعل بين البشر والذكاء الاصطناعي محل التفاعل بين البشر”. “إذا كان هناك أي شيء، فسيكون مكملاً.”

ويقول إن الذكاء الاصطناعي يمكن أن يتعلم من أخطاء وسائل التواصل الاجتماعي. على سبيل المثال، يعتقد أنه لا ينبغي للذكاء الاصطناعي تحسين “الوقت الذي يقضيه على المنصة”، وهو مقياس شائع لنجاح التطبيقات الاجتماعية التي يمكن أن تروج للعادات غير الصحية، مثل التمرير المستمر. على نطاق أوسع، يريد التأكد من أن الذكاء الاصطناعي الخاص بـ WaveForms يتماشى مع المصالح الفضلى للبشر، واصفًا هذا بأنه “أهم عمل يمكنك القيام به”.

يقول كونو إن اسم OpenAI لمشروعه، “وضع الصوت المتقدم”، لا ينصف حقًا مدى اختلاف التكنولوجيا عن وضع الصوت العادي في ChatGPT.

كان الوضع الصوتي القديم يقوم فقط بترجمة صوتك إلى نص، وتشغيله عبر GPT-4، ثم تحويل هذا النص مرة أخرى إلى كلام. لقد كان حلاً مخترقًا إلى حد ما. ومع ذلك، مع وضع الصوت المتقدم، يقول كونو أن GPT-4o يقوم في الواقع بتقسيم صوت صوتك إلى رموز مميزة (على ما يبدو، كل ثانية من الصوت تساوي تقريبًا ثلاثة رموز مميزة) وتشغيل تلك الرموز المميزة مباشرة من خلال نموذج محول خاص بالصوت . وأوضح أن هذا هو ما يمكّن وضع الصوت المتقدم من الحصول على مثل هذا الكمون المنخفض.

أحد الادعاءات التي يتم طرحها كثيرًا عند الحديث عن النماذج الصوتية للذكاء الاصطناعي هو أنها من المفترض أن “تفهم العواطف”. تمامًا كما تعتمد برامج LLM المستندة إلى النصوص على الأنماط الموجودة في أكوام من المستندات النصية، فإن برامج LLM الصوتية تفعل الشيء نفسه مع المقاطع الصوتية لبشر يتحدثون. يصنف البشر هذه المقاطع على أنها “حزينة” أو “متحمسة” بحيث تتعرف نماذج الذكاء الاصطناعي على أنماط صوتية مماثلة عندما تسمعك تقولها، بل وتستجيب بنغمات عاطفية خاصة بها. لذا فإن الأمر لا يقتصر على “فهمهم للعواطف” بقدر ما يتعرفون بشكل منهجي على الصفات الصوتية التي يربطها البشر بتلك المشاعر.

جعل الذكاء الاصطناعي أكثر أناقة، وليس أكثر ذكاءً

يراهن كونو على أن الذكاء الاصطناعي التوليدي اليوم لا يحتاج إلى أن يصبح أكثر ذكاءً من GPT-4o لإنشاء منتجات أفضل. بدلاً من تحسين الذكاء الأساسي لهذه النماذج، كما هو الحال مع OpenAI مع o1، تحاول WaveForms ببساطة جعل الذكاء الاصطناعي أفضل للتعامل معه.

“سيكون هناك سوق للناس [using generative AI] قال كونو: “من سيختار التفاعل الأكثر إمتاعًا بالنسبة له”.

ولهذا السبب فإن الشركة الناشئة واثقة من قدرتها على تطوير نماذجها الأساسية الخاصة بها، ومن الناحية المثالية، نماذج أصغر ستكون أقل تكلفة وأسرع في التشغيل. وهذا ليس رهانًا سيئًا نظرًا للأدلة الحديثة التي تشير إلى تباطؤ قوانين توسيع نطاق الذكاء الاصطناعي القديمة.

يقول كونو إن زميله السابق في OpenAI، إيليا سوتسكيفر، كثيرًا ما تحدث معه عن محاولة “الشعور بالذكاء الاصطناعي العام” – بشكل أساسي، باستخدام الشعور الغريزي لتقييم ما إذا كنا قد وصلنا إلى الذكاء الاصطناعي الفائق. الرئيس التنفيذي لشركة WaveForms مقتنع بأن تحقيق الذكاء الاصطناعي العام (AGI) سيكون مجرد شعور، بدلاً من الوصول إلى نوع ما من المعايير، وستكون شهادات LLM الصوتية هي المفتاح لهذا الشعور.

“أعتقد أنك ستكون قادرًا على الشعور بالذكاء الاصطناعي العام بشكل أكبر عندما يمكنك التحدث إليه، وعندما يمكنك سماع الذكاء الاصطناعي العام، وعندما يمكنك التحدث فعليًا إلى المحول نفسه”، قال كونو، مكررًا التعليقات التي أدلى بها إلى Sutskever حول عشاء.

ولكن بما أن الشركات الناشئة تعمل على تحسين التعامل مع الذكاء الاصطناعي، فمن الواضح أنها تتحمل أيضًا مسؤولية معرفة كيفية التأكد من عدم إدمان الناس. ومع ذلك، يقول مارتن كاسادو، الشريك العام لأندريسن هورويتز، والذي ساعد في قيادة الاستثمار في WaveForms، إنه ليس بالضرورة أمرًا سيئًا إذا كان الناس يتحدثون إلى الذكاء الاصطناعي في كثير من الأحيان.

“يمكنني التحدث إلى شخص عشوائي عبر الإنترنت، ويمكن لهذا الشخص أن يتنمر علي، ويمكن لهذا الشخص أن يستغلني… يمكنني التحدث إلى لعبة فيديو يمكن أن تكون عنيفة بشكل تعسفي، أو يمكنني التحدث إلى الذكاء الاصطناعي”. قال كاسادو في مقابلة مع TechCrunch. “أعتقد أنها دراسة أسئلة مهمة. لن أتفاجأ إذا تبين ذلك [talking to AI] هو الأفضل في الواقع.”

قد تنظر بعض الشركات إلى قيام شخص ما بتطوير علاقة حب مع الذكاء الاصطناعي الخاص بك كعلامة على النجاح. ولكن من وجهة نظر مجتمعية، يمكن أيضًا اعتبارها علامة على الفشل التام، مثلما حاول فيلم “هي” تصويره. هذا هو الحبل المشدود الذي يتعين على WaveForms الآن السير فيه.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى