تقنية

تدعي شركة Cartesia أن الذكاء الاصطناعي الخاص بها فعال بما يكفي للتشغيل في أي مكان تقريبًا

لقد أصبح تطوير الذكاء الاصطناعي وتشغيله مكلفًا بشكل متزايد. تكاليف عمليات الذكاء الاصطناعي في OpenAI يمكن أن تكون كذلك يصل 7 مليارات دولار هذا العام، في حين اقترح الرئيس التنفيذي لشركة Anthropic مؤخرًا هذه النماذج تقدير التكاليف وقد يصل أكثر من 10 مليارات دولار قريبًا.

لذا فإن البحث جارٍ عن طرق لجعل الذكاء الاصطناعي أرخص.

يركز بعض الباحثين على تقنيات تحسين بنيات النماذج الحالية، أي البنية والمكونات التي تجعل النماذج فعالة. ويقوم آخرون بتطوير بنيات جديدة يعتقدون أن لديها فرصة أفضل للتوسع بتكلفة معقولة.

كاران جويل موجود في المعسكر الأخير. في الشركة الناشئة، ساعد في تأسيس شركة، ديكارتيايعمل جويل على ما يسميه نماذج مساحة الحالة (SSMs)، وهي بنية نموذجية أحدث وعالية الكفاءة يمكنها التعامل مع كميات كبيرة من البيانات – النصوص والصور وما إلى ذلك – في وقت واحد.

وقال جويل لـ TechCrunch: “نعتقد أن بنيات النماذج الجديدة ضرورية لبناء نماذج ذكاء اصطناعي مفيدة حقًا”. “إن صناعة الذكاء الاصطناعي هي مساحة تنافسية، تجارية ومفتوحة المصدر على حد سواء، وبناء أفضل نموذج أمر بالغ الأهمية لتحقيق النجاح.”

الجذور الأكاديمية

قبل انضمامه إلى كارتيسيا، كان جويل حاصلًا على درجة الدكتوراه. مرشح في مختبر الذكاء الاصطناعي بجامعة ستانفورد، حيث كان يعمل تحت إشراف عالم الكمبيوتر كريستوفر ري، من بين آخرين. أثناء وجوده في جامعة ستانفورد، التقى جويل بألبرت جو، وهو زميل دكتوراه. المرشح في المختبر، وقام الاثنان برسم الخطوط العريضة لما سيصبح SSM.

حصل جويل في النهاية على وظيفة في شركة Snorkel AI، ثم في شركة Salesforce، بينما أصبح جو أستاذًا مساعدًا في جامعة كارنيجي ميلون. لكن غو وجويل استمرا في دراسة أجهزة SSM، وأطلقا العديد منها محوري أوراق بحثية على الهندسة المعمارية.

في عام 2023، قرر جو وجويل – مع اثنين من أقرانهما السابقين في جامعة ستانفورد، أرجون ديساي، وبراندون يانج – توحيد الجهود لإطلاق مشروع “كارتيسيا” لتسويق أبحاثهما تجاريًا.

الفريق المؤسس لكارتيسيا. من اليسار إلى اليمين: براندون يانغ، كاران جويل، ألبرت جو، وأرجون ديساي. اعتمادات الصورة:ديكارتيا

تقف شركة Cartesia، التي يضم فريقها المؤسس أيضًا Ré، وراء العديد من مشتقات Mamba، والتي ربما تكون SSM الأكثر شعبية اليوم. بدأ جو والأستاذ تري داو من جامعة برينستون مشروع Mamba كمشروع بحثي مفتوح في ديسمبر الماضي، واستمرا في تحسينه من خلال الإصدارات اللاحقة.

تعتمد Cartesia على Mamba بالإضافة إلى تدريب وحدات SSM الخاصة بها. مثل جميع أجهزة SSM، تمنح شركة Cartesia الذكاء الاصطناعي شيئًا يشبه الذاكرة العاملة، مما يجعل النماذج أسرع – وربما أكثر كفاءة – في كيفية اعتمادها على قوة الحوسبة.

SSMs مقابل المحولات

معظم تطبيقات الذكاء الاصطناعي اليوم، من ChatGPT إلى Sora، مدعومة بنماذج ذات بنية محولات. عندما يقوم المحول بمعالجة البيانات، فإنه يضيف إدخالات إلى شيء يسمى “الحالة المخفية” “لتذكر” ما قام بمعالجته. على سبيل المثال، إذا كان النموذج يشق طريقه عبر كتاب، فقد تكون قيم الحالة المخفية عبارة عن تمثيلات للكلمات الموجودة في الكتاب.

تعد الحالة المخفية جزءًا من سبب قوة المحولات. ولكنه أيضًا سبب عدم كفاءتهم. “لقول” حتى كلمة واحدة عن كتاب استوعبه المحول للتو، يجب على النموذج أن يقوم بمسح حالته المخفية بالكامل – وهي مهمة تتطلب حسابيًا مثل إعادة قراءة الكتاب بأكمله.

في المقابل، تقوم أجهزة SSM بضغط كل نقطة بيانات سابقة في نوع من الملخص لكل ما رأوه من قبل. ومع تدفق البيانات الجديدة، يتم تحديث “حالة” النموذج، ويتجاهل SSM معظم البيانات السابقة.

النتيجة؟ يمكن لوحدات SSM التعامل مع كميات كبيرة من البيانات بينما تتفوق على المحولات في بعض مهام توليد البيانات. مع تكاليف الاستدلال السير على ما هم عليه، هذا عرض جذاب بالفعل.

المخاوف الأخلاقية

تعمل شركة Cartesia كمختبر أبحاث مجتمعي، حيث تقوم بتطوير أجهزة SSM في شراكة مع المنظمات الخارجية وكذلك الداخلية. Sonic، أحدث مشروع للشركة، هو جهاز SSM يمكنه استنساخ صوت الشخص أو إنشاء صوت جديد وضبط النغمة والإيقاع في التسجيل.

يدعي Goel أن Sonic، المتوفر من خلال واجهة برمجة التطبيقات (API) ولوحة تحكم الويب، هو النموذج الأسرع في فئته. وقال: “إن Sonic عبارة عن عرض لكيفية تفوق أجهزة SSM في البيانات ذات السياق الطويل، مثل الصوت، مع الحفاظ على أعلى شريط أداء عندما يتعلق الأمر بالاستقرار والدقة”.

يستطيع نموذج Cartesia's Sonic تخصيص الكلام بدرجة معقولة، بما في ذلك PROSODY. اعتمادات الصورة:ديكارتيا

على الرغم من أن شركة Cartesia تمكنت من شحن المنتجات بسرعة، إلا أنها تعثرت في العديد من المخاطر الأخلاقية نفسها التي ابتليت بها صانعي نماذج الذكاء الاصطناعي الآخرين.

ديكارتيا تدريب على الأقل بعض أجهزة SSM الخاصة بها على The Pile، وهي مجموعة بيانات مفتوحة معروفة بأنها تحتوي على كتب غير مرخصة محمية بحقوق الطبع والنشر. تجادل العديد من شركات الذكاء الاصطناعي بذلك الاستخدام العادل العقيدة تحميهم من دعاوى الانتهاك. لكن هذا لم يمنع المؤلفين من رفع دعوى قضائية ميتا ومايكروسوفت، بالإضافة إلى آخرين، بزعم تدريب النماذج على The Pile.

ولدى Cartesia القليل من الضمانات الواضحة لمستنسخ الصوت الذي يعمل بالطاقة الصوتية. قبل بضعة أسابيع، تمكنت من إنشاء نسخة من صوت نائبة الرئيس السابقة كامالا هاريس باستخدام خطابات الحملة الانتخابية (استمع أدناه). تتطلب أداة Cartesia فقط تحديد مربع يشير إلى أنك ستلتزم بشروط الخدمة الخاصة ببدء التشغيل.

ليس بالضرورة أن تكون Cartesia أسوأ في هذا الصدد من أدوات استنساخ الصوت الأخرى الموجودة في السوق. مع وجود تقارير عن استنساخ صوت الضرب الشيكات الأمنية المصرفيةومع ذلك، فإن البصريات ليست مذهلة.

لن يقول جويل أن كارتيسيا لم تعد تدرب العارضات على The Pile. لكنه تناول مشكلات الإشراف، حيث أخبر موقع TechCrunch أن Cartesia لديه أنظمة “مراجعة آلية ويدوية” مطبقة، ويعمل “على أنظمة للتحقق الصوتي والعلامة المائية”.

وقال جويل: “لقد خصصنا فرقًا لاختبار جوانب مثل الأداء الفني وسوء الاستخدام والتحيز”. “نحن أيضًا نقيم شراكات مع مدققين خارجيين لتوفير تحقق مستقل إضافي من سلامة وموثوقية نماذجنا… ونحن ندرك أن هذه عملية مستمرة تتطلب تحسينًا مستمرًا.”

الأعمال الناشئة

يقول جويل إن “المئات” من العملاء يدفعون مقابل الوصول إلى Sonic API، وهو خط الإيرادات الأساسي لشركة Cartesia، بما في ذلك تطبيق الاتصال الآلي Goodcall. واجهة برمجة تطبيقات Cartesia مجانية لما يصل إلى 100000 حرف للقراءة بصوت عالٍ، وتبلغ تكلفة الخطة الأغلى 299 دولارًا شهريًا لـ 8 ملايين حرف. (تقدم Cartesia أيضًا طبقة مؤسسية مع دعم مخصص وحدود مخصصة.)

بشكل افتراضي، تستخدم شركة كارتيسيا بيانات العملاء لتدريب نماذجها – وهي سياسة لم يسمع بها من قبل، ولكن من غير المرجح أن تلقى استحسان المستخدمين المهتمين بالخصوصية. يشير Goal إلى أنه يمكن للمستخدمين إلغاء الاشتراك إذا رغبوا في ذلك، وأن Cartesia تقدم سياسات احتفاظ مخصصة للمؤسسات الأكبر حجمًا.

لا يبدو أن ممارسات البيانات التي تتبعها Cartesia تضر بالأعمال التجارية، على الأقل ليس بينما تتمتع Cartesia بميزة تقنية. يقول بوب سمرز، الرئيس التنفيذي لشركة Goodcall، إنه اختار Sonic لأنه كان النموذج الوحيد لتوليد الصوت الذي يمتلك صوتًا كمون أقل من 90 مللي ثانية.

“[It] وأضاف سامرز: “لقد تفوقت على أفضل بديل تالي لها بمعامل أربعة”.

تعتمد خدمة “وكيل” الذكاء الاصطناعي الخاصة بـ Goodcall على واجهة برمجة التطبيقات Sonic API الخاصة بـ Cartesia. اعتمادات الصورة:جودكال

اليوم، يتم استخدام Sonic للألعاب والدبلجة الصوتية والمزيد. لكن جويل يعتقد أن هذا مجرد خدش سطحي لما يمكن أن تفعله أجهزة SSM.

تتمثل رؤيته في النماذج التي تعمل على أي جهاز وتفهم وتولد أي طريقة للبيانات – النصوص والصور ومقاطع الفيديو وما إلى ذلك – على الفور تقريبًا. وفي خطوة صغيرة نحو ذلك، أطلقت Cartesia هذا الصيف نسخة تجريبية من Sonic On-Device، وهي نسخة من Sonic محسنة للتشغيل على الهواتف والأجهزة المحمولة الأخرى لتطبيقات مثل الترجمة في الوقت الفعلي.

إلى جانب Sonic On-Device، نشرت Cartesia مكتبة Edge، وهي مكتبة برامج لتحسين أجهزة SSM لتكوينات الأجهزة المختلفة، و رينيه، نموذج لغة مدمج.

وقال جويل: “لدينا رؤية كبيرة وطويلة المدى لنصبح النموذج الأساسي متعدد الوسائط لكل جهاز”. “تتضمن خريطة الطريق طويلة المدى لدينا تطوير نماذج الذكاء الاصطناعي متعددة الوسائط، بهدف إنشاء معلومات استخباراتية في الوقت الفعلي يمكنها التفكير في سياقات ضخمة.”

إذا حدث ذلك، فسيتعين على شركة Cartesia إقناع العملاء الجدد المحتملين بأن تصميمها المعماري يستحق المعاناة من منحنى التعلم. سيتعين عليها أيضًا أن تظل في صدارة البائعين الآخرين الذين يقومون بتجربة بدائل المحولات.

الشركات الناشئة زيفيرا, ميسترال، وقامت AI21 Labs بتدريب نماذج هجينة تعتمد على مامبا. وفي مكان آخر، تعمل شركة Liquid AI، بقيادة نجمة الروبوتات دانييلا روس، على تطوير بنيتها الخاصة.

يؤكد جويل أن شركة كارتيسيا المكونة من 26 موظفًا في وضع يسمح لها بالنجاح، ويرجع الفضل في ذلك جزئيًا إلى ضخ الأموال الجديدة. أغلقت الشركة هذا الشهر جولة تمويل بقيمة 22 مليون دولار بقيادة Index Ventures، ليصل إجمالي تمويل Cartesia إلى 27 مليون دولار.

يرى شاردول شاه، الشريك في شركة Index Ventures، أن تكنولوجيا Cartesia ستقود يومًا ما تطبيقات خدمة العملاء والمبيعات والتسويق والروبوتات والأمن والمزيد.

وقال: “من خلال تحدي الاعتماد التقليدي على البنى القائمة على المحولات، فتحت Cartesia طرقًا جديدة لبناء تطبيقات الذكاء الاصطناعي في الوقت الفعلي وفعالة من حيث التكلفة وقابلة للتطوير”. “يتطلب السوق نماذج أسرع وأكثر كفاءة يمكن تشغيلها في أي مكان – من مراكز البيانات إلى الأجهزة. إن تقنية Cartesia في وضع فريد للوفاء بهذا الوعد ودفع الموجة التالية من ابتكارات الذكاء الاصطناعي.

كما شاركت A* Capital وConviction و General Catalyst وLightspeed وSV Angel في جولة التمويل الأخيرة لشركة Cartesia ومقرها سان فرانسيسكو.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى