هارفارد وجوجل تطلقان مليون كتاب للملكية العامة كمجموعة بيانات للتدريب على الذكاء الاصطناعي

إن بيانات التدريب على الذكاء الاصطناعي لها ثمن باهظ، وهي الأنسب لشركات التكنولوجيا ذات الأموال الكبيرة. هذا هو السبب في جامعة هارفارد خطط للافراج مجموعة بيانات تتضمن مليون كتاب في المجال العام، تشمل الأنواع واللغات والمؤلفين، بما في ذلك ديكنز ودانتي وشكسبير، والتي لم تعد محمية بحقوق الطبع والنشر بسبب أعمارهم.
مجموعة البيانات الجديدة ليست متاحة بعد، وليس من الواضح متى أو كيف سيتم إصدارها. ومع ذلك، فهو يحتوي على كتب مستمدة من مشروع Google لمسح الكتب ضوئيًا، وهو مشروع Google Books، وبالتالي ستشارك Google في إطلاق “هذا الكنز الدفين على نطاق واسع”.
أثارت جامعة هارفارد لأول مرة مبادرة البيانات المؤسسية (IDI) مرة أخرى في مارس، موضحًا خططها لإنشاء “قناة موثوقة للبيانات القانونية للذكاء الاصطناعي”. ومع ذلك، لم يسمع الكثير منه حتى صدوره الإطلاق الرسمي اليوم، والذي جاء مع التأكيد على أن IDI يتضمن دعمًا ماليًا من Microsoft وOpenAI.
المدير التنفيذي لـ IDI جريج ليبيرت يقول إن مجموعة البيانات مصممة لتحقيق “تكافؤ الفرص” من خلال فتح مجموعة البيانات الضخمة هذه لأي شخص – بدءًا من مختبرات الأبحاث وحتى شركات الذكاء الاصطناعي الناشئة – الذي يرغب في تدريب نماذجه اللغوية الكبيرة (LLMs).