توصل تحقيق جديد أجرته Proof News إلى أن بعض أكبر شركات التكنولوجيا في العالم قامت بتدريب نماذج الذكاء الاصطناعي الخاصة بها على مجموعة بيانات تضمنت نصوصًا لأكثر من 173000 مقطع فيديو على يوتيوب دون إذن.
وتحتوي مجموعة البيانات، التي أنشأتها شركة غير ربحية تدعى EleutherAI، على نسخ من مقاطع فيديو يوتيوب من أكثر من 48000 قناة واستخدمتها Apple وNVIDIA وAnthropic من بين شركات أخرى، وتسلط نتائج التحقيق الضوء على الحقيقة غير المريحة للذكاء الاصطناعي: وهي أن التكنولوجيا مبنية إلى حد كبير على ظهور البيانات التي تم سحبها من المبدعين دون موافقتهم أو تعويضهم.
ولا تتضمن مجموعة البيانات أي مقاطع فيديو أو صور من يوتيوب، ولكنها تحتوي على نصوص فيديو من أكبر منشئي المنصة بما في ذلك Marques Brownlee وMrBeast، بالإضافة إلى ناشري الأخبار الكبار مثل The New York Times، وBBC، وABC News، وتعد الترجمات من مقاطع الفيديو التابعة لشركة Engadget أيضًا جزءًا من مجموعة البيانات.
وقد حصلت شركة Apple على بيانات الذكاء الاصطناعي الخاصة بها من العديد من الشركات،” وفقا لما نشره براونلي على موقع X، وأضاف: “قامت إحداها بجمع الكثير من البيانات والنصوص من مقاطع الفيديو على يوتيوب، بما في ذلك مقاطع الفيديو الخاصة بي ، وستكون هذه مشكلة متطورة لفترة طويلة.”
وصرح متحدث باسم جوجل لموقع Engadget أن التعليقات السابقة التي أدلى بها الرئيس التنفيذي لشركة YouTube، نيل موهان، والتي قال فيها إن الشركات التي تستخدم بيانات YouTube لتدريب نماذج الذكاء الاصطناعي ستنتهك شروط وخدمة المنصة لا تزال قائمة ، ولم تستجب شركات Apple وNVIDIA وAnthropic وEleutherAI لطلب التعليق من Engadget.
وحتى الآن، لم تكن شركات الذكاء الاصطناعي شفافة بشأن البيانات المستخدمة لتدريب نماذجها. وفي وقت سابق من هذا الشهر، انتقد الفنانون والمصورون شركة آبل لفشلها في الكشف عن مصدر بيانات التدريب الخاصة بشركة Apple Intelligence، وهي الشركة التي تدور حول الذكاء الاصطناعي التوليدي القادم إلى ملايين أجهزة Apple هذا العام.
ويعد موقع YouTube، وهو أكبر مستودع لمقاطع الفيديو في العالم، على وجه الخصوص، منجم ذهب ليس فقط للنصوص ولكن أيضًا للصوت والفيديو والصور، مما يجعله مجموعة بيانات جذابة لتدريب نماذج الذكاء الاصطناعي.
في وقت سابق من هذا العام، تهربت ميرا موراتي، كبيرة مسؤولي التكنولوجيا في OpenAI، من أسئلة صحيفة وول ستريت جورنال حول ما إذا كانت الشركة تستخدم مقاطع فيديو YouTube لتدريب Sora، أداة إنشاء الفيديو المرتقبة باستخدام الذكاء الاصطناعي في OpenAI.
وقال موراتي في ذلك الوقت: “لن أخوض في تفاصيل البيانات التي تم استخدامها، لكنها كانت متاحة للعامة أو بيانات مرخصة، وقال الرئيس التنفيذي لشركة Alphabet، ساندر بيتشاي، أيضًا إن الشركات التي تستخدم البيانات من يوتيوب لتدريب نماذج الذكاء الاصطناعي الخاصة بها ستنتهك شروط خدمة النظام الأساسي.