يقول ويليام أغنيو ، وهو زميل ما بعد الدكتوراه في أخلاقيات الذكاء الاصطناعي في جامعة كارنيجي ميلون وأحد المشاركين ، هو “أي شيء تضعه على الإنترنت [be] وربما تم كشطه “.
وجد الباحثون الآلاف من مثيلات مستندات الهوية المعتمدة – بما في ذلك الصور لبطاقات الائتمان ، ورخصة السائق ، وجوازات السفر ، وشهادات الميلاد – بالإضافة إلى أكثر من 800 وثائق تطبيقات تم التحقق منها (بما في ذلك السيرة الذاتية ورسائل التغطية) ، والتي تم تأكيدها من خلال LinkedIn وتفتيشات الويب الأخرى على أنها مرتبطة بأشخاص حقيقيين. (في العديد من الحالات ، لم يكن لدى الباحثين الوقت للتحقق من صحة المستندات أو لم يتمكنوا من ذلك بسبب قضايا مثل وضوح الصورة.)
كشف عدد من السيرة الذاتية عن معلومات حساسة بما في ذلك حالة الإعاقة ، ونتائج فحص الخلفية ، وتواريخ الولادة وأماكن المواليد للمعالين ، والعرق. عندما تم ربط السيرة الذاتية بالأشخاص الذين يعانون من وجود بكرات عبر الإنترنت ، وجد الباحثون أيضًا معلومات الاتصال والمعرفات الحكومية والمعلومات الاجتماعية والديموغرافية والمواجهة والعناوين المنزلية ومعلومات الاتصال للأشخاص الآخرين (مثل المراجع).

بإذن من الباحثين
عندما تم إصدارها في عام 2023 ، كانت DataComp CommonPool ، مع عينة بياناتها البالغة 12.8 مليار ، أكبر مجموعة بيانات حالية من أزواج نص الصور المتوفرة للجمهور ، والتي غالبًا ما تستخدم لتدريب نماذج النص إلى الصورة. في حين أن منسقيها قالوا إن CommonPool كان مخصصًا للبحث الأكاديمي ، فإن ترخيصها لا يحظر الاستخدام التجاري أيضًا.
تم إنشاء CommonPool كمتابعة لمجموعة بيانات Laion-5B ، والتي تم استخدامها لتدريب النماذج بما في ذلك الانتشار المستقر و Midjourney. إنه يعتمد على نفس مصدر البيانات: تجريف الويب الذي يتم بواسطة الزحف الشائع غير الربحي بين عامي 2014 و 2022.
على الرغم من أن النماذج التجارية لا تكشف غالبًا عن مجموعات البيانات التي يتم تدريبها عليها ، إلا أن مصادر البيانات المشتركة لـ DataComp CommonPool و Laion-5B تعني أن مجموعات البيانات متشابهة ، وأن نفس المعلومات المحددة التي يمكن التعرف عليها تظهر في LAION-5B ، وكذلك في النماذج الأخرى المدرجة على بيانات شائعة. لم يرد الباحثون المشتركون على الأسئلة عبر البريد الإلكتروني.
ونظرًا لأن DataComp CommonPool قد تم تنزيله أكثر من مليوني مرة على مدار العامين الماضيين ، فمن المحتمل أن “هناك هناك [are]تقول راشيل هونغ ، طالبة الدكتوراه في علوم الكمبيوتر بجامعة واشنطن والمؤلفة الرئيسية للصحيفة ، إن العديد من الطرز الدكتوراه في علوم الكمبيوتر بجامعة واشنطن والمؤلف الرئيسي للصحيفة.
النوايا الحسنة ليست كافية
يقول أبيبا بيرهان ، العالم المعرفي وأخلاقيات التكنولوجيا التي تقود معمل المساءلة في كلية ترينيتي في دبلن في دبلن: “يمكنك أن تفترض أن أي بيانات على نطاق واسع على شبكة الإنترنت تحتوي دائمًا على محتوى لا ينبغي أن يكون هناك”. صور الاعتداء الجنسي على الأطفالأو خطاب الكراهية (أيه بيرهان بحث في Laion-5b قد وجدت).