
تقدم كميات كبيرة من البيانات بما في ذلك مواقع الويب والكتب والمنتديات ومخازن الشفرات ومكتبات الصور ووسائل التواصل الاجتماعي المواد الخام لتدريب النماذج الكبيرة. هذا النهج الآن تحت ضغط من الدعاوى القضائية ومتطلبات الترخيص وشكاوى الخصوصية. مع تزايد المنافسة على توفير البيانات العامة، تبحث الشركات عن مصدر آخر لمواد التدريب. بشكل متزايد، هذا المصدر هو السلوك البشري نفسه.
بينما قد تبدو الذكاء الاصطناعي وكأنها سحر للكثيرين، إلا أنها في الحقيقة نظام كبير للتعرف على الأنماط وتوليدها. سواء كان ذلك في إنشاء الشفرات أو النصوص أو الصور أو الفيديو، فإن قوة الذكاء الاصطناعي تأتي من فهم الأنماط من كميات كبيرة من البيانات ثم ترجمة الطلبات البشرية إلى مخرجات تتطابق أفضل مع تلك الأنماط. ليس من الضروري أن نقول إن هذه الأنظمة تحتاج إلى كميات كبيرة من البيانات.
سلوك الكتابة والنقر تحت المراقبة الآن
تقوم ميتا بتثبيت برامج على أجهزة الكمبيوتر المستخدمة من قبل موظفي الولايات المتحدة لالتقاط حركات الفأرة، وضغطات المفاتيح، والنقرات وبعض لقطات الشاشة، وفقًا لتقرير حديث لوكالة رويترز. وفقًا لوثائق داخلية تمت مراجعتها من قبل رويترز، فإن الهدف هو تدريب أنظمة الذكاء الاصطناعي التي يمكنها فهم كيفية تنقل الناس عبر البرامج وإكمال المهام المكتبية. وقالت ميتا إن البيانات لن تستخدم في تقييم الأداء، بل أنها تريد بناء نماذج يمكنها مراقبة العمل الرقمي والتعلم منه.
يصبع القطاع ينتقل من المخرجات الرقمية للناس إلى التركيز بشكل أكبر على المدخلات وكيفية عمل الناس. يعكس هذا التحول الاتجاه الذي يتحرك فيه سوق الذكاء الاصطناعي. المعركة التجارية القادمة ليست فقط حول إنشاء الشفرات أو النصوص أو الفيديوهات أو الصور. بل هي حول بناء أنظمة يمكنها اتخاذ إجراءات داخل البرامج. تصف وثائق استخدام الكمبيوتر من OpenAI أدوات تسمح للنموذج بفحص لقطات الشاشة وإنتاج إجراءات واجهة. تصف وثائق Anthropic لأداة استخدام الكمبيوتر لكلاود إعدادًا مشابهًا، مبنيًا حول لقطات الشاشة، وإجراءات الفأرة، ومدخلات لوحة المفاتيح، والتنقل في الواجهة. تشير هذه المنتجات إلى عالم حيث يتم الطلب من الذكاء الاصطناعي إكمال المهام، وليس مجرد الرد على الطلبات.
لبناء تلك الأنظمة بشكل جيد، فإن تجميع زتبايت من البيانات المنشورة ليس كافيًا. يحتاج النموذج إلى أمثلة لما يفعله الأشخاص فعليًا على الشاشة. أي قائمة يختارون وأي حقل ينقرون عليه أولاً. أي اختصار على لوحة المفاتيح يستخدمون وأين يتوقفون أو يعيدون المحاولة أو يصححون خطأ. تلك الآثار هي مواد تدريب مفيدة للأنظمة المخصصة لتعمل كعمال مبتدئين داخل الأدوات الرقمية.
خطر الخصوصية
هذا الأسبوع أيضًا، أفادت رويترز أن شركة الذكاء الاصطناعي Clarifai حذفت 3 ملايين صورة لمستخدمي OkCupid ونماذج التعرف على الوجه المدربة عليها بعد التدقيق المرتبط بإجراء FTC ضد OkCupid وMatch Group. وقالت FTC إن OkCupid أعطت وصولًا لطرف ثالث غير مصرح له إلى البيانات الشخصية من ملايين المستخدمين، مما يتعارض مع وعود الخصوصية الخاصة بها. لم تُتهم Clarifai بإساءة التصرف من قبل FTC، ولكن هذه الحادثة تُظهر أن البيانات التي يتم جمعها في مكان ما يمكن أن تصبح بسهولة مواد تدريب في مكان آخر.
الإشارة هنا هي أن مطوري نماذج الذكاء الاصطناعي لا يزالون بحاجة إلى المزيد من مصادر البيانات لتغذية إصدار النموذج التالي الذي يمكن أن يقوم بأشياء أكثر قوة. هذا هو ما يجعل هذه المرحلة الجديدة أكثر حساسية من المناقشات القديمة حول جمع البيانات من الويب العام. منشور على مدونة عامة هو شيء. لكن سجل عادات العمل الخاصة بشخص ما أو صور ملف تعريف المواعدة هو شيء آخر.
تتحول أماكن العمل الآن إلى ساحات تدريب. والسبب في ذلك هو أن بيانات السلوك يصعب خداعها. إنها تظهر كيف يتم استخدام البرمجيات فعليًا في الحياة الواقعية وما يجعل تطبيقًا برمجيًا ما أكثر أو أقل قابلية للاستخدام من آخر. بالانتقال من مجرد إنشاء المخرجات، يمكن أن تنتج هذه النماذج سلوكيات تبدو أكثر إنسانية وتثير مشاعر إنسانية أكثر بناءً على الطريقة التي يتفاعل بها الناس فعليًا.
أي شخص قضى وقتًا داخل شركة كبيرة يعرف أن العمل الحقيقي نادرًا ما يتبع العملية المثالية المبيّنة في عرض المنتج. حيث يبدع الموظفون. يتنقلون بين علامات التبويب، وينسخون القيم إلى جداول البيانات، ويعيدون فتح النماذج، ويستخدمون اختصارات لا تسجلها أي كتيب. تلك العادات فوضوية، لكنها قيمة. إنها توضح أين تفسد سير العمل الرقمي وكيف يتجاوز العمال ذوي الخبرة الاحتكاكات.
هذا يجعل تتبع أداء الموظفين جذابًا لأي شركة تحاول بناء وكلاء ذكاء اصطناعي للعمل المؤسسي. إذا كان من المفترض أن يقوم نموذج بجدولة الاجتماعات، وتحديث سجلات إدارة علاقات العملاء، ومراجعة لوحات المعلومات، وتوجيه الطلبات، أو إكمال المهام الداخلية الأساسية، فهناك قيمة واضحة في مراقبة كيف يقوم الموظفون الماهرون بالفعل بتلك الأمور. أفادت رويترز أن المواد الداخلية لميتا وصفت الجهود كطريقة لتحسين فهم الذكاء الاصطناعي للسلوك البشري على الكمبيوتر، بما في ذلك اختيار القوائم واختصارات لوحة المفاتيح.
نظرًا لأن أصحاب العمل يتحكمون بالفعل في الأجهزة، ومجموعة البرمجيات، وجزء كبير من بيئة السياسة، فإن البيئة المؤسسية توفر مكانًا أكثر ودية لجمع البيانات. بينما تكون العقبات أقل في جمع البيانات هناك مقارنة بالعديد من الإعدادات الاستهلاكية. ومع ذلك، فإن مراقبة العمال كانت دائمًا موضوعًا جدليًا. عندما يرتبط هذا الرصد بتدريب النماذج، تزداد المخاطر.
مكتب مفوض المعلومات في المملكة المتحدة يتبنى بالفعل موقفًا بشأن استخدام مراقبة القوى العاملة لتدريب أنظمة الذكاء الاصطناعي، وقد حذر من أن مراقبة الموظفين يجب أن تكون ضرورية، ومتناسبة، وشفافة، خاصة عندما يجمع أصحاب العمل بيانات مفصلة عن نشاط العمال. أفادت رويترز أن خبراء العمل يرون نهج ميتا كمصدر محتمل للقلق القانوني في أوروبا، حيث تُحدد قوانين حماية البيانات حدودًا أكثر صرامة على المراقبة في مكان العمل. قد تصف الشركة البرنامج كتطوير ذكاء اصطناعي. قد يسأل المنظمون مع ذلك ما إذا كانت عملية الجمع نفسها مفرطة.
بينما قد يرحب العمال بأنظمة الذكاء الاصطناعي الأكثر فعالية وكفاءة، قد يرى الموظفون ذلك كمراقبة متقنعة في شكل ابتكار. لقد كان هناك دائمًا تبادل بين الراحة والأمان، ولكننا الآن نشهد التبادلات بين الراحة والخصوصية. هناك تقارير متزايدة عن قلق الموظفين من برنامج ميتا، بما في ذلك الإحباط من عدم وجود خيار للانسحاب على أجهزة الكمبيوتر المحمولة الخاصة بالشركة.
بينما تستمر شركات الذكاء الاصطناعي في البحث عن كميات أكبر من بيانات تدريبات الذكاء الاصطناعي التفصيلية، السؤال الحقيقي هو أين يرسمون الخط عندما ينتقل هذا البحث من المحتوى العام إلى الآليات الخاصة بالحياة اليومية والعمل. قد ترى الشركات التي ترغب في بناء أنظمة أكثر قدرة هذا كخطوة منطقية تالية. العمال، والمنظمون، والمستهلكون أقل احتمالاً بكثير لرؤية الأمور بهذا الشكل العرضي.
