• تطلق هيئة دبي الرقمية ولجنة البيانات والذكاء الاصطناعي إطار عمل تطبيقي للبيانات الاصطناعية 
  • هذا الإطار مدعوم باختبار للبيانات الاصطناعية لتجربة البيانات الاصطناعية والتحقق من امانها 
  • تقرير بحثي يتناول إدارة البيانات وعلومها من ناحية البيانات الاصطناعية باعتبارها أساس مهم في رقمنة الاقتصاد

يظهر التحدي في العمل على البيانات في إمكانية استخراج أنماط ورؤى مع الحفاظ على سريتها وأمانها، حيث لا تسمح حوكمة وأخلاقيات البيانات بكشف تفاصيلها للجميع، إلا أن الأهمية الحقيقية للبيانات تُدرك عبر مشاركتها، فكلما كانت البيانات متاحة على نطاق واسع أمام المؤسسات وأصحاب الأعمال كانت فرص تحقيق المنافع الاجتماعية والتجارية أكبر.

 

تهدف دبي الرقمية إلى السماح بأكبر قدر ممكن من مشاركة البيانات عالية الجودة – بما يساعد على تحفيز حلول جديدة للتحديات العامة وتوفير خدمات حكومية أفضل وتعزيز عناصر الاقتصاد الرقمي المبنية بشكل كبير على البيانات (مثل الذكاء الاصطناعي).

 

وتعتبر منصة "دبي بالس" هي بوابة البيانات لإمارة دبي، فهي تحتوي على  مجموعة متنوعة من البيانات التي من شأنها تحقيق الهدف المذكور أعلاه. لكن ولسبب مهم، تعتبر العديد من البيانات حساسة، وقد تكون سرية. في المقابل، فإن الاستخدام الخاطئ  للبيانات قد يسبب الضرر للأفراد أو حتى للبنية التحتية للمدينة. ونظراً لحساسية البيانات، وضعنا في سلم الأولويات مهمة إنشاء ضوابط لضمان عدم تسريب البيانات أو استخدامها بشكل خاطئ.

 

فعلى سبيل المثال، نحن نتبع نظاماً إدارياً صارماً للوصول إلى البيانات، حيث لا يستطيع حتى صُناع القرار الحكوميون الوصول إلى البيانات الفردية ما لم يكن لديهم صلاحيات محددة للغاية، حتى في عملية اختبار مجموعات البيانات للتأكد من اكتمالها وضبط جودتها، تعتمد فرقنا في دبي الرقمية على النصوص الآلية دون التمكن فعليًا من الوصول إلى التفاصيل الفردية الحساسة.

 

فيما مضى، تم التوصل إلى حل يسمح بالمحافظة على سرية البيانات مع إمكانية توظيفها، وهو تقنية "إخفاء الهوية". وذلك يعني إمكانية معالجة البيانات الشخصية بطريقة تمنع الاطلاع على بيانات الافراد. يمكن تجميع البيانات أو تحويلها إلى إحصائيات. ووفقاً للمكتب الفنلندي لحماية البيانات "يجب أن تكون عملية إخفاء الهوية إجراء دائم بحيث يستحيل على صاحب الصلاحية أو أي طرف ثالث تحويل البيانات إلى نموذج يمكن من خلاله الاطلاع على المعلومات الواردة فيه".[1]

لكن لا تخلو عملية إخفاء الهوية من الصعوبات، ففي العادة يجب أن توضع حلول إخفاء هوية البيانات وفقاً لكل حالة بشكل منفرد، الأمر الذي يتطلب موارد مالية كبيرة. وحين يضمن جمع مجموعات البيانات عامل الخصوصية، فإن تقنية إخفاء الهوية وبحكم آلية التعريف تمنع التحليل على مستوى الأفراد والمجموعات الصغيرة. هناك أيضًا مخاطرة في إمكانية إعادة بناء البيانات مجهولة المصدر إلى الأفراد مما يعني أن ضوابط الوصول الصارمة يجب أن تظل في مكانها في كثير من الأحيان.

ركّزنا في دبي الرقمية في عملنا على تحسين مشاركة البيانات بناء على عدد من التصورات، الأولى هي إتاحة مجموعة بيانات كبيرة وتفصيلية أمر مهم جداً لتعزيز آليات تعلم الآلة والتحليل، الأمر الذي يفتح أفق الابتكار والتطوير في الاقتصاد الرقمي. ثانياً، أن العديد من الاستخدامات لا تتطلب البيانات الفعلية لأسماء وتفاصيل الأفراد، في حين أن ما يهم فعلاً هو أن تبقى العلاقات الإحصائية بين المتغيرات -أي منظومة البيانات - صحيحة قدر الإمكان.

هذه التصورات قادتنا إلى اكتشاف طريقة جديدة لإخفاء الهوية وهي البيانات الاصطناعية، ويمكن تعريفها باختصار بأنها بيانات يتم تصنيعها للمحافظة على الخواص الإحصائية لمجموعات البيانات الأصلية دون نسخ أو استخدام أي تفصيلات أو معلومات متعلقة بالأفراد.

 يتم إنشاء البيانات الاصطناعية بشكل مصطنع ولكنها واقعية فهي تحافظ على بنية المعلومات الأصلية ولكنها لا تستخدم أي شيء آخر من مجموعة البيانات الأصلية. وتكمن الفائدة من هذه البيانات أنه يمكن استخدامها لأغراض التحليل ووضع النماذج.[2]

 

ولمعرفة الفوائد المحتملة للبيانات الاصطناعية، تعاونا مع خبراء من شركة "فاكلتي" – إحدى أهم شركات أوروبا المتخصصة في الذكاء الاصطناعي والتعلم الآلي - لإجراء بحث وتجربة مشتركة بعنوان "إطلاق العنان لقوة البيانات من خلال البيانات الاصطناعية الخاصة"، والتي يمكن الوصول إليها هنا .

يتم إنشاء المعيار الذهبي للبيانات الاصطناعية الخاصة من خلال إطار رياضي يسمى الخصوصية التفاضلية وتم استخدام هذا النوع من البيانات من قبل هيئة الإحصاء الأمريكية، والخدمة الصحية الوطنية في المملكة المتحدة وكل من Apple ، وGoogle ، و Uber لضمان عدم تتبع البيانات المجمعة للأفراد والمحافظة على قيمتها.

خلال التجارب بين دبي الرقمية وفريق "فاكلتي" قمنا بمجموعة من الاختبارات على آلاف السجلات من مجموعات البيانات، بما فيها بيانات حوادث المرور من منصة "دبي بالس". وكان الهدف من الاختبارات هو تحليل حجم الخصوصية وإمكانية الاستخدام مقارنة بآليات إخفاء الهوية التقليدية.

وأظهر البحث إن البيانات الاصطناعية الخاصة تتفوق على آليات إخفاء هوية البيانات التقليدية من حيث الحذف والإبدال والتغطية أو التجزئة. مثلاً في بيانات حوادث الطرق في "دبي بالس" تمكنا بشكل كامل تقريباً من حماية خصوصية الأفراد، مع الحفاظ في الوقت ذاته على 90% من مرونة استخدام البيانات الجديدة مقارنة بالأصلية.

هكذا، تفتح البيانات الاصطناعية عالماً جديداً من الاحتمالات، فهي تحمي البيانات من التسرب والانتهاكات. كما تتيح الفرصة لبدء المشاريع التي كانت قد تعطلت بسبب حساسية البيانات والخصوصية فيها. كما أن كون البيانات اصطناعية، فإن ذلك يقلل من القيود في التحكم بالوصول للبيانات من أجل إدارة أسهل للمشاريع ومشاركة أوسع للمعنيين والمساهمين. كما أن الإجراءات الحكومية المقتصرة يساهم في تسريع إطلاق المشاريع التي كانت سابقة مطروحة رغم عدم إدراك جدواها.

بأخذ الاحتمالات في عين الاعتبار، يمكن لنسخة مصطنعة من "دبي بالس" أن تتيح المزيد من مجموعات البيانات للاستخدام العام. حيث يمكن مشاركة البيانات الاصطناعية الخاصة بأمان عبر الجهات الحكومية دون خطر انتهاك الخصوصية، وزيادة فاعلية تحليل البيانات المشترك بين القطاعين الحكومي والخاص. أي يمكن تقديم البيانات الاصطناعية الخاصة كخدمة، كما أن النسخة الاصطناعية من "دبي بالس" يمكنها فتح المزيد من مجموعات البيانات العامة للاستخدام العام.

كما توجد احتياطات أخرى يجب التنبه لها، مثل دخول العديد من منتجي البيانات الاصطناعية مفتوحة المصدر والحصرية إلى السوق. الأمر الذي يجعل إنشاء التصميم الأمثل لتلبية احتياجات حالة الاستخدام الخاصة بالفرد صعباً. علاوة على ذلك، فإن توليد البيانات بواسطة الخصوصية التفاضلية قد يحتاج إلى العديد من الموارد والمتطلبات، وبالتالي تحديد فترة للعمل يتم خلالها التركيز على حالات الاستخدام ذات القيمة العالية والتأثير الكبير.

وبناء على ما سبق، قمنا مع  لجنة البيانات والذكاء الاصطناعي  على اعداد تقرير بحثي لوضع إطار عمل تنفيذي للبيانات الاصطناعية. وقد تم تصميم الإطار بحيث يحتوي على المعلومات ويتمتع بالمرونة وسهولة الاستخدام لمساعدة الجهات الحكومية والقطاع الخاص على فهم وإنشاء واستخدام البيانات الاصطناعية بنجاح مع الحد من المخاطر في الوقت ذاته. إضافة إلى ذلك، قمنا بتصميم وإتاحة اختبار "ساندبوكس" من أجل تمكين الجهات من مراجعة حالات الاستخدام لديها وتحديد النقاط المهمة مع خبراء البيانات من هيئة دبي الرقمية. سيساهم كلا من إطار العمل والبرمجية الوقائية جنباً إلى جنب، في إنشاء دليل حالات الاستخدام والبراهين اللازمة لتوظيف البيانات الاصطناعية في المستقبل وما يرافقها من تغيرات في حوكمة البيانات وبنيتها التحتية.

ختاماً، فإن رسالتنا في هذا الموضوع المتشعب والمهم للغاية، هي لنتشارك ونتعاون ونتعلم معاً كل ما يتعلق بالبيانات الاصطناعية. يمكن الوصول إلى إطار العمل والبرمجية الوقائية من هنا.



[1] https://tietosuoja.fi/en/pseudonymised-and-anonymised-data

[2] https://dwpdigital.blog.gov.uk/2021/06/18/why-synthetic-data-could-be-useful-for-a-government-department/