
“`html
بعد فترة وجيزة من تولي إدارة [[LINK0]] ترامب [[LINK0]] المنصب في [[LINK1]] الولايات المتحدة [[LINK1]] في أواخر كانون الثاني (يناير)، تم إزالة أكثر من ٨٠٠٠ صفحة عبر عدة مواقع حكومية وقواعد بيانات [[LINK2]]، حسبما وجدت صحيفة نيويورك تايمز. وعلى الرغم من إعادة إحضار الكثير منها الآن، إلا أن آلاف الصفحات تم حذف منها مراجع لمبادرات النوع الاجتماعي والتنوع، على سبيل المثال، وغيرها، بما في ذلك موقع وكالة الولايات المتحدة للتنمية الدولية (USAID) لا يزال مغلقًا.
“`
بحلول 11 فبراير، قضى قاضٍ اتحاديٌّ [[LINK4]]بإعادة وكالات الحكومة الوصول العامّ إلى الصفحات ومجموعات البيانات التي تُديرها مراكز السيطرة على الأمراض والوقاية منها (CDC) والإدارة الأمريكية للأغذية والعقاقير (FDA). في حين هرب العديد من العلماء إلى محفوظات الإنترنت في حالة ذعر، كان مكتب العدل، ساخراً، قد جادل بأن الأطباء الذين رفعوا القضية لم يتضرروا لأن المعلومات المزيلة كانت متوفرة على أرشيف الإنترنت آلة الزمن. رداً على ذلك، كتب قاضٍ اتحاديٌّ [[LINK9]]، “المحكمة غير مقتنعة”، مُلاحظاً أنه يجب على المستخدم معرفة عنوان URL الأصلي لصفحة مُرشّحة لعرضها.
يقول مارك غراهام، مدير آلة الزمن الرجعية، إنّ حُجة الإدارة القانونية “كانت مُميزةً إلى حد ما”، وهو يرى أن حكم القاضي كان “مناسباً”. خلال الأسابيع القليلة الماضية، حظيت مكتبة الإنترنت وأماكن حفظ أخرى باهتمامٍ لاحتفاظها ببيانات وقواعد بيانات حكومية ومواقع ويب. لكن هذه المشاريع مستمرة منذ سنوات. مثلاً، تأسست مكتبة الإنترنت كمنظمة غير ربحية مُكرسة لتوفير الوصول الشامل إلى المعرفة قبل قرابة 30 عامًا، وتُسجِّل الآن أكثر من مليار عنوان URL يومياً، وفقاً لغراهام.
منذ عام 2008، استضافت مكتبة الإنترنت أيضًا نسخةً قابلة للوصول من أرشيف الويب لنهاية المرحلة، وهو تعاون يسجّل التغييرات في مواقع الحكومة الاتحادية قبل وبعد تغييرات الإدارة. في أحدث مجموعة، قام بالفعل بجمع أكثر من 500 تيرابايت من المواد.
مسوح تكميلية
إن قوة مكتبة الإنترنت تكمن في نطاقها، كما يقول جراهام. “نحن غالباً ما نستطيع [حفظ] الأشياء بسرعة، وبنطاق واسع. لكن ليس لدينا خبرة عميقة في التحليل”. وفي الوقت نفسه، تقدم مجموعات مثل مبادرة البيانات والمحافظة البيئية ورابطة صحفيي الرعاية الصحية مساعدةً للناشطين والأكاديميين في تحديد وتوثيق التغييرات.
انضم مختبر ابتكار المكتبات في كلية الحقوق بجامعة هارفرد [[LINK17]] إلى الجهود أيضًا مع أرشيفها لـ data.gov، وهو مجموعة بيانات تبلغ 16 تيرابايت وتضم أكثر من 311,000 مجموعة بيانات عامة، وتُحدّث يوميًا ببيانات جديدة. بدأ المشروع في أواخر عام 2024، عندما أدركت المكتبة أن مُجمّعات البيانات غالبًا ما تُغفل في الزحف الإلكتروني الآخر، بحسب ما قاله جاك كوشمان، مهندس البرمجيات ومدير مختبر ابتكار المكتبة.
“يمكنك تفويت أي شيء تتطلب فيه التفاعل مع جافاسكريبت أو مع زر أو مع نموذج.” — جاك كوشمان، مختبر ابتكار المكتبة
لا يواجه الزحف الإلكتروني النموذجي أي صعوبة في التقاط ملفات HTML أو PDF أو CSV الأساسية. لكن أرشفة خدمات الويب التفاعلية التي تُدار بواسطة قواعد البيانات تُشكّل تحديًا. سيكون من المستحيل أرشفة موقع مثل أمازون، على سبيل المثال، وفقًا لما قاله جراهام.
إن مجموعات البيانات التي يعمل مختبر ابتكار المكتبات (LIL) على أرشفتها معقدةٌ بطريقةٍ مماثلة. “إذا كنتَ تقومُ بزحفٍ على الويب وتنقرُ من رابطٍ إلى آخر، كما يفعل أرشيف نهاية الفصل الدراسي، فقد تفوتك أيّ معلوماتٍ تتطلب التفاعل مع جافاسكريبت أو مع زرٍ أو مع نموذجٍ، حيث يتوجّب عليك طلبُ الإذن ثم التسجيل أو تنزيل شيءٍ ما”، يوضّح كوشمان.
يقول: «أردنا أن نفعل شيئًا يكمل عمليات الزحف على الويب الحالية، وطريقة القيام بذلك كانت الدخول إلى واجهات برمجة التطبيقات (APIs).» وبدخولهم إلى واجهات برمجة التطبيقات، والتي تتجاوز صفحات الويب للوصول إلى البيانات مباشرةً، تمكن برنامج LIL من استخراج كتالوج كامل لمجموعات البيانات – سواءً كانت بتنسيق CSV أو Excel أو XML أو غيرها من أنواع الملفات – وجمع عناوين URL المرتبطة بها لإنشاء أرشيف. وفي حالة data.gov، قام كوشمان وزملاؤه بكتابة برنامج لإرسال 300 استعلامٍ صحيحٍ لاستخراج 1000 عنصرٍ لكل استعلام، ثم اجتياز 300,000 عنصرٍ إجمالًا لجمع البيانات. يقول كوشمان: «ما نبحث عنه هو المجالات التي ستمكن فيها بعض التلقين الآلي من فتح الكثير من البيانات الجديدة التي لم تكن ستُفتح لولا ذلك.»
العامل المهم الآخر لآرشيف LIL هو التأكد من أن البيانات كانت بصيغة قابلة للاستخدام. “قد تحصل على شيء في زحف ويب حيث تكون البيانات موجودة عبر 100,000 صفحة ويب، لكن من الصعب للغاية استخراجها إلى جدول بيانات أو شيء يمكنك تحليله”، يقول كوشمان. جعلها قابلة للاستخدام، سواء في تنسيق البيانات أو واجهة المستخدم، يساعد على إنشاء أرشيف مستدام.
نسخ كثيرة تحافظ على سلامة الأشياء
مفتاح الحفاظ على بيانات الإنترنت هو مبدأ يُعرف اختصارًا باسم LOCKSS: نسخ كثيرة تحافظ على سلامة الأشياء.
عندما تعرضت مكتبة الإنترنت للأرشيف لهجوم إلكتروني في أكتوبر الماضي، قام الأرشيف بإيقاف الموقع لمدة ثلاثة أسابيع ونصف لإجراء مراجعة شاملة للموقع ولتنفيذ ترقيات أمنية. يقول جراهام: “لقد كانت المكتبات تقليدياً مستهدفة دائماً، لذا لا يختلف هذا الأمر.” و كجزء من دفاعها، أصبح لدى الأرشيف الآن عدة نسخ من المواد في مواقع جغرافية متفرقة، داخل الولايات المتحدة وخارجها.
يلاحظ جراهام: “حكومة الولايات المتحدة هي أكبر ناشر في العالم”. فهي تنشر موادً في مجموعة واسعة من المواضيع، وكثير منها مفيد للناس، ليس فقط في هذا البلد، بل في جميع أنحاء العالم، سواء كان ذلك متعلقاً بالطاقة أو الصحة أو الزراعة أو الأمن”. والحقيقة أن العديد من الأفراد والمنظمات يساهمون في الحفاظ على العالم الرقمي، وهذا أمر جيد بالفعل.
يقول كوشمان: “الهدف هو أن تكون تلك النسخ متنوعة عبر كل مقياس يمكنك التفكير فيه. يجب أن تكون على أنواع مختلفة من الوسائط. ويجب أن تُدار من قِبل أشخاص مختلفين، بمصادر تمويل مختلفة، في تنسيقات مختلفة. “كل شكل من أشكال التشابه بين نسخ النسخ الاحتياطية يُنشئ خطرًا من الخسارة”. يُخزن أرشيف data.gov نسخةً رئيسيةً عبر خدمة سحابية مع نسخ احتياطية أخرى. كما يتضمن الأرشيف أيضًا برنامجًا [[LINK28]] مفتوح المصدر[[LINK28]] ليتيح سهولة التكرار.
بالإضافة إلى الحفاظ على النسخ، يقول كوشمان إنه من المهم تضمين التوقيعات والعلامات الزمنية التشفيرية. في كل مرة يتم إنشاء أرشيف، يتم توقيعه بتشفير إثبات عنوان البريد الإلكتروني والوقت الخاص بالمُنشئ، مما يمكن أن يساعد في التحقق من صحة الأرشيف.
تحدٍ مستمر
منذ تولي رئيس ترامب منصبه، تم إزالة الكثير من المواد من مواقع الإنترنت الحكومية الأمريكية—بكمية أكبر من أي إدارة سابقة، وفقًا لجراهام. ومع ذلك، على نطاق عالمي، هذا ليس أمرًا غير مسبوق، كما يضيف.
في الولايات المتحدة، تم تغيير مواقع الويب الحكومية الرسمية مع كل إدارة جديدة منذ عهد بيل كلينتون، وفقًا لـ جيسون سكوت، “أرشيفية حرة” في أرشيف الإنترنت ومساهم أساسي في موقع الحفظ الرقمي فريق الأرشيف. يقول سكوت: “هذا الأمر أكثر فوضوية”. لكن “الويب كيان ذو إنتروبيا عالية … جوجل هي أرشيف مثل متحف الطعام في متجر بقالة”.
مهمة الأرشيف الرقمي مهمة صعبة، خاصةً مع وجود تراكم من المواقع التي وجدت عبر تطور معايير الإنترنت. لكن هذه الجهود ليست جديدة. يقول سكوت: “الزيادة لن تكون إلا من حيث مساحة القرص وموارد عرض النطاق الترددي، وليس في العملية التي كانت مستمرةً”.
أما بالنسبة لكوشمان، فقد أكدت له هذه المهمة قيمة البيانات العامة. يقول: “بيانات الحكومة التي لدينا مثل إشارة GPS، فهي لا تخبرنا أين نذهب، لكنها تخبرنا بما يحيط بنا، بحيث يمكننا اتخاذ القرارات. التفاعل معها بهذه الطريقة لأول مرة ساعدني حقًا في تقدير ما نملكه من كنوز”.
مقالات من موقعك
مقالات ذات صلة على الويب
المصدر: المصدر