img

نجات داده ها

/
/
/

بعد از انتخابات آمریکا و تلاش‌ها برای ذخیره داده‌های دولتی، حمایت‌های دسترسی باز به استراتژی بلند مدت روی آورده اند.
بعد از روی کار آمدن ترامپ در آمریکا ، گروهی از افراد نگرانی خود نسبت به موضع دولت آمریکا درباره علم و تغییرات آب و هوایی را با اعتراض نشان دادند.
کمی آن طرف تر از دانشگاه تگزاس شمالی، در زمین‌های دالاس شمالی، ده‌ها نفر در تجمع نجات داده‌ها Data Rescue )Denton )دور هم جمع شدند تا مجموعه‌های داده ای زیست محیطی و مجموعه‌های داده ای اداره هواشناسی مرکزی را دانلود کنند. این تجمع به رویداد‌های برنامه نویسی هکاتون شباهت زیادی داشت و تا چند روز بعد از تحلیف توجه بسیاری را به خود جلب کرد و Denton پنجاهمین تجمع بعد از ژانویه ۲۰۱۷ بود.
نگرانی‌ها از تلاش‌های دولت برای نابودی داده‌های زیست محیطی و آب و هوا به تشکیل این گروه منجر شد. اما با حذف صفحات داده‌های زیست محیطی نگران‌ها در دولت ترامپ بیشتر شد. وزارت کشاورزی آمریکا بعد از حذف گزارش‌های بازرسی سلامت حیوانات از وب سایت خود ، به درخواست ویرایش ۱۷۷۷ صفحه لایجه آزادی اطلاعات جغرافیای ملی عکس العمل نشان داد.
همه می‌توانند از طریق وب سایت data.gov به داده‌های مرکزی دسترسی داشته باشند. اما، این تنها درصد کمی از دیوان سالاری کشور را تشکیل می‌دهد و هیچ وقت به این حجم کم داده‌ها توجه نمی شود.
شکل
به گفته Jim Jacobs کتابدار اطلاعات دولت فدرال در کتابخانه دانشگاه استنفورد :”حدود ۲۰ درصد از اطلاعات دولتی از طریق وب سایت‌ها در دسترس است. این یعنی بخش زیادی از اطلاعات در دسترس نیست. با این وجود ، شرکت‌ها ویکی‌ها و سیستم‌های مدیریت محتوای مستقل دارند. تنها راه دسترسی به آن‌ها این است که کسی آن‌ها را در لایحه آزادی اطلاعات بگنجاند.
مطمئن باشید، اطلاعات زیادی ذخیره شده است و در سرور‌های غیر دولتی قرار گرفته است. در رویداد‌های نجات داده‌ها و پروژه هایی مانند End of Term Crawl 2016 ، حدود ۲۰۰ ترابایت از وب سایت‌ها و داده‌های دولتی آرشیو شدند. اما سازمان‌های تجات داده‌ها ، به تازگی متوجه شده اند که تلاش‌های پراکنده برای کپی چندین ترابایت از داده‌های علمی شرکت‌های دولتی در بلند مدت ممکن نیست. مثل این است که بخواهیم با یک قاشق چاه بکنیم.
بنابراین نجاد داده‌ها Denton ، یکی از اخرین رویداد‌های سازمان دهی شده بود ، اما تلاش جمعی باعث شده باعث شده تا افراد بیشتری برای افشا، درک و استفاده از داده‌های دولتی کار کنند.

استفاده از کتابخانه ها
در دانشگاه پنسیلوانیا ، Bethany Wiggin، مدیر برنامه Penn در علوم انسانی زیست محیطی است . او نقش مهی در جنبش حفظ داده‌ها ایفا کرده است. این جنبش آغازی بود بر رویداد نجات داده ها. تمرکز‌ها تغییر کرده است ، به جای استفاده از چارچوب‌های ملی در بلند مدت بر بازه‌های زمانی تمرکز می‌شود.
ابن خانه قایقی، یک اثر هنری است که به وسیله برنامه Pen در علوم انسانی زیست محیطی ساخته شده است و نوشته‌های درباره پایداری سبک زندگی بر روی آن نصب شده است.
Wiggin می‌گوید :”اخیرا متوجه شدیم که مهارت‌های زیادی به خصوص در کتابخانه‌های تحقیقاتی با استفاده از رویدادهای نجات داده‌ها پیشرفت کرده است ، می‌توان مقدار این پیشرفت را اندازه گیری کرد. اما این اتفاق‌ها قبل از آغاز برنامه‌ها هم به چشم می‌خورد. قدرت برنامه حفظ داده‌ها با ارتباط‌های دیگر بیشتر شده، که به تسریع پروژه‌های طولانی و کند منجر می‌شود و اهمیت این پروژه‌ها را نشان می‌دهد.
Wiggin اخیرات برای گسترش ارتباط میان کتابخانه‌ها و شبکه‌ها تلاش می‌کند که یک مشارکت نوظهور سازمان‌های کتابخانه‌های تحقیقاتی برای گسترش نقش کتابخانه‌های سنتی در حفظ دسترسی به اطلاعات به حساب می‌آید. شرکت کننده‌ها در این طرح عبارتند از کتابخانه تحقیق دانشگاهی استنفورد ، کتابخانه دیجیتال کالیفرنیا و موسسه موزیلا با ورودی و همکاری نهاد هایی مانند آرشیو ملی و کارمندان اطلاعات ادارات مختلف.
برای مثال یکی از پروژه‌ها LOCkSS( کپی‌های زیاد امنیت را افزایش می‌دهند)نام دارد که با مدیریت Jacobs انجام می‌شود. این پروژه با ایده قدیمی شبکه‌های کتابخانه ای دویست سال پیش یا برنامه کتباخانه مخزن مرکزی کار می‌کند، این کتابخانه‌ها مخازن رسمی آثار اداره چاپ دولتی آمریکا( GPO) هستند.
اما LOCKSS یک نسخه دیجیتال شخصی است که از ۳۶ کتابخانه تشکیل شده و از آثار GPO و شرکت‌های آن تشکیل شده است. یک الگو برای نمایش اطلاعات دیجیتال از حذف و دستکاری حوزه‌های فیزیکی مخلتف به حساب می‌آید.
Jacob می‌گوید:” نمی توانید حفظ محیط زیست را تضمین کنید ، مگر آن که بر محتویات آن کنترل داشته باشید. یکی از ویژگی‌های مثبت کتابخانه‌های مخزن در دویست سال گذشته این بود که تغییر یک صفحه سند با تغییر آن صفحه در ۱۵۰۰ کتابخانه انجام می‌شد.
“برای مثال یکی از پروژه‌ها LOCkSS( کپی‌های زیاد امنیت را افزایش می‌دهند)نام دارد که با مدیریت Jacobs انجام می‌شود.”
نرم افزار LOCKSS با بررسی مخزن‌های محتویات در سطح بیت کار می‌کند و آن را با محتویات کتابخانه‌های دیگر بررسی می‌کند. از نظر Jacob این کار به نگهداری بلند مدت داده‌ها از طریق تعمیر فایل‌های آسیب دیده کمک می‌کند.
John Choadcki یک کارمند دیگر در پروژه کتابخانه‌های و شبکه‌ها و مدیر نگهداری کتابخانه دیجیتال کالیفرنیا است. این یک مجموعه اطلاعات حقیقی است که به ۱۰ دانشگاه سیستم کالیفرنیا خدمت رسانی می‌کند. Chodacki با کد توسعه دهنده علم و اجتماعی Max Ogden و Philip Ashlock رئیس معماری data.gov کار می‌کند و معتقد است که بر data.gov به عنوان یک خیابان دو طرفه تمرکز می‌شود.
آن‌ها اول از همه نشان دادند که خود نجات داده‌ها با بررسی یک کپی از data.govو قرار دادن آن در خارج از سایت و datamirror.org با نظارت دست نوشته‌ها و برررسی به روز رسانی‌ها کارآمد تر می‌شود. سپس، Chodacki و همکاران او، از هر مجموعه پایگاهی مفید و فرا داده‌ها برای افزایش حجم داده‌های موسسات و جریان کاری data.gov استفاده کردند.
در سال ۲۰۱۳ دولت اوباما دستور داد تا داده‌های قابل خوانش با دستگاه‌ها را در data.gov چاپ کنند و شرکت‌ها مسئول ثبت اطلاعات در پورتال هستند. ایده Chodacki و Odgen این است که تامین انبوه به افزایش بارکاری منجر می‌شود.
Chodacki گفت:” لازم نیست تمام اکوسیسیتم را باز تولید کنیم. دولت فدرال و این مووسات از خیلی قبل تر با این داده‌ها کار می‌کنند.”

مشارکت عموم –خصوصی
در شناسایی با ارزش ترین مجموعه‌های داده ای برای عموم و سپس چاپ ارتباط‌ها با فرا داده‌ها یا مجموعه‌های داده ای از طریق پورتال دولت ، بحث هزینه مهم است. یک گزارش اداره بودجه کنگره( CBO) درباره لایجه داده‌های OPEN دولت در سنا (که دستور اجرایی اومابا را به قانون تبدیل می‌کند) محاسبه کرد اجرای کامل این طرح در بین سال‌های ۲۰۱۸ تا ۲۰۱ ، ۲ دو میلیون دلار هزینه دارد.
CBO نتیجه گیری کرد با توجه به بودجه دولت این یعنی افزایش هزینه ها.
با این وجود، راندمان بحث مجزایی است. Ed Kearns در اداره آسیا اقیانوسیه با شرکای خصوص از جمله خدمات وب آمازون و گوگل در این زمینه کار می‌کند. Kearns به عنوان یک کارمند اطلاعاتی NOAA گفت که افزایش دسترسی عمومی و استفاده از داده‌های NOAA یکی از اهداف اصلی پروژه داده‌های بزرگ است.
شرکت‌ها مجموعه‌های داده ای مورد نظر خود را شناسایی می‌کنند و NOAA این داده‌ها را به با هزینه‌های بیشتر در دسترسی عموم قرار می‌دهد. Kearns گفت که NOAA از تمام گزینه‌ها استفاده می‌کند ، اما هدف مشاذرکت پنج ساله این نیست که داده‌های NOAA را از ابر خارج کند و این موضوع یکی از استراتژی‌ها به حساب می‌آید.
میزبانی این مجموعه‌های داده در خدمات ابری شرکت‌های ابری مزیت هایی را برای دسترسی ۸۰s-style FTP دارد که انتقال استاندارد مجموعه‌های داده ای از شرکت‌های فدرال است. برای مثال ، مجموعه‌های داده ای NOAA بزرگ هستند ( این شرکت اقیانوس‌های زمین ، جو و خورشید و آب و هوا فضا را کنترل می‌کند) و در مواردی بعد از چند هفته یا چن دماه در دسترس عموم قرار می‌گیرند.
آرشیو رادار NEXARD سطح دو Doppler با رزلوشن بالا یکی از این نمونه‌ها است. براساس مطالعه جامعه هوا شناسی آمریکا در اردیبهشت، انتقال کل آرشیو ۲۷۰ ترابایت Nexard به یک مشتری تا آبان ماه روزانه حدود ۲۰۳٫۳۱۰ دلار هزینه دارد. کپی کاملی از آرشیو برای تحلیل خارجی قبل از همکاری NOAA با آمازون و گوگل در محیط ابری قبلا در دسترس نبود.
هر چه استفاده از این امکانات بیشتر شود، تجربه ارتقاء پیدا می‌کند. صفحات وب آب و هوا و پیش بینی در میان پر بازدید ترین سایت‌های دولتی هستند ،اما اخیرا گوگل مجموعه داده ای آب و هوای خود را یک گیگ افزایش داده و آن را به یک مجموعه داده‌های BigQuerry تبدیل کرده است و این شرکت قرار است تا در عرض شش ماه، ۱٫۲ petabyte را هم اضافه کند. سرور‌های NOAA قبلا به این رقم دست پیدا نکرده بود.
Kearns می‌گوید:” گوگل توانست مخاطبین جدیدی را جذب کند.”
داده‌ها فقط درباره بارش و دماهای فصلی نیستند. مجموعه‌ها داده ای از طریق شرکای داده‌های بزرگ در دسترس هتسند و اطلاعات صیادی، آب و هوای زیر دریا و کاتالوگ‌های IBM را شامل می‌شود که مجموعه‌های داده ای کنونی، پیش بینی ، تاریخی و زئو مکان مراکز NOAA را فهرست می‌کند. مجموعه‌های داده ای آینده می‌توانند اطلاعات اکو سیستم و ژنومیک را شامل می‌شود.
Kearns معقتد است که :”شرکا می‌توانند طراحی‌های دلخواه را انتخاب کنند. اما این احتمال هم هست که مجموعه‌های داده ای با ریسک بالا نتوانند بقای خود را حفظ کنند و شناسایی موارد با ارزش کار دشواری است.”
او می‌گوید:”دامنه و دسترسی شرکت در کار با داده ها، پیشرفت را کند می‌کند. نمی توانیم تمام کاربرد‌ها را با هم داشته باشیم. “
در مقیاس کم تر ، شهر فیلادلفیا ، با شرکت‌های خصوص برای چاپ مجموعه‌های داده ای برای کاربرد‌های عمومی تلاش می‌کند. با توجه به اندازه کوچک شهر ، قابلیت مانور در مقایسه با کل کشور بیشتر است و الگوی Philly ( فیلی) یک رویکرد برای تعیین استراتژی نشر مجموعه داده‌های چاپ نشده به حساب می‌اید.

“ صفحات وب آب و هوا و پیش بینی در میان پر بازدید ترین سایت‌های دولتی هستند.”
Azavea یک شرکت نرم افزاری در شهر فیلی است که در نمایش داده‌ها تخصص داد و با Tim Wisniewski ، کارمند اطلاعات شهر برای ساخت یک فهرست از مجموعه‌های داده ای منتشر نشده برای استفاده در سازمان‌های غیر انتقاعی تلاش می‌کند. Winsienwski و Azavea از کاتالوگ فرا داده‌های آنلاین و ورودی‌های ادارات شهر برای ساخت این فهرست استفاده کردند. Azavea و شرکای دیگر این فهرست را از سازمان‌های غیر دولتی فیلادلفیا خریداری کردند و OpenDataVote را راه اندازی کردند که یک رقابت برای جذب رای عموم درباره پروژه هایی است که به وسیله سازمان‌های غیر دولتی درباره نظر آن‌ها نسبت مجموعه‌های داده ای ایجاد شده است.
پیش نهاد سازمان غیر دولتی و آموزشی MicroSociety یکی از بهترین گزینه‌ها بود. براساس این پیش نهاد ، شهر ‌ها می‌توانند از داده‌های اهدا کننده‌های منطقه فیلادلفیا برای اندازه گیری تاثیر برنامه‌های غیر دولتی در مدارس استفاده کنند.
Wisniewski گفت :”می توان گفت که این شهر به مجموعه داده‌های خاص علاقه مند است ، چون که برای مردم کاربرد خاصی دارند و به همین خاطر افراد زیادی به آن رای دادند. با استفاده از مجموعه‌های داده ای می‌توانیم مستند هایی برای لزوم انتشار داده‌ها را ارائه کنیم.”
شکل این مجموعه داده ای ، یک ساختمان و داده‌های عملکرد برای شاخص گذاری انرژی در فیلادلفیا را نشان می‌دهد.
داده‌های قدیمی و جدید
اما وقتی دسترسی کافی به داده‌ها وجود داشته باشد و زمانی که سیاست‌های جدید و راهنمایی‌های تامین مالی نشان دهد که داده‌ها دیگر تولید نمی شوند چه اتفاقی می‌افتد؟ Ann Dunkin می‌گوید :”این یک نگرانی بزرگ است.” او به عنوان کارمند ارشد اطلاعاتی در موسسه مایت زیست محیطی در دولت اوباما کار می‌کرد و قرار است به Sara Clara فرماندار کالیفرنیا در بخش فناوری اطلاعات کمک کند.
Dunkin می‌گوید :” افراد نگران داده‌های قدیمی هستند، اما بد تر آن که داده‌های قدیمی مثل قبل در دسترس عموم قرار نمی گیرند”
در یک تحلیل بودجه فدرال ۲۰۱۸ در مجله Science ، شرکت‌های دولتی زیادی اهمیت کاهش تحقیق در بودجه‌های پیش نهادی را تایید کردند. حدود ۲۲ درصد از شرکت‌های سلامت ملی از تحقیقات دانشگاهی استفاده می‌کنند و درخواست بودجه ناسا ، طرح‌های نظارت بر انتشار گازهای گلخانه ای و برنامه‌های علمی دیگر برای زمین را حذف می‌کند. برنامه‌های آب و هوایی NOAA نیز کاهش پیدا خواهد کرد.
EPA برای جمع آوری داده‌ها در یک ابزار تلاش می‌کند تا همه بتوانند موضوع سلامت را به خوبی بفهمند و به سلامت خود کمک نمایند. برای مثال این داده‌ها درباره آلودگی هوا و مضرات آن به ما هشدار می‌دهند.
Dunkin اضافه کرد:” این طور پیش بینی می‌شود که اگر داده‌ها را در دسترس عموم ندهیم مشکلاتی به وجود می‌آید و به نظر می‌رسد مجموعه‌های داده‌های مفید برای عموم به راحتی تولید نشوند و یا در دسترس نباشند.
افراد نگران داده‌های قدیمی هستند، اما بد تر آن که داده‌های قدیمی مثل قبل در دسترس عموم قرار نمی گیرند”
برنامه حفظ داده‌های Wiggin بر روی یک پروژه جدید کار می‌کند. این پروژه قرار است با افزایش امید در میان مردم، درخواست برای انتشار داده‌ها را بیشتر کند و از برنامه‌های جمع آوری داده در دولت فدرال حمایت نماید. سه داستان قرار است تاثیرات داده‌های مخفی بر شهر را نشان دهد. در ابتدا از فیلادلفیا شروع می‌شود و به بخش‌های دیگر کشور گسترش پیدا می‌کند.
Wiggin می‌گوید” کمک به درک کاربرد‌های داده‌های فدرال در زندگی افراد ، یکی از مراحل بعدی در جنبش حفاظت از داده‌ها است. این داده‌ها با موضوعاتی مانند آب و هوا و امنیت عمومی سر و کار دارند و در هر صورت فدرال هستند و در جوامع، مرکز شهر، تلاش‌های سیاست گذاری و ارتش کاربرد دارند. باید اهمیت این داده‌ها را به همه گوش زد کنیم.

نظر بدهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

It is main inner container footer text