img

فناوری‌های وابسته به کلان داده…

/
/
/

مترجم:رامین مولاناپور

برای کسب کردن فهمی ‌عمیق‌تر از مفهوم کلان‌ داده، چند فناوری اصلی که با کلان‌ داده مستقیماً در ارتباط هستند از جمله رایانش ابری، اینترنت اشیا، مرکز داده و Hadoop، در این مقاله معرفی خواهند شد. هر‌ یک از فناوری¬های وابسته، مشخصاً با در اختیار گذاشتن ویژگی‌های کلیدی آن ‌به‌صورت کلی معرفی خواهند ‌شد. سپس رابطه بین آن فناوری با کلان‌ داده ‌به‌صورت جزئی بررسی خواهد ‌شد.

رایانش ابری
در پارادایم کلان‌ داده، زیرساخت‌های سخت‌افزاری قابل اطمینان‌ یک مسأله اساسی برای تولید‌ یک ذخیرگاه قابل اطمینان هستند. زیرساخت‌های سخت‌افزاری توده‌های منعطف به‌اشتراک گذاشته شده منابع فناوری اطلاعات و ارتباطات را در برمی‌گیرند. بدین صورت که منابع فناوری‌ اطلاعات و ارتباطات قادر به فشرده‌سازی و گسترده‌سازی ‌به‌صورت افقی و عمودی، پیکربندی مجدد پویا برای برنامه‌های کاربردی مختلف خواهند بود. در ‌‌این سال‌‌ها، پیشرفت‌های رایانش ابری موجب تغییر مسیر دسترسی و استفاده مردم از زیرساخت‌های سخت‌افزاری و خدمات نرم‌افزاری شده است ]۱[.
رایانش ابری متشکل از رایانش توزیع شده، رایانش موازی و رایانش مشبک  است ‌یا همان مفهوم تحقق تجاری علوم کامپیوتری است. در معنای محدود، رایانش ابری به معنای حالت تحویل و استفاده از زیرساخت فناوری اطلاعات است. یعنی، دسترسی به منابع موردنیاز از طریق تقاضای اینترنتی یا به روشی بسط‌پذیر است. در حالت کلی، رایانش ابری به معنای حالت تحویل و استفاده از خدمات است. هر یک از خدمات به نرم‌افزار و‌‌ اینترنت و سایر موارد وابسته است. ‌به‌طور خلاصه، می‌توان گفت،‌‌ این مسئله به موردی که به دسترسی کاربران به سرور از طریق شبکه در مکانی از راه‌دور و پس از آن خدماتی که سرور ارائه می‌کند، اشاره دارد.
این مفهوم عمدتاً برخی از مفاهیم مختلط مانند زیرساخت و رایانش عمومی ‌مجازی را در برمی‌گیرد. مؤلفه‌های کلیدی رایانش ابری در شکل ۱ نشان داده شده‌اند.
خدماتی که رایانش ابری ارائه می‌دهد، می‌توانند با سه مدل خدمات و سه مدل استقرار شرح داده شوند. چنین ‌‌ترکیبی ‌ویژگی‌های مهمی ‌را داراست که سلف سرویس در صورت تقاضا، دسترسی به شبکه جامع، مخزن منابع، سرعت، انعطاف‌پذیری و مدیریت سرویس را شامل می‌شود، به‌‌ این‌ ترتیب نیازهای بسیاری از برنامه‌های کاربردی برآورده خواهند شد. بنابراین، رایانش ابری برای تحلیل کلان‌ داده و برنامه‌های مربوطه، کاربردی خواهد بود.
رابطه بین رایانش ابری و کلان‌ داده
رایانش ابری با کلان‌ داده مستقیماً در ارتباط است. مؤلفه‌های کلیدی رایانش ابری در شکل ۱ نشان داده شده‌اند. کلان‌ داده هدف عملیات رایانشی است و بر ظرفیت ذخیره‌سازی و رایانشی ‌یک سرور ابر تأکید دارد. هدف اصلی رایانش ابری استفاده از منابع و ظرفیت‌های رایانشی بزرگ تحت ‌یک مدیریت متمرکز است تا این‌که برنامه‌های کاربردی با امکان به‌اشتراک‌گذاری منبع ‌به‌صورت تک تک و برنامه‌های کاربردی کلان‌ داده با ظرفیت رایانشی فراهم شوند. توسعه رایانش ابری، راه‌حل‌های مناسبی را ‌برای ذخیره‌سازی و پردازش کلان‌ داده ارائه خواهد کرد. از سوی دیگر، ظهور کلان‌ داده توسعه رایانش ابری را شتاب می‌بخشد. فناوری ذخیره‌سازی توزیع شده بر مبنای رایانش ابری مدیریت مؤثر کلان‌ داده را ممکن می‌سازد؛ ظرفیت رایانشی موازی با بهره‌گیری از رایانش ابری می‌تواند کارایی اکتساب و تحلیل کلان‌ داده را بهبود ببخشد.
اگرچه مفاهیم و فناوری‌های هم‌پوشان بسیاری در رایانش ابری و کلان‌ داده وجود دارد، اما آن‌ها در دنباله‌روی دو جنبه عمده تفاوت دارند. اولاً، مفاهیم آن‌ها متفاوت است بدین معنا که رایانش ابری معماری فناوری اطلاعات را تغییر می‌دهد، در حالی‌که کلان‌ داده در تصمیم‌سازی تجاری تأثیر می‌گذارد، البته، کلان داده به رایانش ابری به عنوان ‌یک زیرساخت برای عملکردهای ساده وابسته است.
ثانیاً، کلان‌ داده و رایانش ابری مشتریان هدف متفاوتی دارند. رایانش ابری ‌یک فناوری است و مدیران ارشد اطلاعات (CIO) را به عنوان‌ یک راه‌حل پیشرفته فناوری اطلاعات، هدف‌گذاری می‌کند. کلان‌ داده مدیران عامل (CEO) را هدف‌گذاری می‌کند که روی عملیات کسب‌وکار تمرکز دارند. از آنجا که تصمیم‌ساز‌‌ها مستقیماً تحت فشار ناشی از بازار رقابتی هستند، آن‌ها باید حریفان تجاری خود را به روش‌های رقابتی‌تری شکست دهند. با پیشرفت کلان‌ داده و رایانش ابری، ‌‌این دو فناوری قطعاً و به‌صورت فزاینده به‌ یکدیگر گره می‌خورند. رایانش ابری، با کارکردهایی هم‌چون کارکردهای موجود در کامپیوترها و سیستم‌های اطلاعاتی، منابع سطح سیستم‌ را ارائه می‌کند. کلان‌ داده در سطحی بالاتر عمل می‌کند و رایانش ابری از آن پشتیبانی می‌کند و کارکردهایی همچون کارکردهای موجود در پایگاه داده و ظرفیت پردازش داده کارآمدی را فراهم می‌کند. در ‌‌این مورد، Kissinger، رئیس کل شرکت EMC می‌گوید: کاربرد کلان‌ داده باید مبتنی بر رایانش ابری باشد.
سیر تکاملی کلان‌ داده با رشد سریع تقاضای برنامه‌های کاربردی برانگیخته می‌شود و رایانش ابری از طریق فناوری‌های مجازی‌سازی توسعه ‌‌یافته است. بنابراین، رایانش ابری نه تنها امکان پردازش و رایانش کلان‌ داده را فراهم می‌کند، بلکه خود حالتی از‌ یک سرویس محسوب می‌شود. تا حدودی، پیشرفت‌های رایانش ابری موجب ارتقای توسعه در کلان‌ داده خواهد ‌شد که هر دوی آن‌ها مکمل ‌یکدیگرند.

اینترنت اشیا
مفهوم اصلی اینترنت اشیا، مرتبط‌سازی اشیای گوناگون در دنیای واقعی مانند ردفاشگر ، بارکدخوان‌‌ها، حسگرها، گوشی‌های تلفن همراه و غیره به منظور تحقق‌بخشی به تبادل اطلاعات و ‌‌ایجاد همکاری با ‌یکدیگر به منظور تکمیل ‌یک کار مشترک است. معماری اینترنت اشیا در شکل ۲ نشان داده شده است. اینترنت اشیا به عنوان توسعه ‌‌اینترنت آینده و نیز بخش مهمی ‌از ‌‌اینترنت تلقی می‌شود. اینترنت اشیا کاملاً با وضعیت دسترسی آن به هر شیئی در دنیای واقعی مثل اشیایی که می‌توان آن‌ها را آدرس‌دهی کرد، کنترل و با آن ارتباط برقرار کرد، مشخص می‌شود.
در مقایسه با‌‌ اینترنت، اینترنت اشیا دارای ویژگی‌های اصلی زیر است ]۲[:
* تجهیزات پایانه‌ای متنوع
* اکتساب خودکار داده‌‌ها
* پایانه‌های هوشمند

رابطه بین اینترنت اشیا و کلان‌ داده
در پارادایم اینترنت اشیا، تعداد زیادی از حسگرهای شبکه‌ای درون وسایل در دنیای واقعی تعبیه ‌شده‌اند. چنین حسگرهایی در جاهای مختلفی قرار گرفته¬اند که ممکن است انواع گوناگونی از داده‌ها را جمع‌آوری کنند؛ مانند داده‌های زیست‌محیطی، داده‌های جغرافیایی، داده‌های اخترشناسی و داده‌های آماد و پشتیبانی. تجهیزات سیار، امکانات حمل‌ و نقل، امکانات عمومی و لوازم منزل می‌توانند وسیله دریافت داده در اینترنت اشیا محسوب شوند.
کلان‌ داده تولید شده توسط اینترنت اشیا مشخصات متفاوتی در مقایسه با کلان‌ داده عمومی ‌دارد که ناشی از انواع گوناگون داده‌های جمع‌آوری ‌شده است که بیشتر مشخصات کلاسیک از جمله عدم تجانس، تنوع، خصوصیات بدون ساختار، نویز و رشد سریع را در برمی‌گیرد. با آنکه جریان اینترنت اشیا بخش غالب کلان‌ داده نیست، با توجه به پیش‌بینی شرکت HP تا سال ۲۰۳۰، تعداد حسگرها به بیش از هزار تریلیون خواهد رسید و پس ‌از آن داده‌های اینترنت اشیا می‌تواند مهم‌ترین بخش کلان‌ داده محسوب شود. بر اساس گزارش منتشر شده از شرکت‌‌ اینتل، کلان‌ داده در رابطه با اینترنت اشیا سه ویژگی دارد که با شاکله کلان‌ داده مطابقت دارد: (الف) پایانه‌های فراوان مولد حجم داده‌؛ (ب) داده‌های تولید شده توسط اینترنت اشیا معمولاً بدون ساختار ‌یا نیمه ‌ساخت‌یافته هستند؛ (ج) داده‌های اینترنت اشیا تنها زمانی مفید هستند که تحلیل شده باشند.
در حال حاضر، ظرفیت پردازش داده¬های اینترنت اشیا در پس داده‌های جمع‌آوری‌شده پنهان مانده است و باید بسیار فوری معرفی دقیقی از فناوری‌های کلان‌ داده ارائه شود تا اینترنت اشیا بهبود ‌یابد. بسیاری از اپراتورهای اینترنت اشیا اهمیت کلان‌ داده را روشن می‌کنند، زیرا موفقیت ‌اینترنت اشیا در گرو تلفیق مؤثر کلان‌ داده و رایانش ابری است. استقرار گسترده اینترنت اشیا نیز بسیاری از شهرها را در دوره کلان‌ داده پدید خواهد آورد.
یک نیاز فوری برای هماهنگ‌سازی کلان‌ داده با برنامه‌های کاربردی اینترنت اشیا وجود دارد، در حالی‌که کلان‌ داده در حال حاضر دور از نظر مانده است. کاملاً مشخص شده که ‌‌این دو فناوری به ‌یکدیگر وابسته‌اند و باید همزمان و با هم بهبود یابند.
از‌ یک‌‌ سو، استقرار گسترده اینترنت اشیا، رشد چشمگیر داده‌ها را هم از نظر کمی ‌و هم از نظر دسته‌بندی در بر خواهد‌ داشت، بنابراین فرصت مناسبی ‌برای کاربرد و توسعه کلان‌ داده فراهم خواهد ‌آمد. از سوی دیگر، کاربرد فناوری کلان‌ داده با اینترنت اشیا، پیشرفت‌های تحقیقاتی و مدل‌های کسب‌وکار اینترنت اشیا را شتاب می‌بخشد.

مرکز داده
در پارادایم کلان‌ داده،‌ یک مرکز داده نه‌ تنها سازمانی برای ذخیره‌گاه متمرکز داده‌ها ‌شده است؛ بلکه مسئولیت‌های بیشتری را به عهده خواهد ‌داشت؛ از جمله کسب داده‌ها، مدیریت داده‌ها، سازمان‌دهی داده‌ها و بهره‌برداری از مقادیر داده¬ها و کارکردهای آن‌ها. مراکز داده عمدتاً در ارتباط با «داده‌ها» هستند تا «مرکز».‌ یک مرکز داده، حجمی ‌از داده¬ها را دارد که برحسب هدف اصلی و نیز مسیر توسعه آن‌ها مدیریت و سازمان‌دهی می‌شود که محلی ارزشمندتر نسبت به داشتن ‌یک سایت و منبع خوب است. ظهور کلان‌ داده، فرصت‌های توسعه فراوان و نیز چالش‌های بزرگی برای مراکز داده¬ها پدید خواهد آورد.
* کلان‌ داده نیازمند آن است که مرکز داده پشتیبانی قدرتمندی را در پشت‌صحنه به‌وجود آورد. پارادایم کلان‌ داده نیاز مبرمی ‌به ظرفیت ذخیره‌سازی، ظرفیت پردازش و نیز ظرفیت انتقال شبکه دارد. سازمان‌ها باید توسعه مرکز داده‌ها را مورد بررسی قرار دهند تا ظرفیت پردازش کلان‌ داده مؤثر و سریع محدود به نسبت هزینه/عملکرد بهبود پیدا کند. مرکز داده زیرساختی را با استفاده از تعداد بالایی از گره‌ها، ‌‌ایجاد ‌یک شبکه داخلی سریع، توزیع سریع و مؤثر و پشتیبان‌گیری تأثیرگذار داده¬ها را فراهم می‌آورد. تنها زمانی که ‌یک مرکز داده با انرژی مصرفی بهینه زیاد، پایا،‌‌ ایمن، منعطف و مازاد ‌‌ایجاد می‌شود، عملیات طبیعی برنامه‌های کاربردی کلان‌ داده تضمین ‌شده است.
* رشد برنامه‌های کلان‌ داده به انقلاب و نوآوری در مراکز داده¬ها شتاب می‌بخشد. بسیاری از برنامه‌های کاربردی کلان‌ داده معماری‌های منحصر به‌ فرد خود را توسعه داده‌اند و به‌طور مستقیم موجب افزایش ارتقای توسعه ذخیره¬سازی، شبکه و فناوری‌های رایانشی، وابسته به مرکز داده شده‌اند. با توجه به رشد پیوسته داده‌های ‌ساخت‌یافته و غیر ‌ساخت‌یافته و تنوع منابع داده¬های تحلیلی، ظرفیت‌های پردازشی و رایانشی مرکز داده، به‌‌طور فزاینده‌ای افزایش خواهد يافت. به‌علاوه، مقیاس مرکز داده‌ها به‌‌طور فزاینده‌ای افزایش خواهد يافت،‌‌ این‌‌ یک خروجی مهم است برای آنکه بدانیم چگونه هزینه¬های عملیاتی برای بهبود مرکز داده‌ها را باید کاهش داد.
* کلان‌ داده مرکز داده‌ها را از کارکردهای بیشتری بهره‌مند می‌سازد. در پارادایم کلان‌ داده،‌ یک مرکز داده به امکانات سخت¬افزاری وابسته نخواهد بود اما به افزایش ظرفیت نرم افزاری یعنی ظرفیت‌های کسب، پردازش، سازمان‌دهی، تحلیل و کارکرد کلان‌ داده نیازمند است. مرکز داده می‌تواند به تحلیل داده‌های موجود کسب‌وکار کارکنان، حل مشکلات عملیات کسب‌وکار و توسعه راه‌حل‌ها در ارتباط با کلان‌ داده‌ یاری رساند.
کلان‌ داده پارادایمی در حال ظهور است که رشد ناگهانی زیرساخت‌ها و نرم‌افزارهای وابسته به مرکز داده‌ها را گسترش خواهد داد. شبکه مراکز داده فیزیکی، هسته¬ای است که از کلان‌ داده پشتیبانی می‌کند، اما زیرساخت کلیدی است که به ‌زودی مورد نیاز خواهد ‌شد ]۳[.

Hadoop
Hadoop یک فناوری است که کاملاً با کلان‌ داده ارتباط دارد که ‌یک راهکار نظام‌مند قدرتمند کلان‌ داده‌‌ها را از طریق ذخیره‌سازی داده‌ها، پردازش داده¬ها، مدیریت سیستم و یکپارچه کردن سایر ماژول‌ها، تشکیل می‌دهد. وجود چنین فناوری، برای غلبه بر چالش‌های کلان‌ داده ضروری است ]۴[.‌‌ Hadoop مجموعه‌‌ای از زیرساخت‌های نرم‌افزاری بزرگ‌مقیاس برای برنامه‌های کاربردی ‌‌اینترنتی شبیه FileSystem و MapReduce شرکت Google است. Hadoop توسط Nutch توسعه‌‌یافته است،‌ یک پروژه متن‌باز از Apache، با طراحی مقدماتی که توسط Doug Cutting و Mike Cafarella تکمیل شد. در سال ۲۰۰۶،‌‌ Hadoop به‌ یک پروژه متن‌باز Apache تبدیل شد که ‌به‌صورت گسترده توسط ‌Yahoo، Facebook و سایر سازمان‌های ‌‌اینترنتی استقرار‌ یافت. در حال حاضر، بزرگ‌ترین خوشه Hadoop که توسط Yahoo با ۴۰۰۰ مجموعه از گره‌ها برای پردازش و تحلیل سازمان استفاده می‌شوند، به کار گرفته می‌شود و شامل تبلیغات ‌Yahoo، داده¬های مالی و ثبت‌های مربوط به کاربران است.
Hadoop از دو بخش تشکیل‌ شده است: HDFS (فایل سیستم توزیع شده ‌‌Hadoop) و چارچوب کاری MR (MapReduce Framework).  HDFS‌یک منبع ذخیره‌سازی داده‌های MR است که در ‌یک فایل سیستم توزیع شده است که روی ‌یک سخت‌افزار تجاری اجرا می‌شود و در ارجاع به DFS Google طراحی ‌شده است. HDFS منبعی برای ذخیره‌سازی داده‌های اصلی برنامه‌های کاربردی‌‌ Hadoop است که فایل‌ها را در بلوک‌های ۶۴ مگابایتی توزیع می‌کند و چنین بلوک‌های داده‌ای را در گره‌های مختلف از ‌یک خوشه ذخیره می‌کند تا رایانش موازی برای MR امکان‌پذیر شود. ‌یک خوشه HDFS یک نام گره (NameNode) منفرد برای مدیریت فراداده فایل سیستم و گره‌های داده (DataNode) برای ذخیره کردن داده واقعی را شامل می‌شود.‌ یک فایل به ‌یک‌ یا چند بلوک تقسیم می‌شود و چنین بلوک‌هایی در گره‌های داده، ذخیره می‌شوند. کپی بلوک‌ها در گره‌های داده متفاوت توزیع می‌شود تا از داده‌ها جلوگیری شود. HBase Apache ‌یک ذخیره‌گاه ستون‌گراست که تقلیدی از Googles Bigtable است. بنابراین، کارکردهای HBase Apache مشابه کارکردهای BigTable که در بخش VI از HDFS شرح داده شده، هستند. HBase ممکن است به‌ عنوان‌ یک سرور ورودی یا خروجی وظیفه MR Hadoop در نظر گرفته ‌شود و از طریق Java API، REST، Avor ‌یا APIهای Thrift در دسترس قرار گیرد.
Google MR شبیه MapReduces شرکت Google توسعه ‌‌یافته است. هر چارچوب کاری MR از ‌یک گره JobTracker و چند گره TaskTracker تشکیل‌ شده است. گره JobTracker برای توزیع و زمان‌بندی وظیفه استفاده می‌شود؛ گره‌های TaskTracker برای کاهش وظایف Map یا Reduce توزیع شده از گره JobTracker استفاده می‌شوند و چنین وظایفی را اجرا می‌کند و احساس نیاز به وضعیت به گره JobTracker برگردانده می‌شود. چارچوب کاری MR و HDFS در ‌یک مجموعه گره، بنا بر زمان‌بندی وظایف روی گره‌های ارائه‌ شده با داده‌ها، اجرا می‌شوند. Pig Latin یک زبان سطح بالای اعلانی است که می‌تواند تجمیع کلان‌ داده و تحلیل وظایف را در برنامه‌نویسی MR، شروع کند. Hive از پرس‌وجوهای بیان شده به ‌وسیله اعلان‌های مشابه HiveQL و SQL پشتیبانی می‌کند. Hive مفهوم RDBMS‌ها و زیر مجموعه SQL را به افرادی که با ‌‌Hadoop آشنایی خوبی‌ دارند، معرفی می‌کند.
به‌ غیر از بخش‌های اصلی فوق، سایر ماژول‌های وابسته به Hadoop ممکن است برخی از کارکردهای مورد نیاز مکمل را در زنجیره ارزش کلان‌ داده، تأمین کند. Zookeeper و Chukwa برای مدیریت و پایش اجرای برنامه‌های کاربردی توزیع‌ شده در ‌‌Hadoop، استفاده‌ شده‌اند. شایان ‌ذکر است که Zookeeper یک سرویس مرکزی برای حفظ پیکربندی و نام‌گذاری، ارائه همگام‌سازی توزیع شده و ارائه خدمات گروه‌بندی شده است. Chukwa مسئول پایش وضعیت سیستم است و می‌تواند داده‌های جمع‌آوری ‌شده را نمایش داده، پایش کرده و تحلیل کند. Sqoop اجازه می‌دهد داده‌ها بین ذخیره‌گاه ‌ساخت‌یافته و‌‌ Hadoop به ‌راحتی عبور کنند. Mahout‌ یک پایگاه ‌داده‌کاوی است که روی Hadoop با استفاده از MapReduce اجرا می‌شود. این پایگاه شامل الگوریتم‌های اصلی فیلترگذاری مشارکتی است که بر اساس پردازش دسته‌ای برای خوشه‌بندی و مرتب‌سازی استفاده می‌شود.
بهره‌مندی از موفقیت عظیم در سیستم فایل توزیع شده Google و مدل رایانشی MapReduce برای پردازش داده‌های انبوه،‌‌ Hadoop، کپی آن، توجه روزافزونی را برای آن به همراه داشته است. ‌‌Hadoop کاملاً به کلان‌ داده وابسته است به‌طوری‌که همه سازمان‌های متکی به کلان‌ داده، دارای راه‌حل‌های اقتصادی کلان‌ داده بر مبنای‌‌ Hadoop هستند.‌‌ Hadoop در حال تبدیل ‌شدن به ‌یک سنگ زیربنا برای کلان‌ داده است.‌‌ Hadoop Apache ‌یک چارچوب کاری نرم‌افزاری متن‌باز است.‌‌ Hadoop پردازش توزیع‌شده‌ داده‌های انبوه در مقیاس بزرگ اقتصادی خوشه سرور را تحقق می‌بخشد، به‌جای این‌که متکی به سخت‌افزار انحصاری گران‌قیمت و سیستم‌های متنوع برای ذخیره‌سازی و پردازش داده‌ها باشد.
Hadoop مزایای بسیاری دارد، اما جوانب زیر مشخصاً مربوط به مدیریت و تحلیل کلان‌ داده است:
*     قابلیت توسعه‌پذیری: Hadoop ‌‌این امکان را می‌دهد تا زیرساخت‌های سخت‌افزاری بدون تغییر دادن فرمت داده گسترده‌سازی یا فشرده‌سازی شوند. این سیستم ‌به‌صورت خودکار داده‌ها را توزیع مجدد خواهد کرد و وظایف رایانشی با تغییرات سخت‌افزاری تطبیق خواهند يافت.
* هزینه بالای بهره‌وری: Hadoop رایانش موازی بزرگ ‌مقیاس را برای سرورهای اقتصادی اعمال می‌کند، به‌طوری‌که هزینه موردنیاز برای ظرفیت ذخیره‌سازی هر ‌‌ترابایت را به ‌طور شایانی کاهش می‌دهد. رایانش بزرگ ‌مقیاس، همچنین تطبیق حجم رو به رشد داده‌ها را دائماً ممکن می‌سازد.
* انعطاف‌پذیری قوی: Hadoop ممکن است بسیاری از انواع داده‌ها را از منابع گوناگون مدیریت کند. به‌علاوه، داده‌ها از منابع گوناگون می‌توانند برای تحلیل بیشتر در Hadoop تلفیق شوند. بنابراین، می‌تواند بر انواع مختلفی از چالش‌های ‌‌ایجاد شده توسط کلان‌ داده غلبه کند.
* تحمل خطای بالا: اتلاف داده‌ها و محاسبه اشتباه هنگام تحلیل کلان‌ داده امری رایج است، اما‌‌ Hadoop می‌تواند داده‌ها را بازیافت ‌کند و خطاهای رایانش را که ناشی از ازدحام شبکه ‌یا از دست رفتن گره‌ها است، اصلاح کند.

رابطه بین Hadoop و کلان‌ داده
هم‌اکنون، Hadoop ‌به‌صورت گسترده در صنعت، در برنامه‌های کاربردی کلان‌ داده، به‌ عنوان ‌مثال، فیلتر کردن هرزنامه‌ها، جستجوی شبکه، تحلیل جریان کلیک‌ها و توصیه‌های اجتماعی استفاده می‌شود. به‌علاوه، ‌یک تحقیق اساسی دانشگاهی در حال حاضر روی Hadoop در حال انجام است. برخی از موارد نمایانگر در ذیل ارائه‌ شده است. در ژوئن ۲۰۱۲ اعلام گردید، ‌Yahoo‌‌ Hadoop را در ۰۰۰,۴۲ سرور در چهار مرکز داده برای پشتیبانی از محصولات و خدماتش اجرا کرد؛ به‌ عنوان ‌مثال جستجو و فیلتر کردن هرزنامه‌ها و غیره. هم ‌اکنون بزرگ‌ترین خوشه‌‌ Hadoop، ۴۰۰۰ گره دارد، اما تعداد گره‌ها با انتشار Hadoop 2.0 به ۰۰۰,۱۰ گره افزایش خواهد يافت. در همان ماه، Facebook اعلام کرد خوشه Hadoop آن می‌تواند PB 100 داده را پردازش کند که رشدی بالغ ‌بر PB 5/0 در هر روز در نوامبر ۲۰۱۲ خواهد ‌داشت. برخی از سازمان‌های مشهور که از Hadoop برای انجام رایانش توزیع شده استفاده می‌کنند، در ]۵[ فهرست شده‌اند. به ‌علاوه، بسیاری از شرکت‌ها اجرا و پشتیبانی‌‌ Hadoop تجاری را ارائه می‌دهند که شامل Cloudera، IBM، MapR، EMC و Oracle می‌شوند.
مابین سیستم‌ها و ماشین‌آلات صنعتی مدرن، حسگرها به‌‌طور گسترده به‌کار گرفته شده‌اند تا اطلاعات مربوط به پایش محیطی و پیش‌بینی شکست‌ها و غیره را جمع‌آوری کنند. Bagha و دیگران در ]۶[،‌ چارچوبی برای سازماندهی داده‌ها و زیرساخت رایانش ابری با نام CloudView پیشنهاد داده‌اند. CloudView از معماری‌های مختلط، گره‌های محلی و خوشه‌های دور، بر مبنای ‌‌Hadoop، برای تحلیل داده‌های تولیدشده ماشینی، استفاده می‌کند. گره‌های محلی برای پیش‌بینی شکست‌های بلادرنگ استفاده می‌شوند؛ خوشه‌های مبتنی بر ‌‌Hadoop برای‌‌ ترکیب تحلیل آفلاین استفاده می‌شوند، مثلاً تحلیل داده‌‌های موردی.
رشد نمایی داده‌های ژنوم و هزینه‌های افت شدید متوالی منجر به تبدیل علوم زیستی و زیست پزشکی به علوم داده‌محور شده است. Gunarathne و همکارانش در ]۷[، از زیرساخت‌های رایانش ابری، Amazon AWS، Microsoft Azoure و نیز چارچوب کاری پردازش داده مبتنی بر MapReduce، ‌‌Hadoop و Microsoft DryLINQ برای اجرای دو برنامه کاربردی زیست پزشکی استفاده کرده‌اند: (الف) جمع‌آوری و سرهم کردن قطعات ژنوم؛ (ب) کاهش بُعد در تحلیل ساختار شیمیایی. در برنامه‌های کاربردی بعدی، از مجموعه داده‌های ۱۶۶-D استفاده شد که شامل ۰۰۰,۰۰۰,۲۶ نقطه داده بود. نویسندگان، عملکرد تمامی‌ چارچوب‌های کاری را از نظر کارایی، هزینه و دسترسی‌پذیری مقایسه کرده‌اند. برحسب ‌‌این تحقیق، نویسندگان نتیجه گرفتند که توأم‌سازی سست به‌طور فزاینده در ابر الکترونی تحقیق اعمال خواهد ‌شد و چارچوب فناوری برنامه‌نویسی موازی (یعنی، MapReduce) ممکن است کاربران را با خدمات آسان بیشتر و نیز کاهش هزینه‌های غیرضروری مواجه کند.

منابع
۱٫ Giuseppe DeCandia, Deniz Hastorun, Madan Jampani, Gunavardhan Kakulapati, Avinash Lakshman, Alex Pilchin, Swaminathan Sivasubramanian, Peter Vosshall, and Werner Vogels. Dynamo: amazon’s highly available key-value store. In SOSP, volume 7, pages 205–۲۲۰, ۲۰۰۷٫
۲٫ Luigi Atzori, Antonio Iera, and Giacomo Morabito. The internet of things: A survey. Computer Networks, 54(15):2787–۲۸۰۵, ۲۰۱۰٫
۳٫ Yantao Sun, Min Chen, Bin Liu, and Shiwen Mao. Far: A fault-avoidant routing method for data center networks with regular topology. In Proceedings of ACM/IEEE Symposium on Architectures for Networking and Communications Systems (ANCS’۱۳). ACM, 2013.
۴٫ Tom White. Hadoop: the definitive guide. O’Reilly, 2012.
۵٫    Wiki. Applications and organizations using hadoop.  http://wiki.apache.org/hadoop/PoweredBy,2013.
۶٫ Arshdeep Bahga and Vijay K Madisetti. Analyzing massive machine maintenance data in a computing cloud. Parallel and Distributed Systems, IEEE Transactions on, 23(10):1831–۱۸۴۳, ۲۰۱۲٫
۷٫ Thilina Gunarathne, Tak-Lon Wu, Jong Youl Choi, Seung-Hee Bae, and Judy Qiu. Cloud computing paradigms for pleasingly parallel biomedical applications. Concurrency and Computation: Practice and Experience, 23(17):2338–۲۳۵۴, ۲۰۱۱٫

نظر بدهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

It is main inner container footer text