درباره کتاب مدیریت کلان داده Big Data با اکوسیستم هادوپ، hadoop

۰۶ آذر ۱۴۰۲ کار آفرینی و مدیریت ، فناوری اطلاعات و ارتباطات

*با سلام و درود به مهمانان عزیز و کاربران گرامی وبلاگ #مهرزاد، ضمن عرض ادب و احترام به شما، این صفحه به منظور اطلاع رسانی و برای نشر آگاهی و غنی سازی می باشد،
خواهشمند است، هر گونه پیشنهاد یا انتقاد را به مدیر سایت بفرمایید.

کلان داده یا داده‌های عظیم، به مجموعه داده‌های بسیار بزرگ و پیچیده‌ای اطلاق می‌شود که ابزارهای سنتی نمی‌توانند، آن‌ها را در چارچوب زمانی قابل‌قبول یا با هزینه‌های معقول، پردازش کنند.

تأمین سخت‌افزار مورد نیاز، برای جستجو، ذخیره و تجزیه‌وتحلیل داده، برخی از چالش‌های مدیریت کلان داده، با استفاده از ابزارهای سنتی می‌باشند، که با ابزارهای مدیریت توزیع‌شده، می‌توان بر این چالش‌ها پیروز شد.

امروزه یک مجموعه غنی از ابزارهای پردازش کلان داده، برای کمک به برآورده ساختن تمام نیازهای داده‌های عظیم، قابل دسترس است.

در این کتاب، به بررسی پلتفرم قدرتمند هادوپ، که توسط بنیاد نرم‌افزار آپاچی، طراحی شده‌است، پرداخته‌ایم. این پلتفرم، مجموعه‌ی گسترده‌ای از ابزارها را برای بسیاری از عملکردهای کلان داده ارائه می‌دهد.

هادوپ، با جاوا نوشته‌شده و تحت مجوز آپاچی است و به‌عنوان یک سیستم توزیع شده و پردازش موازی کلان داده، توسط شرکت آپاچی، گسترش یافت.

بنیاد نرم‌افزاری آپاچی، ای اس اف، با رویکرد متن باز برای توسعه نرم‌افزار، تأثیر بسزایی هم در توسعه‌ی نرم‌افزار برای کلان داده و هم در رویکرد کلی حاکم بر این رشته دارد.

همچنین ایده‌ها و توسعه شرکت‌های درگیر با کلان داده مانند گوگل و فیس‌بوک و لینکدین را هم تغذیه می‌کند.

آپاچی یک برنامه انکوباتور دارد که پروژه‌ها در آن‌، وارد و بالغ می‌شوند، تا اطمینان حاصل شود، به‌اندازه‌ی کافی، قدرتمند بوده و ارزش تولید دارند.

با این فرض که، احتمال شکست، همواره وجود خواهد داشت، به‌گونه‌ای طراحی‌شده که، قابلیت توسعه در حوزه سخت‌افزار و داده ها را با هم ارائه کند.

در ادامه ابزارهای هادوپ را که به بهترین شکل نیازهای فوق را برآورده می‌کند، بررسی می‌کنیم.

اصطلاح کلان داده، معمولاً به داده‌هایی اطلاق می‌شود، که فراتر از توانایی محاسباتی ابزارهای سنتی بوده و معمولاً در محدوده چند ده ترابایت و بیشتر هستند، با این حال بالا بودن حجم داده، تنها راه شناسایی کلان داده نیست.

کلان داده، عمدتاً تحت سه واژه ,Volume ,Velocity Variety شناخته می‌شود. این سه واژه به‌اختصار 3V نامیده می‌شوند. توصیف این سه واژه به‌صورت زیر است:

, Volume اندازه و حجم کلی مجموعه داده

, Velocity نرخ تغییر داده و سرعت موردنیاز برای پردازش آن

, Variety وضعیت تنوع ساختار داده‌ها از لحاظ محتوا و مقدار داده‌های، اصوات، تصاویر، سنسور، متن و داده‌های بدون ساختار

در تعریف دیگری از کلان داده، دو معیار دیگر یا به عبارتی دو V دیگر نیز، به مفهوم کلان داده، اضافه شده‌است، که عبارتند از :

, Veracity داده‌ها از لحاظ صحت و دقت نیاز به بررسی و درنتیجه پاک‌سازی دارند.

, Value نگهداری داده، دارای هزینه است. یعنی هزینه سخت‌افزار، ذخیره‌سازی، اما با فروش و تحلیل داده‌ها می‌توان به منفعت و درآمد رسید.

در دنیای واقعی، نمونه‌های بسیاری از پروژه‌های کلان داده، در صنایع متعدد وجود دارد. خصوصیات کلان داده باعث می‌شود که تصویرسازی و گزارش از داده‌ها یک چالش عمده به حساب آید. هدف از مصورسازی داده این است که اطلاعات واضح و کارآمدی از طریق نمودارهای آماری و گرافیکی و ... استخراج گردد.

کلان داده، باید از نقطه نظر نحوه تغییر یا پردازش محتوا، مورد توجه قرار گیرد. اندازه‌ی مجموعه‌ی داده‌ها، می‌تواند بر فرآیندهایی، نظیر ذخیره‌ی داده، جابجایی، پردازش، نمایش، گزارش و تجزیه‌وتحلیل، تأثیر گزار باشد.

ابزارهای سنتی، به‌سرعت می‌توانند، توسط حجم داده، دچار چالش شوند. زمان بازیابی داده یا مدت‌زمان لازم برای دسترسی به داده با حجم داده، دارای ارتباط مستقیم است.

فرض کنید، بخواهید یک پرس‌وجوی فوری و ضروری را در مجموعه بزرگی از داده‌ها، اجرا کنید. ازآن‌جایی‌که یک سیستم بزرگ ذخیره داده، یک انباره داده نیست، نمی‌توان انتظار داشت که پاسخ پرس‌وجوی خود را در عرض چند ثانیه، دریافت کنید، اما بااین‌حال، راه‌های مختلفی، برای غلبه بر این چالش وجود دارد.

حذف بخشی از داده، برای کاهش حجم آن می‌تواند یکی از راهکارهای حل مشکلات ناشی از بزرگ بودن داده‌ها باشد، اما این راه‌حل همیشه عملی نیست.

ممکن است، در سازمان، مقرراتی برای ذخیره‌سازی داده وجود داشته باشد.

به‌عنوان مثال، نگه‌داری چندساله یا همیشگی داده‌ها،

افزون‌براین، شاید داده‌های تجاری ذخیره‌شده در آینده بتوانند با خود منافعی را به‌همراه داشته باشند. که اگر بخشی از داده، حذف شود، جزئیات از بین رفته و به طبع آن، بسیاری از منافع رقابتی و بالقوه آینده نیز از بین خواهد رفت.

در مقابل راه‌حل حذف داده، رویکرد پردازش موازی می‌تواند، ترفند خوبی باشد.

این موازی‌سازی، مبتنی بر تقسیم است. در این نظریه، داده‌ها به مجموعه‌های کوچک‌تر تقسیم شده و به‌صورت موازی پردازش می‌شوند.

برای پیاده‌سازی چنین محیطی، ملزوماتی نیاز است. ازآن‌جایی‌ که رشد داده، منجر به اختلال در پردازش می‌شود، برای شروع، نیاز به یک پلتفرم ذخیره سازی قدرتمند که قابلیت توسعه پذیری با هزینه‌های معقول را داشته باشد، احساس می‌شود.

پردازش تمام نمونه‌های یک مجموعه کلان داده، ممکن است، تعداد قابل توجهی سرور را درگیر کند. بنابراین، هزینه سیستم‌ها، به‌ازای هر واحد ذخیره‌سازی، باید معقول و مقرون‌به‌صرفه باشد.

ازنظر خرید مجوز نرم‌افزاری نیز، باید آنها مقرون‌به‌صرفه باشند. زیرا ممکن است، روی تعداد قابل توجهی سرور نصب شوند.

علاوه‌بر این، سیستم‌ها باید، هم در ذخیره‌سازی داده و هم سخت‌افزار مورداستفاده، دارای قابلیت توسعه پذیری باشند.

همچنین می‌بایست، روی سخت‌افزارهای موجود و کم‌هزینه و عمومی قابل اجرا باشند، تا به کاهش هزینه‌ها کمک کنند.

درنهایت، در چنین سیستمی، به‌جای بردن داده‌ها به سمت پردازش، بایستی پردازش را به سمت داده‌ها برد.

اگر داده‌ها به صورت خطی پردازش شوند، شبکه‌ها به‌سرعت دچار کمبود پهنای باند خواهند شد.

سیستم کلان داده، نیازمند مجموعه ابزاری است که در عملکرد توانمند باشد. یک نوع پلتفرم ذخیره‌سازی توزیع‌شده منحصربه‌فردی، که قادر به جابجایی حجم بسیار بالایی از داده‌ها، بدون از دست دادن آن‌ها باشد.

ابزارها باید، شامل روش‌هایی برای پیکربندی یکسان، به‌منظور حفظ هماهنگی تمام سرورهای سیستم و همچنین راه‌حل‌های یافتن داده و هدایت آن به سیستم باشند.

به‌طور خلاصه، یک سیستم برای پردازش کلان داده نیازمند موارد زیر است،

روشی برای جمع‌آوری و طبقه‌بندی داده

و روشی برای جابه‌جایی داده در سیستم به‌صورت ایمن، بدون از بین رفتن داده‌ها

و یک سیستم ذخیره که دارای مشخصات زیر است،

بین تعداد زیادی از سرورها توزیع شده باشد و قابل ارتقا به هزاران سرور باشد و قابلیت افزونگی داده و پشتیبان گیری داشته باشد و در موارد خرابی سخت‌افزاری قابلیت بازیابی وجود داشته باشد و از لحاظ هزینه مقرون‌به‌صرفه باشد.

و مجموعه ابزار کارآمد و پشتیبانی از کاربران

و روشی برای پیکربندی سیستم توزیع‌شده

و قابلیت پردازش موازی داده‌ها

و ابزارهای مانیتورینگ سیستم

و ابزارهای گزارش‌گیری

و ابزارهای ترجیحاً با رابط گرافیکی و کاربری آسان، به‌منظور ساختن وظایفی که داده را پردازش کرده و پیشرفت اجرای آن‌ها را نمایش دهد.

و ابزارهای تعیین زمان‌، برای تعیین زمان اجرای وظایف و نمایش وضعیت آن‌ها، توانایی مانیتورینگ روند داده‌ها، به‌صورت آنی،

و به‌منظور کاهش پهنای باند مورد استفاده شبکه، پردازش محلی، در جایی‌که داده، ذخیره می‌شود.

درحالی‌که حجم داده‌ها در بسیاری از سازمان‌ها ممکن است، به‌حدی زیاد نباشد، که بتوان آن‌ها را کلان داده اطلاق کرد، اما همه آن‌ها، باید سیستم‌های خود را به‌عنوان یک کل، بررسی کنند.

یک سازمان بزرگ، ممکن است، دارای یک منبع داده‌ی بزرگ و مجزا باشد.

اگر سازمان شما بخواهد به عرصه کلان داده ورود کند، پیش‌از هر چیز، این سوال، پیش می‌آید که چرا سازمان شما بایستی قواعد خود را تغییر دهد؟ چرایی نیاز به استفاده از کلان داده و دانستن رویکرد پردازش موازی در کلان داده‌ها را می‌توان در پاسخ به نیازهای ذیل جستجو کرد.

اگر داده‌هایتان، دیگر توسط سیستم‌های پایگاه‌های داده با رابط سنتی، قابل پردازش نیستند، احتمالا بدین معناست که داده‌های سازمان، شما را در آینده، دچار مشکل خواهند کرد و ممکن است برای پردازش حجم بسیاری زیادی از داده‌ها در یک مدت زمان قابل‌قبول، تحت فشار قرار بگیرید.

همچنین یکی از بزرگ‌ترین هزینه‌ها در ساخت یک سیستم کلان داده، نیاز به کارکنان متخصص برای نگه‌داری از آن و استفاده از داده‌های موجود در آن است.

اگر از حالا شروع کنید، به‌جای آن‌که بعدها، مشاوران پرهزینه استخدام کنید، می‌توانید یک مهارت و تخصص جدید را در سازمان‌های خود شکوفا کنید.

دسترسی به این فناوری‌ها و یادگیری آن، می‌تواند شما را یاری دهد، که یک شغل جدید و پرسود در عرصه کلان داده ایجاد کنید.

یک شرکت با پذیرش پلت فرمی که قابل ارتقا باشد، می‌تواند سقف حیات سیستم خود را گسترش داده و باعث ذخیره‌ی مالی شود.

یک شرکت که محدود به راهکارهای ناپایدار بود، ممکن است طی چند سال به ظرفیتی دست یابد، اما با گذر زمان نیازمند توسعه مجدد می‌باشد.

چنانچه یک شرکت هم‌اکنون در زمینه‌های کلان داده فعال شود، می‌تواند آینده خود را تضمین کرده و ریسک‌ها را کاهش دهد.

هنگام پیاده‌سازی هر سیستم کلان داده، سازمان شما باید اهدافش را به‌خاطر داشته باشد.

چرا سیستم خود را ارتقا می‌دهید؟
به چه امیدی این کار را انجام می‌دهید؟
چگونه سیستم کارآمد خواهد بود؟
چه چیزی را ذخیره می‌کنید؟

چالش‌های امنیت زیرساخت و حریم خصوصی اطلاعات و داده‌ها را می‌توان از چهار جنبه بررسی کرد،

امنیت زیرساخت
حریم خصوصی اطلاعات و داده‌ها
مدیریت داده‌ها
امنیت یکپارچگی

در این خلاصه کوتاه، مفهوم کلان داده را بحث نموده و به معرفی چالش‌ها، پتانسیل‌ها و مزایای کلان داده پرداخته و یک مجموعه از نیازمندی‌ها را برای ایجاد یک سیستم کلان داده ساخت‌یافته، نیمه ساخت‌یافته و غیر ساخت‌یافته، بررسی کردیم.

لطفا برای جلوگیری از قطع درختان، به جز موارد بسیار ضروری، ازچاپ روی کاغذ، خودداری فرمایید.

غنی سازی برای کار آفرینی و مدیریت با استفاده از فناوری اطلاعات و ارتباطات

وبلاگ#مهرزاد

با نام و یاد او

فرهنگی، اجتماعی، اقتصادی

درباره کتاب مدیریت کلان داده Big Data با اکوسیستم هادوپ، hadoop

تمام حقوق متعلق به MehranZarkani می باشد. برای بازنشر محتوا با ذکر منبع رضایت داریم.

2025 Copyright, All Rights Reserved = 1404 خورشیدی

متشکریم که پیشنهادها و انتقادات سازنده خودتان را از طریق نامه الکترونیکی ( ایمیل ) یا شماره تلفن ذیل برای ما می فرستید.

.طبق قانون در سایت رسمی ساماندهی ثبت شده است

.ما در شبکه های اجتماعی نیز هستیم

وبلاگ#مهرزاد

با نام و یاد او

​ فرهنگی، اجتماعی، اقتصادی

درباره کتاب مدیریت کلان داده Big Data با اکوسیستم هادوپ، hadoop

تمام حقوق متعلق به MehranZarkani می باشد. برای بازنشر محتوا با ذکر منبع رضایت داریم.​​​​​​​

2025 Copyright, All Rights Reserved = 1404 خورشیدی

متشکریم که پیشنهادها و انتقادات سازنده خودتان ​​​​​​​را از طریق نامه الکترونیکی ( ایمیل ) ​​​​​​​ یا شماره تلفن ذیل برای ما می فرستید.

.طبق قانون در سایت رسمی ساماندهی ثبت شده است

.ما در شبکه های اجتماعی نیز هستیم

فرهنگی، اجتماعی، اقتصادی

تمام حقوق متعلق به MehranZarkani می باشد. برای بازنشر محتوا با ذکر منبع رضایت داریم.

متشکریم که پیشنهادها و انتقادات سازنده خودتان را از طریق نامه الکترونیکی ( ایمیل ) یا شماره تلفن ذیل برای ما می فرستید.