*با سلام و درود به مهمانان عزیز و کاربران گرامی وبلاگ #مهرزاد، ضمن عرض ادب و احترام به شما، این صفحه به منظور اطلاع رسانی و برای نشر آگاهی و غنی سازی می باشد،
خواهشمند است، هر گونه پیشنهاد یا انتقاد را به مدیر سایت بفرمایید.
کتاب مدیریت کلان داده با اکوسیستم هادوپ، گردآوری و تدوین محمدمهدی متولی، رضا ظهوری آرام، مهرداد الماسی، می باشد.
مقدمه کتاب: در بیست سال گذشته افزایش داده ها در زمینههای مختلف با رشد سریعی همراه بودهاست. بنا به گزارش IDC در سال 2011، کل داده ساخته و یا کپی شده در جهان تقریباً برابر با 1.8 زتا بایت بودهاست، که این مقدار نسبت به کل دادههای تولید شده در پنج سال قبل از آن 9 برابر شدهاست.
تخمین زده شده که، این میزان داده ها، حداقل در هر دو سال دو برابر خواهد گردید. با توجه به آنچه بیان شد، اهمیت تولید و بهکارگیری ابزارهایی مناسب برای مدیریت این حجم از کلان دادهها بسیار ضروری بهنظر میرسد.
مدیریت کلان داده، به مجموعهای از روشها و ابزارها و چارچوبها، اطلاق میشود که مدیریت کنترل و پردازش دادهها را در حالتی فراتر از توانایی ابزارهای پیشین انجام میدهند، تا بتوانند ارزشهایی را که در مجموعههای بزرگ، وسیع، پیچیده و متنوع از دادهها هستند، را آشکار سازند.
کلان داده در حوزههای مهندسی و تجارت تأثیر به سزایی دارد و بسیاری از رشتههای مهندسی مانند مهندسی برق، شیمی و صنایع تولیدی، برای آنالیزهای پیشرفته نیاز به ابزارهای مدیریت کلان داده دارند.
در حوزه کسبوکار و تجارت نیز از داده، بهعنوان بزرگترین دارایی شرکتها، نام برده میشود. چراکه تحلیل و کسب دانش مفید، از دادهها بهعنوان یک مزیت رقابتی برای شرکتها محسوب شده و منجر به بهبود کسبوکار و حصول درآمد میشود.
این کتاب در دو بخش و شش فصل به طرح مباحث نظری و عملی کلان داده میپردازد.
در بخش اول که شامل سه فصل است، به مفاهیم پایه و کلیات پرداخته و بخش دوم که آن نیز در سه فصل تنظیم گردیده، به مباحث عملی اختصاص دارد.
فصل اول، به معرفی کلان داده، چالشها و مزایای آن اختصاص دارد.
در فصل دوم، ابعادمختلف کلان داده، معرفی شدهاست و از شش جنبه که شامل، داده، زیرساخت محاسباتی، زیرساخت ذخیرهسازی، تحلیل، مصورسازی و امنیت است، کلان داده را بررسی کردهایم.
همچنین در این فصل، پلتفرم قدرتمند هادوپ، برای پردازش موازی مجموعه دادههای بزرگ، معرفی شدهاست.
در فصل سوم، بهدلیل اهمیت پردازش موازی در سیستمهای کلان داده، مدل برنامهنویسی MapReduce معرفی شده است.
در بخش دوم کتاب، که مربوط به مباحث عملی در کلان داده است، به بررسی چندین ابزار و پلتفرم برای پردازش کلان داده پرداختهایم.
در فصل چهارم، پروژه Zeppelin معرفی شدهاست، که یک ابزار مبتنی بر وب برای انجام تحلیلهای تعاملی میباشد.
در فصل پنجم، به یکی از پشتههای مطرح هادوپ بهنام HDP پرداختهایم که یک بستر تقریباً کامل برای ایجاد یک سیستم کلان داده میباشد.
درنهایت در فصل ششم، نیز به معرفی یک چارچوب قدرتمند بهنام Ranger میپردازیم که وظیفه آن فراهم نمودن امنیت جامع، در سراسر اکوسیستم هادوپ است.
کتاب حاضر حاصل گردآوری و ترجمه از منابع مختلف و معتبر میباشد. عمده مطالب مطرحشده در بخش اول، از کتاب Big Data Made Easy به نویسندگی مایکل فرامپتون، اتخاذ گردیده است.
در بخش دوم کتاب، عمدتاً از مطالب مندرج در سایتهای شرکتهای ارائه دهنده پروژههای مرتبط با کلان داده استفاده شد، که به آنها اشاره گردیده است.
همچنین، در این کتاب، از ترجمه فارسی برخی کلمات تخصصی خودداری شدهاست. این امر به این دلیل رخ داده که با ترجمهی برخی از کلمات بار معنایی و مفهوم اصلی و فنی آنها از بین میرود. از طرفی چون کتاب حاضر به مباحث عملی نیز میپردازد، بهتر است که خوانندگان محترم با اصطلاحات اصلی و فنی و تخصصی مربوطه آشنا گردند.
بهطور حتم، کتاب حاضر، خالی از اشکال نیست و امیدواریم، خوانندگان محترم با نقطه نظرات مفید خود بتوانند، ما را در بهبود و رفع نواقص کتاب یاری نمایند.
فهرست مطالب اصلی کتاب:
کلان داده چیست
کلان داده و ابزارهای مرتبط با آن
ابعاد کلان داده
پردازش دادهها با MapReduce
کلان داده در عمل
تحلیل و پردازش دادهها با Zeppelin
آشنایی با Hortonworks Sandbox
امنیت هادوپ با Ranger
لطفا برای جلوگیری از قطع درختان، به جز موارد بسیار ضروری، ازچاپ روی کاغذ، خودداری فرمایید.
غنی سازی برای کار آفرینی و مدیریت با استفاده از فناوری اطلاعات و ارتباطات