BigData Practical Analytics

مدیریت افزونگی داده پیشرفته

اصطلاح Big Data برای مجموعه داده های حجیم که بزرگ ، متنوع، با ساختار پیچیده و با دشواریهایی برای ذخیره سازی ، تحلیل و تصویرسازی (نمایش) ، مواجه می باشند مورد استفاده قرار می گیرد.. پروسه تحقیق بر روی داده های حجیم جهت آشکارسازی الگوهای مخفی و راز همبستگی ها و تجزیه و تحلیل آن ها Big Data نامیده میشود. این داده ها از تراکنشهای email ،online ها، ویدئوها، صوتها، کلیک کردن ها، log ها و ارسالها، درخواستهای جستجو، یادداشتها، تعاملات شبکه های اجتماعی، داده های علمی، سنسورها و تلفنهای همراه و برنامه های کاربردی آنها تولید میشوند. این اطلاعات بر روی پایگاه داده ها که به شکل حجیم رشد میکنند، ذخیره میشوند و ضبط، شکل دهی، ذخیره سازی، مدیریت و به اشتراک گذاری، تحلیل و نمایش آنها از طریق ابزارهای نرم افزاری پایگاه داده، دشوار می گردند. پنج اگزا بایت (10 به توان 18 بایت) دیتا تا سال 2003 به وسیله انسان به وجود آمده است. امروزه این مقدار اطلاعات در دو روز تولید میشود. در سال 2012 داده های دنیای دیجیتال به 2.72 زتا بایت ( 10 به توان 21 بایت) توسعه پیدا کرد. پیش بینی میشود که این مقدار هر دو سال ، دو برابر شود وبه حدود 8 زتا بایت داده در سال 2015 میرسیم. مطابق تحقیقاتی که توسط IBM مورد انجام قرار گرفته است روزانه 2.5 اگزا بایت داده تولید میشود و همچنین %90 از داده ها در 2 سال اخیر تولید شده اند. اگر فرض نمائیم یک کامپیوتر شخصی حدود 500 گیگا بایت (10 به توان 9 بایت) داده نگه داری نماید، بنابراین برای ذخیره سازی همه داده های دنیا به حدود 20 میلیارد PC نیاز است. مبتنی بر کلیه اطلاعات فوق ضرورت توجه به مفهوم حجیم داده در روزگار اخیر بیش از هرزمان دیگری دارای اهمیت می باشد.

مقدمه

اصطلاح Big Data برای مجموعه داده های حجیم که بزرگ ، متنوع، با ساختار پیچیده و با دشواریهایی برای ذخیره سازی ، تحلیل و تصویرسازی (نمایش) ، مواجه می باشند مورد استفاده قرار می گیرد.. پروسه تحقیق بر روی داده های حجیم جهت آشکارسازی الگوهای مخفی و راز همبستگی ها و تجزیه و تحلیل آن ها Big Data نامیده میشود. این داده ها از تراکنشهای email ،online ها، ویدئوها، صوتها، کلیک کردن ها، log ها و ارسالها، درخواستهای جستجو، یادداشتها، تعاملات شبکه های اجتماعی، داده های علمی، سنسورها و تلفنهای همراه و برنامه های کاربردی آنها تولید میشوند. این اطلاعات بر روی پایگاه داده ها که به شکل حجیم رشد میکنند، ذخیره میشوند و ضبط، شکل دهی، ذخیره سازی، مدیریت و به اشتراک گذاری، تحلیل و نمایش آنها از طریق ابزارهای نرم افزاری پایگاه داده، دشوار می گردند. پنج اگزا بایت (10 به توان 18 بایت) دیتا تا سال 2003 به وسیله انسان به وجود آمده است. امروزه این مقدار اطلاعات در دو روز تولید میشود. در سال 2012 داده های دنیای دیجیتال به 2.72 زتا بایت ( 10 به توان 21 بایت) توسعه پیدا کرد. پیش بینی میشود که این مقدار هر دو سال ، دو برابر شود وبه حدود 8 زتا بایت داده در سال 2015 میرسیم. مطابق تحقیقاتی که توسط IBM مورد انجام قرار گرفته است روزانه 2.5 اگزا بایت داده تولید میشود و همچنین %90 از داده ها در 2 سال اخیر تولید شده اند. اگر فرض نمائیم یک کامپیوتر شخصی حدود 500 گیگا بایت (10 به توان 9 بایت) داده نگه داری نماید، بنابراین برای ذخیره سازی همه داده های دنیا به حدود 20 میلیارد PC نیاز است. مبتنی بر کلیه اطلاعات فوق ضرورت توجه به مفهوم حجیم داده در روزگار اخیر بیش از هرزمان دیگری دارای اهمیت می باشد.

اهداف

دوره ی آموزشی کاربردی BIG DATA یک راهنمای کامل است برای کسانی که می خواهند درک کنند که IT چیست و و کاربرد عینی آن در صنعت BIG DATA و دیگر صنایع جیست ؟

پیش نیاز

آشنایی مقدماتی با سیستم عامل لینوکس و یکی از زبان های برنامه نویسی الزامی میباشد

مخاطبان

این دوره برای تمامی افرادی که نقشی در ارائه، کاربری و مدیریت محصولات و خدمات فناوری اطلاعات دارند، جذاب است. این افراد شامل موارد ذیل هستند:

ارائه دهندگان خدمات داخلی و خارجی
مشتریان
کاربران
مدیران

سرفصل های دوره

Introduction to Hadoop

Hadoop Distributed File System
Comparing Hadoop & SQL
Industries using Hadoop
Data Locality
Hadoop Architecture
Map Reduce & HDFS

Hadoop Distributed File System (HDFS)

HDFS Design & Concepts
Blocks, Name nodes and Data nodes
HDFS High-Availability and HDFS Federation
Hadoop DFS The Command-Line Interface
Basic File System Operations
Anatomy of File Read, File Write
Block Placement Policy and Modes
More detailed explanation about Configuration files
Metadata, FS image, Edit log, Secondary Name Node and Safe Mode
How to add New Data Node dynamically, decommission a Data Node dynamically (Without stopping cluster)
FSCK Utility. (Block report)
How to override default configuration at system level and Programming level

Map Reduce

Map Reduce Functional Programming Basics
Map and Reduce Basics
How Map Reduce Works
Anatomy of a Map Reduce Job Run
Shuffling and Sorting
Splits, Record reader, Partition, Types of partitions & Combiner
Distributed Cache and Hadoop Streaming (Python, Ruby and R)
YARN
Sequential Files and Map Files
Map side Join with distributed Cache

Map Reduce Programming – Java Programming

Hands on “Word Count” in Map Reduce in standalone and Pseudo Distribution Mode
Write some Map Reduce programs to solve some real world problems

Spark Basics

What is Apache Spark?
Spark Installation
Spark Configuration
Spark Context
Using Spark Shell
Resilient Distributed Datasets (RDDs) – Features, Partitions, Tuning Parallelism
Functional Programming with Spark

Working with RDDs