【课程背景】
当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架,已经广为人知,且得到了广泛的应用,但MapReduce自身存在很多问题,包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下,不能很好地利用内存资源,编程复杂度较高等。为了克服MapReduce的众多问题,新型计算框架出现了。Spark已经被不少互联网公司采用,大部分数据挖掘算法和迭代式算法在逐步MapReduce平台迁移到Spark平台中,包括阿里巴巴,腾讯,百度,优酷土豆,360,支付宝等互联网公司已经在线上产品中使用spark,且取得了令人满意的效果,另外,部分省份的运营商也正在尝试使用spark解决数据挖掘和分析问题,部分银行,如工商银行,也正在尝试spark平台。因此中国软件产业培训网决定开展“Spark大数据处理与案例分析工程师”实战培训班。
【课程目标】
1、深入理解Spark计算原理和编程模型,掌握Spark Core和SparkSql、SparkStreaming等上层系统的结合方式
2、深入掌握SparkCore、SparkSql使用调优技巧
3、深入掌握SparkStreaming和SparkMllib使用和调优技巧
4、深入掌握Spark和其他组件的结合使用
5、了解Spark与MapReduce分布式计算模型的区别和各自适合的使用场景。
6、能够使用java、python和scala进行spark应用开发(如果要讲解三种语言开发spark,工作量会非常大,建议只讲解一种(可以根据企业的要求来定,)
7、熟练使用spark、spark streaming、spark SQL、spark mllib
8、深入了解spark在大型互联网的架构和使用场景
【培训大纲】
模块一:Spark 2.1概述
模块二:Spark Core
模块三:Spark 内部原理剖析与源码阅读
模块四:Spark 程序调优技巧
模块五:Spark sql 2.1
模块六:Spark SQL程序设计与企业级应用案例
模块七:Spark Streaming程序设计及应用案例
模块八:Spark Mllib Spark MLlib 企业级案例
模块九:Spark综合案例 信用评分实时分析系统
模块十:典型项目 案例实战
【培训对象】
各地企事业单位大数据产业相关人员,运营商 IT信息化和运维工程师相关人员,金融业信息化相关人员,或对大数据spark感兴趣的相关人员。
【师资介绍】
张老师:阿里大数据专家,国内的Spark、Hadoop技术专家、虚拟化专家,对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有:某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。
【颁发证书】
参加相关培训并通过考试的学员,可以获得:
1.工业和信息化部全国网络与信息技术项目管理中心颁发的-大数据工程师职业技能证书。该证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。
注:请学员带一寸彩照2张(背面注明姓名)、身份证复印件一张。
【培训特色】
本课程基于新的spark 2讲解,内容涵盖了企业中大数据处理的四大场景:
离线批处理、流式计算、SQL处理、机器学习。Spark是一个广泛应用的分布式内存计算模型,旨在大幅提升的迭代算法和交互低延迟数据挖掘的性能。Spark更适合于迭代运算比较多的ML和DM运算,one stack rule them all!Spark号称一个平台可以适合所有的应用,如SparkSql可以处理结构化数据,SparkStreaming旨在提供实时的计算能力,而SparkMllib则提供了丰富机器学习算法库。
【培训费用及须知】
培训费6800元。(含培训费、资料费、考试费、证书费、讲义光盘费等)。需要住宿学员请提前通知,可统一安排,费用自理。