【专业介绍】
Spark是类MapReduce的通用并行框架,Spark,拥有MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法;
Spark是近年来发展较快的分布式并行数据处理框架,可以与Hadoop联合使用,增强Hadoop的性能。同时,Spark还增加了内存缓存、流数据处理、图数据处理等更为的数据处理能力。
【课程内容】
Spark核心框架概况、运行模式、基本术语的介绍;
Spark的核心组件RDD及相关的数据分析方法;
Spark的血统与检查点、Spark的技术原理、对Spark的基础使用进行阶段性实战训练,
对基于Spark-SQL的样例程序进行深度分析、流式数据分析框架Spark-Streaming的基础理论,
对基于Spark-Streaming的样例程序进行深度分析、机器学习框架Spark-MLlib的基础理论,
图计算框架Spark-GraphX的基础理论,
Spark的性能优化技术;
【课程目标】
对Spark的使用进行阶段性实战训练,此过程需要学员进行实际动手操作,旨在将理论付诸实践,提高学员的实际动手能力。
【教学环境】
【关于我们】
电子科大大数据研究中心介绍
大数据研究中心是目前国内规模大、架构完整的大数据产学研一体化机构,拥有人才12名,中心成员曾获得1项自然科学二等奖,2项科技进步二等奖,11项省部级科技奖励一等奖。
2014年11月18日,科多大数据的母公司勤智数码科技有限公司与成都电子科技大学大数据研究中心就共同发起设立的成电勤智“机器学习与数据智能”联合实验室,专注于大数据机器学习领域的研究。
【学校荣誉】
【专业师资】
吴志刚
互联网数据挖掘分析专家
15年以上互联网大数据从业经验,曾服务于世界500强企业诺西;对贝叶斯分析方法进行数据分析与挖掘有深入研究,擅长基于分布式数据库的应用开发
朱胜
大数据安全领域专家
10年数据领域从业经验,历经软件开发、系统设计、项目管理、项目咨询等多个阶段,有着丰富的电力、物流、零售业龙头企业的数据管理、数据分析和产品设计等经验。