一、课程简介
随着2015年9月国务院发布了《关于印发促进大数据发展行动纲要的通知》,各类型数据呈现出了指数级增长,数据成了每个组织的命脉。今天所产生的数据比过去几年所产生的数据大好几个数量级,企业有了能够轻松访问和分析数据以提高性能的新机会,如何从数据中获取价值显得尤为重要,也是大数据相关技术急需要解决的问题。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。数据建模不仅仅是任意组织数据结构和关系,还必须与最终用户的需求和问题联系起来,并提供指导,帮助确保正确的数据正确使用正确的方法获得正确的结果。
二、培训对象:
各省市、自治区从事大数据分析、数据挖掘、数据处理、数据建模等领域相关的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校研究生等相关人员,以及大数据研究广大爱好者。
三、培训师资
李老师,资深教授,长期从事机器学习、分布式系统方面的研究。承担了国家973、836、国防重点型号等项目
四、培训目标
1.掌握大数据建模分析与使用方法。
2.掌握大数据平台技术架构。
3.掌握国内外主流的大数据分析与BI商业智能分析解决方案。
4.掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。
5.掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用。
6.掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。
7.掌握常见的机器学习算法。
五、培训时间与地点
2021年11月26日 — 月30日 (26日报到) 北京
六、培训证书
参加相关培训并通过考试的学员,可以获得:
中国管理科学研究院职业资格认证培训中心颁发《大数据开发与应用工程师》(高级)专业能力认证证书,
七、培训费用
5680元/人,含报名费、培训费、资料费、证书费等。食宿可统一安排,费用自理
联系人:张老师 13401149170
八、课程大纲
一、大数据概述
1.大数据及特点分析
2.大数据关健技术
3.大数据计算模式
4.大数据应用实例
二、大数据处理架构Hadoop
1.Hadoop项目结构
2.Hadoop安装与使用
3.Hadoop集群的部署与使用
4.Hadoop 代表性组件
三、分布式文件系统HDFS
1.HDFS体系结构
2.HDFS存储
3.HDFS数据读写过程
四、分布式数据库HBase
1.HBase访问接口
2.HBase数据类型
3.HBase实现原理
4.HBase运行机制
5.HBase应用
五、MapReduce
1.MapReduce体系结构
2.MapReduce工作流程
3.资源管理调度框架YARN
4.MapReduce应用
六、Spark
1.Spark生态与运行架构
2.Spark SQL
3.Spark部署与应用方式
七、IPython Notebook运行Python Spark程序
1.Anaconda
2.IPython Notebook使用Spark
3.使用IPython Notebook在Hadoop YARN模式运行
八、Python Spark集成开发环境
1.Python Spark集成开发环境部署配置
2.Spark数据分析库MLlib的开发部署
九、Python Spark决策树二分类与多分类
1.决策树原理
2.大数据问题
3.决策树二分类
4.决策树多分类
十、Python Spark支持向量机
1.支持向量机SVM 原理与算法
2.Python Spark SVM程序设计
十一、Python Spark 贝叶斯模型
1.朴素贝叶斯模型原理
2.Python Spark贝叶斯模型程序设计
十二、Python Spark逻辑回归
1.逻辑回归原理
2.Python Spark逻辑回归程序设计
十三、Python Spark回归分析
1.大数据分析
2.数据集介绍
3.Python Spark回归程序设计
十四、Spark ML Pipeline 机器学习流程分类
1.机器学习流程组件:StringIndexer、OneHotEncoder、VectorAssembler等
2.使用Spark ML Pipeline 机器学习流程分类程序设计
十五、Python Spark 创建推荐引擎
1.推荐算法
2.推荐引擎大数据分析使用场景
具体课程安排咨询:张老师 13401149170(微信同号)