高度决定眼界、专业创造价值!中国规模最大、实力最强的培训服务提供商!

24小时服务热线:020-31041068

详细内容:当前的位置:首页 >> 公开课

R数据挖掘技术-基于R语言的数据挖掘和统计分析技术

  • 开课时间: 2016年5月18日 周三 2016年5月20日 周五 查看最新上课时间
  • 开课城市: 北京
  • 培训时长:3天
  •  
  • 课程类别: 综合管理
  • 主讲老师:杨老师(查看该老师更多课程)
  • 课程编号: 39430
  • 查找同类课程
R数据挖掘技术-基于R语言的数据挖掘和统计分析技术其它上课时间:

培训对象:

1,系统架构师、系统分析师、高级程序员、资深开发人员。2,牵涉到数据挖掘和统计分析的数据中心运行、规划、设计负责人。3,政府机关,金融保险、移动和互联网等大数据来源单位的负责人。4,高校、科研院所牵涉到数据挖掘与统计分析处理的项目负责人。

培训内容:

课程收益:

1,全面了解R语言数据挖掘的相关知识。
2,学习R的数据挖掘核心技术方法以及应用特征。
3,深入使用R在数据挖掘和分析中的使用。
4,了解R与Hadoop、Spark等技术的融合使用。

培训颁发证书:

培训结束,颁发培训中心“R数据挖掘技术-基于R语言的数据挖掘和统计分析技术”结业证书。

课程大纲:

随着互联网、移动互联网和物联网的发展,我们已经切实地迎来了一个大数据的时代。如何对海量数据进行挖掘和分析,已经成为一个非常重要且紧迫的需求。
R是一个数据分析和图形显示的程序设计环境,用于统计分析、绘图的语言和操作。是目前广大企业较通用的数据挖掘与统计分析工具。为解决广大系统设计人员深入进行数据挖掘与统计分析需要,培训中心特举办“R数据挖掘技术-基于R语言的数据挖掘和统计分析技术”培训班,具体事宜通知如下:
一、培训对象
1,系统架构师、系统分析师、高级程序员、资深开发人员。
2,牵涉到数据挖掘和统计分析的数据中心运行、规划、设计负责人。
3,政府机关,金融保险、移动和互联网等大数据来源单位的负责人。
4,高校、科研院所牵涉到数据挖掘与统计分析处理的项目负责人。
二、学员基础
1,对IT系统设计有一定的理论与实践经验。
2,对数据挖掘和数据处理方法有一定的基础知识。
3,对Hadoop/Spark等大数据技术有一定的了解。
三、师资
由业界知名大数据专家亲自授课:
杨老师 主要研究网络信息分析以及云计算相关技术,长期从事通信网管系统、网络信息处理、商务智能(BI)以及电信决策支持系统的研究开发工作,主持和参与了多个国家和省部级基金项目,具有丰富的工程实践及软件研发经验。
四、培训要点
互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论,成为了海量信息的多种形式。当数据以成百上千TB不断增长的时候,我们在内部交易系统的历史信息之外,需要一种基于大数据分析的决策模型和技术支持。
目前对大数据的分析工具,有Hadoop/Yarn上基于Java语言的Mahout,有Spark上基于Scala的MLlib,但这些工具都由于比较年轻以及侧重于计算背景的分布式,与传统的行业应用联系还不是太紧密,在传统行业中应用,至少目前效果和影响还有待提高。
R语言是一个数据分析和图形显示的程序设计环境,广泛用于统计分析、绘图的语言和操作。同时R也是一个用于统计计算和统计制图的优秀工具,也是GNU的一个自由、免费、源代码开放的软件。R包括一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输入,可实现分支、循环,用户可自定义功能。
事实上,R是目前广大企业通用的数据挖掘与统计分析工具,为此Spark等大数据平台从2014年就开始在SparkR等技术中,将R引入到大数据统计分析中,未来形成以R语言为代表的SparkR, 以类SQL为代表的SparkQL,以及Hive on Tez三足鼎立的大数据统计分析工具和平台。
本课程从R语言数据挖掘和统计分析实战的角度,结合理论和实践,全方位地介绍R这一高性能数据分析工具的开发技巧。本课程涉及的主题包括:本培训将介绍基于R语言进行数据处理、数据探索的基本方法,利用R语言实现模型选择、Logistic回归及决策树算法,以及贝叶斯算法及支持向量机、神经网络等算法原理及实现进行讲解。
本课程教学过程中还从国内外经典R语言教材和应用中,提取了大量的案例分析来帮助学员了解如何用R系列工具来解决数据统计分析的具体问题,并介绍了从数据中挖掘出有价值的信息的关键。
本课程不是一个泛泛的理论性、概念性的介绍课程,而是针对问题讨论解决方案的深入课程。教师对于上述领域有深入的理论研究与实践经验,在课程中将会针对这些问题与学员一起进行研究,在关键点上还会搭建实验环境进行实践研究,以加深对于这些解决方案的理解。通过本课程学习,希望推动R相关的项目开发上升到一个新水平。
五、培训内容
第一讲数据挖掘和R简介
1.1 数据挖掘
1.2 R语言
1.3 Iris数据集
1.4Bodyfat数据集
第二讲数据的导入与导出
2.1 R数据的保存与加载
2.2 CSV文件的导入与导出
2.3 通过ODBC从数据库中读取数据
2.4 从Excel中导入与导出数据
第三讲数据可视化展现
3.1 查看数据
3.2 单个变量展现
3.3 多个变量展现
3.4 更多探索
3.5 将图表保存到文件中
第四讲决策树与随机森林
4.1 使用party包构建决策树
4.2 使用rpart包构建决策树
4.3 随机森林
第五讲回归分析
5.1 线性回归
5.2 逻辑回归
5.3 广义线性回归
5.4 非线性回归
第六讲聚类分析
6.1 k-means聚类
6.2 k-medoids聚类
6.3 层次聚类
6.4 基于密度的聚类
第七讲离群点检测
7.1 单变量的离群点检测
7.2 局部离群点因子检测
7.3 用聚类方法进行离群点检测
7.4 时间序列数据的离群点检测
第八讲时间序列分析
8.1 R中的时间序列数据
8.2 时间序列分解
8.3 时间序列预测
8.4 时间序列聚类
8.5 时间序列分类
第九讲关联规则
9.1 关联规则的基本概念
9.2 Titanic数据集
9.3 关联规则挖掘
9.4 消除冗余
9.5 解释规则
9.6 关联规则的可视化
第十讲社交网络分析
10.1 词项网络
10.2 推文网络
10.3 双模式网络
第十一讲 R与Hadoop/Spark等大数据技术的融合
1)R/Hadoop数据处理技术介绍
2)SparkR数据处理技术介绍
3)基于Hadoop/Yarn集群的应用展望
六、培训目标
1,全面了解R语言数据挖掘的相关知识。
2,学习R的数据挖掘核心技术方法以及应用特征。
3,深入使用R在数据挖掘和分析中的使用。
4,了解R与Hadoop、Spark等技术的融合使用。
七、培训时间、地点
时间: 2016年5月18日-5月20日 地点:北京
八、证 书
培训结束,颁发培训中心“R数据挖掘技术-基于R语言的数据挖掘和统计分析技术”结业证书。
九、费 用
培训费:5500元/人(含教材、证书、午餐、学习用具)食宿统一安排,费用自理。

培训师介绍:

由业界知名大数据专家亲自授课:
杨老师 主要研究网络信息分析以及云计算相关技术,长期从事通信网管系统、网络信息处理、商务智能(BI)以及电信决策支持系统的研究开发工作,主持和参与了多个国家和省部级基金项目,具有丰富的工程实践及软件研发经验。

综合管理精品内训推荐

最新发布公开课推荐

博课在线客服关闭


线