
会员
Spark 3.0大数据分析与挖掘:基于机器学习
王晓华 罗凯靖编著更新时间:2023-09-21 10:31:02
最新章节:【正版无广】13.6 小结开会员,本书免费读 >
Spark作为新兴的、应用范围广泛的大数据处理开源框架,吸引了大量的大数据分析与挖掘从业人员进行相关内容的学习与开发,其中ML是Spark3.0机器学习框架使用的核心。本书用于Spark3.0ML大数据分析与挖掘入门,配套示例源码、PPT课件、数据集、思维导图、开发环境和作者答疑服务。本书共分13章,从Spark3.0大数据分析概述、基础安装和配置开始,依次介绍ML的DataFrame、ML的基本概念,以及协同过滤、线性回归、分类、决策树与随机森林、聚类、关联规则、数据降维、特征提取和转换等数据处理方法;最后通过经典的鸢尾花分析实例,回顾前面的学习内容,实现了一个完整的数据分析与挖掘过程。本书采取实例和理论相结合的方式,讲解细致直观,示例丰富,适合Spark3.0机器学习初学者、大数据分析和挖掘人员,也适合高等院校和培训机构人工智能与大数据相关专业的师生教学参考。
品牌:清华大学
上架时间:2022-03-01 00:00:00
出版社:清华大学出版社
本书数字版权由清华大学提供,并由其授权上海阅文信息技术有限公司制作发行
最新章节
王晓华 罗凯靖编著
主页
同类热门书
最新上架
- 会员
数据空间探索与实践
这是一部系统梳理和总结华为在数据空间领域的研究成果与实践经验的著作,全面讲解了如何构建可信、可控、可证的数据流通体系,旨在为跨主体、跨边界数据共享这一难题提供完整的解决方案。华为致力于数据空间理论与架构的研究近8年,积极参与国际数据空间协会(IDSA)、Gaia-X等国际组织的生态共建与标准制定,并与欧洲的相关科研机构在研究项目上开展了大量的合作。华为成功研发了自己的数据空间服务产品EDS(交换数计算机12.5万字 - 会员
大中型企业数据库运维管理与实践
本书是一部面向全面指导企业数据库运维管理的权威著作。图书从架构规划、安全规划(等保3.0)等关键领域入手,系统阐述了数据库高可用性的实现策略,确保数据服务的持续稳定。在企业数字化转型新技术、新业态、新模式下,从管理和技术两个方面,系统描述了大中型企业在数字化转型过程中,对规模日趋增大信息系统数据库开展运维管理工作的相关理论与方法,结合丰富的实践案例,重点对数据库运维管理模式、数据库全生命周期运维技计算机12.6万字 - 会员
湖仓架构:大规模数据平台的设计和实现
本书全面阐述了湖仓架构相关知识。首先介绍数据架构及其在构建数据平台中的作用,剖析湖仓架构的概念、特征和优势。接着对比传统架构(数据湖与数据仓库)和现代数据平台,明确湖仓架构在未来数据平台的重要地位。然后讲解行存储与列存储等概念,以及云对象存储、文件格式和表格式等组件,还给出设计存储时的考量因素。接着阐述数据目录、计算引擎在湖仓架构中的功能、类型选择和设计要点。在数据治理与安全方面,强调在湖仓架构中计算机12.3万字 - 会员
达梦数据库应用开发任务式教程
本书旨在介绍达梦数据库常用操作和应用方法。本书融合了作者在数据库领域丰富的教学经验,案例新颖;采用任务式写作方式,可操作性强。本书主要内容包括数据库系统环境的部署、数据库的设计、表空间和模式的创建与管理、表的创建与管理、数据的查询、视图的创建与管理、索引的创建与管理、数据库编程、安全管理等。本书可作为各类高等院校计算机相关专业的教材,也适合作为数据库应用开发人员的参考书。计算机8.5万字
同类书籍最近更新