Hands-On Big Data Analytics with PySpark在线阅读
会员

Hands-On Big Data Analytics with PySpark

Rudy Lai Bart?omiej Potaczek
开会员,本书免费读 >

计算机网络数据库3.6万字

更新时间:2021-06-24 15:52:53 最新章节:Leave a review - let other readers know what you think

立即阅读
加书架
下载
听书

书籍简介

ApacheSparkisanopensourceparallel-processingframeworkthathasbeenaroundforquitesometimenow.OneofthemanyusesofApacheSparkisfordataanalyticsapplicationsacrossclusteredcomputers.Inthisbook,youwillnotonlylearnhowtouseSparkandthePythonAPItocreatehigh-performanceanalyticswithbigdata,butalsodiscovertechniquesfortesting,immunizing,andparallelizingSparkjobs.Youwilllearnhowtosourcedatafromallpopulardatahostingplatforms,includingHDFS,Hive,JSON,andS3,anddealwithlargedatasetswithPySparktogainpracticalbigdataexperience.Thisbookwillhelpyouworkonprototypesonlocalmachinesandsubsequentlygoontohandlemessydatainproductionandatscale.ThisbookcoversinstallingandsettingupPySpark,RDDoperations,bigdatacleaningandwrangling,andaggregatingandsummarizingdataintousefulreports.YouwillalsolearnhowtoimplementsomepracticalandproventechniquestoimprovecertainaspectsofprogrammingandadministrationinApacheSpark.Bytheendofthebook,youwillbeabletobuildbigdataanalyticalsolutionsusingthevariousPySparkofferingsandalsooptimizethemeffectively.
品牌:中图公司
上架时间:2019-03-29 00:00:00
出版社:Packt Publishing
本书数字版权由中图公司提供,并由其授权上海阅文信息技术有限公司制作发行

最新章节

Rudy Lai Bart?omiej Potaczek
主页

最新上架

  • 会员
    本书本书基于业务问题,就如何搭建分析框架,厘清分析思路,按照标准分析步骤对数据进行怡当的预处理,选择合适的分析方法和分析模型,使用恰当的分析工具对数据进行分析,以及对分析结果进行可视化和符合业务要求的解读等内容展开讲解,帮助业务专家做出合适的业务判断,制定准确的业务策略。
    傅一行计算机13万字
  • 会员
    本书系统介绍了使用Python进行数据分析需要掌握的各项知识,涵盖了Python基础知识、网络爬虫技术、正则表达式、BeautifulSoup和JSON、词语切分、自然语言处理、使用NumPy与Pandas处理数据、数据可视化技术、MySQL、机器学习、朴素贝叶斯模型、支持向量机、随机森林、深度学习以及量化投资。本书通过结合数据分析技术的理论知识与Python的实战应用,帮助读者更好地运用Pyth
    王俊主编计算机12.3万字
  • 会员
    这是一本能指导首席数据官(CDO)快速构建知识体系和能力模型的标准指南。本书融合了作者对CDO角色的深刻理解和深厚的工程实践经验,系统而全面地介绍了CDO所需的核心知识体系与能力模型。本书从CDO的基本概念出发,逐步深入探讨了CDO在政策环境、数字化转型、组织数据体系建设与管理、数据价值创造等方面的关键作用。书中不仅详细阐述了CDO应具备的基础数据知识和组织数据管理能力,还通过丰富的案例和实战技巧
    王晓华 赵瑞计算机17.3万字
  • 会员
    云计算是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算能力、存储空间和信息服务。与以往的计算模式不同,云计算环境下,信息安全和服务保障问题更严重、更突出。本书从云计算的安全技术和服务质量评价两个方面论述云计算服务保障的体系架构,安全技术方面主要阐述了基于可信计算的实时度量、基于角色的数据隔离访问、云节点信任链的动态维护模型与验证机制和多级安全访问控制模型;服务
    林果园计算机9.5万字
  • 会员
    本书从与数据要素关系最密切的信息、权属、价值、安全、交易等五个维度出发,汇聚不同学科背景的既有文献,整合现有观点,对数据要素的多维特性进行探讨,以丰富人们对数据要素的认知,凝聚共识,澄清数字时代的发展与治理迷思,为未来的相关创新提供起点。
    张平文 邱泽奇编著计算机14.5万字
  • 会员
    本书共8章,第1章介绍新媒体数据分析的基础知识;第2章介绍各种新媒体数据分析指标;第3章介绍新媒体数据的采集;第4章介绍新媒体数据处理;第5章介绍新媒体数据分析的思维和方法;第6章介绍新媒体数据可视化;第7章介绍不同新媒体平台的数据分析方法和实战技能;第8章介绍新媒体数据分析报告的制作。
    赵春红计算机9.2万字
  • 会员
    本书全面介绍数据产品开发与经营,全书共13章,分为数据产品基础、数据产品开发、数据产品实践、数据产品经营四篇。第一篇深入分析国家和地方层面的数据资产政策,提出数据资产运营框架,并介绍数据资源的治理和数据产品。第二篇详细阐述数据产品开发三大策略、数据产品设计五步法、数据产品开发方法以及数据产品运营方法。第三篇全面介绍数据产品开发的实践案例,特别从数据要素型企业、数商型企业两个角度说明数据产品开发的实
    钱勇 项灵刚 林建兴 于冰冰等计算机33.6万字
  • 会员
    数据挖掘算法为大数据与人工智能的核心,掌握数据挖掘各算法的编程实现,有助于提升大数据的实践运用能力。本书详细阐述了数据挖掘常用算法与编程实现,同时,本书以多个经典的数据挖掘赛题为案例,详细论述了数据预处理、特征选择、可视化、算法选择等全流程数据挖掘过程的编程实现,有助于提升读者面对实际数据问题时灵活运用各类算法能力。
    丁兆云 沈大勇 徐伟 周鋆计算机4.7万字
  • 会员
    本书围绕新工科背景下大数据人才培养需求编写,既涵盖了大数据的基础知识,又介绍了大数据分析的相关工具与案例。全书共9章,介绍了大数据采集与预处理、大数据存储与管理、大数据处理与分析、大数据可视化处理流程;重点分析了科大讯飞大数据平台在政务、交通、金融和用户画像等实际场景中的应用,还介绍了大数据实验环境的详细搭建步骤,方便读者快速理解和体验大数据应用技术;最后介绍了大数据治理中法律政策、行业标准建设的
    于俊伟 母亚双 闫秋玲编著计算机14.5万字