网络数据采集技术:Java网络爬虫实战在线阅读
会员

网络数据采集技术:Java网络爬虫实战

钱洋等
开会员,本书免费读 >

计算机网络编程语言与程序设计6.1万字

更新时间:2020-09-29 15:50:25 最新章节:9.4 本章小结

立即阅读
加书架
下载
听书

书籍简介

本书以Java为开发语言,系统地介绍了网络爬虫的理论知识和基础工具,包括网络爬虫涉及的Java基础知识、HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数据存储等。本书选取典型网站,采用案例讲解的方式介绍网络爬虫中涉及的问题,以增强读者的动手实践能力。同时,本书还介绍了3种Java网络爬虫开源框架,即Crawler4j、WebCollector和WebMagic。本书适用于Java网络爬虫开发的初学者和进阶者;也可作为网络爬虫课程教学的参考书,供高等院校文本挖掘、自然语言处理、大数据商务分析等相关学科的本科生和研究生参考使用;也可供企业网络爬虫开发人员参考使用。
上架时间:2020-01-01 00:00:00
出版社:电子工业出版社
上海阅文信息技术有限公司已经获得合法授权,并进行制作发行

最新章节

钱洋等
主页

同类热门书

最新上架

  • 会员
    《Python从入门到精通(第3版)》从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了使用Python进行程序开发应该掌握的各方面技术。全书共分27章,包括初识Python、Python语言基础、运算符与表达式、流程控制语句、列表和元组、字典和集合、字符串、Python中使用正则表达式、函数、面向对象程序设计、模块、文件及目录操作、操作数据库、使用进程和线程、网络编程、异常处理及程
    明日科技编著计算机25.7万字
  • 会员
    这是一本具有高中数学知识就能读懂的机器学习图书,书中通过大量程序实例,将复杂的公式重新拆解,详细、清晰地解读了机器学习中常用的数学知识,一步步带领读者进入机器学习的领域。本书共22章,主要讲解了数据可视化、math模块、sympy模块、numpy模块、方程式、函数、最小平方法、集合、概率、贝叶斯定理、指数、对数、欧拉数、逻辑函数、三角函数、大型运算符、向量、矩阵与线性回归等数学知识。
    洪锦魁计算机5.8万字
  • 会员
    《Python数据分析从入门到精通(第2版)》从数据分析初学者角度出发,以通俗易懂的语言、丰富多彩的实例,详细介绍了使用Python进行数据分析程序开发应掌握的各方面技术。全书共分21章,包括数据分析基础、搭建数据分析开发环境、NumPy模块之数组计算、Pandas模块基础、Pandas模块之数据的读取、Pandas模块之数据的处理、Pandas模块之数据的清洗、数据的计算与格式化、数据统计及透视
    明日科技编著计算机16.7万字
  • 会员
    Docker是目前流行的容器平台。作为开发、发布和运行应用程序的开放平台,Docker为快速发布、测试和部署应用程序提供了一整套技术和方法。《Docker与Kubernetes容器虚拟化技术与应用》主要围绕容器生态体系中的核心组件Docker和Kubernetes展开,介绍了容器的组成及相关概念、容器系统架构和运行原理,重点剖析了Docker和Kubernetes两大工具的核心概念、组成和工作原理
    倪振松 刘宏嘉 陈建平主编计算机9.6万字
  • 会员
    这是一本面向RPA开发初学者的实战图书,囊括了RPA在金融、政务、制造、电商、医疗等十大行业的RPA开发实战案例,每个案例都有详细的步骤拆解,图文并茂,手把手教会大家完成自动化流程的开发。
    张丽蓝 余冰冰 陈德炼 钟燕 张雪英计算机11.1万字
  • 会员
    本书为深入理解学习Go语言必经之路中的重点知识领域,采用大量精美详细的图文介绍,文章讲解深入浅出,极大降低了理解Golang底层精髓的学习门槛。本书包含3篇:第一篇为深度理论篇(第1章~第4章),包含深入理解Golang中GPM模型、深入理解Golang垃圾回收GC三色标记与混合写屏障、深入理解Golang内存管理模型、网络IO复用模型等。第二篇为Golang实战中需要进阶的知识盲区介绍(第5章~
    刘丹冰编著计算机0字
  • 会员
    《小学生Python创意编程:视频教学版》语言风趣幽默,讲解细致入微,案例生动有趣,能够让小朋友轻松愉悦地学习Python编程。《小学生Python创意编程:视频教学版》共分14章,以图解的形式介绍变量、条件判断、循环、列表、函数、类与对象、模块、文件、注释、异常与调试等基础知识,简单明了,易于理解;穿插许多小朋友感兴趣的项目案例,如输出爱心、绘制五角星、诗词接龙、探索运算、侦测破案、商品管理系统
    刘凤飞计算机5.9万字
  • 会员
    《Java多线程并发体系实战(微课视频版)》全面、系统地介绍了与Java多线程相关的核心知识点,将官方多线程的核心知识点用链路的方式进行讲解。读者在学习的过程中需要循序渐进,核心知识点的理解是非常重要的,由核心知识点扩展开来就可以形成万物,希望读者在学习和创造的过程中能拥有自己的成长和思维。《Java多线程并发体系实战(微课视频版)》全书共10章。首章~第3章介绍了线程的核心知识点,第4章讲解了线
    刘宁萌编著计算机4.5万字
  • 会员
    Node.js是一个基于ChromeV8引擎的JavaScript运行环境,用来编写服务器端程序。Node.js是新兴的开发工具,也是目前发展较快的开发工具之一。近几年来,随着Node.js的发展,越来越多的开发人员选择用它构建Web应用。本书较为系统地介绍了目前Node.js应用开发中涉及的基础知识和核心技术,并通过案例介绍了基于Express和Koa框架的项目开发。本书着重实际应用,案例及实
    唐小燕 刘洪武主编计算机10.9万字

同类书籍最近更新

  • 会员
    本书是JavaScript经典图书的新版。第4版涵盖ECMAScript2019,全面、深入地介绍了JavaScript开发者必须掌握的前端开发技术,涉及JavaScript的基础特性和高级特性。书中详尽讨论了JavaScript的各个方面,从JavaScript的起源开始,逐步讲解到新出现的技术,其中重点介绍ECMAScript和DOM标准。在此基础上,接下来的各章揭示了JavaScript的基
    (美)马特·弗里斯比程序设计48.6万字
  • 会员
    Go语言正在迅速成为构建Web服务的优选语言。本书很好地阐述了Go语言的特性,同时指出了Go语言的惯例代码、陷阱和设计模式。本书语言生动,表述清晰,将Go语言的基本原理与语言哲学联系在一起,引导读者正确编写Go语言。既介绍基础知识,又涵盖高级主题(如反射和C语言互操作),通过大量例子演示了如何写出符合Go语言惯例的代码,解释了可能影响程序行为的底层概念,比如指针对内存布局和垃圾回收的影响。无论你是
    (美)乔恩·博德纳程序设计15.1万字
  • 会员
    ThisbookisforsoftwareprofessionalswhowanttounderstandandimprovetheperformanceoftheirapplicationswithApachejMeter.
    Bayo Erinle程序设计3.5万字
  • 会员
    本书使用备受业内人士欢迎的游戏编程平台Unity,从零开始,手把手地带领读者设计并制作两种令人着迷的跨平台2D游戏。本书通过丰富的插图和详尽的步骤说明,将游戏设计的基本原则、Unity的常用操作,以及编程语言C#的基础知识深入浅出地呈现给读者。
    (日)真 工作室程序设计9.2万字
  • 会员
    本书的主体内容包括机器学习概念与特征工程、机器学习技术、模型关系管理,其中,模型关系管理部分主要介绍了弱集成学习、强集成学习和混合专家模型。弱集成学习是指使用机器学习中的弱分类器实现模型准确度和稳定性之间的平衡。强集成学习是指协同特征工程与强分类器形成强集成学习环境。混合专家模型是指通过神经网络集成和网络结构设计形成深度学习框架。本书以案例分析为主线介绍不同的集成学习方法,首先阐述弱集成学习如何解
    丁亚军程序设计14.6万字
  • 会员
    《Go程序开发实战宝典》结合典型案例进行知识点讲解,内容通俗易懂、重点突出、实用性强,囊括Go语言的主要功能。全书共14章,前6章主要包括基础数据类型、循环控制、函数和指针、内置容器、字符串处理等;第7章主要讲解Go语言的面向对象编程,主要包括结构体、方法、接口、设计模式、反射等内容;第8~13章主要介绍服务端开发经常需要处理的问题,主要包括Go语言的编写规范、错误处理、异常处理、文件读写操作、J
    穆旭东等编著程序设计12.4万字