绿色排版工具|热门专题|网站地图|移动官网
您的当前位置:网站首页 > 电子书 > 计算机类 > 正文

网络爬虫全解析-技术、原理与实践(罗刚 著)完整版PDF[440MB]

来源:[db:来源] 编辑:脚本之家 时间:2019-07-29 14:48:07 阅读:

《网络爬虫全解析——技术、原理与实践》介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息,以及针对抓取到的文本进行有效信息的提取。为了扩展抓取能力,《网络爬虫全解析——技术、原理与实践》介绍了实现分布式网络爬虫的关键技术。

另外,《网络爬虫全解析——技术、原理与实践》介绍了从图像和语音等多媒体格式文件中提取文本信息,以及如何使用大数据技术存储抓取到的信息。最后,以实战为例,介绍了如何抓取微信和微博,以及在电商、医药、金融等领域的案例应用。其中,电商领域的应用介绍了使用网络爬虫抓取商品信息入库到网上商店的数据库表。医药领域的案例介绍了抓取PubMed医药论文库。金融领域的案例介绍了抓取股票信息,以及从年报PDF文档中提取表格等。

目录
第1章 技术基础 1
1.1 第一个程序 1
1.2 准备开发环境 2
1.2.1 JDK 2
1.2.2 Eclipse 3
1.3 类和对象 4
1.4 常量 5
1.5 命名规范 6
1.6 基本语法 6
1.7 条件判断 7
1.8 循环 8
1.9 数组 9
1.10 位运算 11
1.11 枚举类型 13
1.12 比较器 14
1.13 方法 14
1.14 集合类 15
1.14.1 动态数组 15
1.14.2 散列表 15
1.15 文件 19
1.15.1 文本文件 19
1.15.2 二进制文件 23
1.16 多线程 27
1.16.1 基本的多线程 28
1.16.2 线程池 30
1.17 折半查找 31
1.18 处理图片 34
1.19 本章小结 35
第2章 网络爬虫入门 36
2.1 获取信息 36
2.1.1 提取链接 37
2.1.2 采集新闻 37
2.2 各种网络爬虫 38
2.2.1 信息采集器 40
2.2.2 广度优先遍历 41
2.2.3 分布式爬虫 42
2.3 爬虫相关协议 43
2.3.1 网站地图 44
2.3.2 Robots协议 45
2.4 爬虫架构 48
2.4.1 基本架构 48
2.4.2 分布式爬虫架构 51
2.4.3 垂直爬虫架构 54
2.5 自己写网络爬虫 55
2.6 URL地址查新 57
2.6.1 嵌入式数据库 58
2.6.2 布隆过滤器 60
2.6.3 实现布隆过滤器 61
2.7 部署爬虫 63
2.7.1 部署到Windows 64
2.7.2 部署到Linux 64
2.8 本章小结 65
第3章 定向采集 69
3.1 下载网页的基本方法 69
3.1.1 网卡 70
3.1.2 下载网页 70
3.2 HTTP基础 75
3.2.1 协议 75
3.2.2 URI 77
3.2.3 DNS 84
3.3 使用HttpClient下载网页 84
3.3.1 HttpCore 94
3.3.2 状态码 98
3.3.3 创建 99
3.3.4 模拟浏览器 99
3.3.5 重试 100
3.3.6 抓取压缩的网页 102
3.3.7 HttpContext 104
3.3.8 下载中文网站 105

相关文章推荐:

图文精选:

Copyright©2012-2019 小蚂蚁信息网版权所有 粤ICP备14061018号-1


郑重声明:本网站资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息。

Top