意见箱
恒创运营部门将仔细参阅您的意见和建议,必要时将通过预留邮箱与您保持联络。感谢您的支持!
意见/建议
提交建议

Java爬虫.HttpClient(JAVA爬虫和python爬虫哪个好)

来源:恒创科技 编辑:恒创科技编辑部
2024-01-23 16:48:59


1.HttpClient

网络爬虫就是用程序帮助我们访问网络上的资源。我们一直以来都是使用HTTP协议访问互联网的网页,网络爬虫需要编写程序,在这里使用相同的HTTP协议访问网页。
这里我们使用Java的HTTP协议客户端HttpClient这个技术,来实现抓取网页数据。

1.1 GET请求


Java爬虫.HttpClient(JAVA爬虫和python爬虫哪个好)

请求url地址 ​​HttpGetTest.class​​

1.2 带参数的Get请求
在慕课网中搜索学习视频,地址为:
​​​ /news/upload/ueditor/image/202208/m3aukuynjo1.htm 查找类

1.3 POST请求
*仅一处变动:
创建HttpPost对象,设置url访问地址
HttpPost httpPost = new HttpPost(uriBuilder.build());
​​HttpPostTest.class​​

1.4 POST含参请求
在慕课网中使用POST含参请求搜索学习视频,地址为:
​​​ https://www.icourse163.org/search​​​ url地址没有参数,参数search=java放在表单中进行提交
​​HttpPostTest含参.class​​

1.5 连接池
如果每次请求都要创建 HttpClient ,会有频繁创建和销毁的问题,可以使用连接池来解决。
​​HttpClientPool.class​​

1.6 请求参数
有时候因为网络,或者目标服务器的原因,请求需要更长的时间才能完成,我们需要自定义相关时间
​​HttpConfigTest.class​​

上一篇: 混沌图像处理学习系统 下一篇: 手机怎么远程登录云服务器?