首页 > Web开发 > 详细

HttpClient的userAgent和refer问题

时间:2019-08-08 20:12:27      阅读:121      评论:0      收藏:0      [点我收藏+]

       HttpClient本质是模拟浏览器去请求网址,获取请求response。

          为了更真实的模拟浏览器,不被限制,需要设置一些请求header。

         如果是爬虫的话,老虑的会更多些,爬取网站在HttpClient中设置Host,Referer,User-Agent,Connection,Cookie和爬取的频率和入口Url等

比如:

            httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:50.0) Gecko/20100101 Firefox/50.0");
            httpget.setHeader("Referer", "http://www.google.com");

        但如果不加处理的话,比如使用HttpClient 4.3.2版本的请求网址,response中UA会获取成Apache-HttpClient/4.3.2 (java 1.5)类似的结果,并且随着httpclient版本的不同需略有不同

HttpClient的userAgent和refer问题

原文:https://www.cnblogs.com/xuzhujack/p/11322770.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!