一、Max retries exceeded with url

方法1、

出现这个错误可能跟爬取速度过快而且没有关闭每次的请求有关，导致出错。
requests使用了urllib3库，默认的http connection是keep-alive的，requests设置False关闭。

可以，每次请求的内容保存到其他变量后关闭请求。
比如我的：我把response响应的结果赋值给deps之后就把response关闭，这样就好了。

response=requests.get(depurl,allow_redirects=False)
deps=json.loads(response.text)
response.close()

方法2

网上找到还有一种方法：
第一步：增加重试连接次数
第二步：关闭多余链接，其实和我那样应该是一样的。我没有测试这个。

requests.adapters.DEFAULT_RETRIES = 5
s = requests.session()
s.keep_alive = False

二、403错误

我的主要还有出现403错误，所以，这个就需要代理ip，因为报错的这个url，我用浏览器也不能访问了，才知道是ip被禁用了，这个时候需要找代理ip，可以搜一下免费代理ip网站，找一些，如果经常爬虫可以没事多爬取一些，留着备用。
可以写个代码测试代理ip是否可用。
如果需要测试代理ip是否高匿或者可用，可以参考下我之前写的检测是否高匿的而代理ip，
https://mp.csdn.net/mdeditor/88528285#
注意一点：

使用代理ip时自己可以先测试一下http可以访问还是https可以，这个是我自己走过的路吃过的亏，因为我之前爬的网站有的需要http才能访问有的却是https，你测试一个高匿的，用俩个方法测试一下就知道了。

爬虫Max retries exceeded with url和403错误

2019-12-02
python爬虫

爬虫Max retries exceeded with url和403错误

一、Max retries exceeded with url

方法1、

方法2

二、403错误

爬虫Max retries exceeded with url和403错误

一、Max retries exceeded with url

方法1、

方法2

二、403错误

谢谢大爷~