超时设置

当我们使用爬取网页时,我们可以设置超时时间,以便可以更快或者重新访问网页,从而避免在获取响应网页内容上浪费太多时间

语法如下:

urllib.request.urlopen(timeout=1) # 设置1秒为超时界限

1
2
3
4
5
6
7
8
9
10
import urllib.request
url = "http://www.google.com.hk"
for i in range(1, 100):
try:
# 超时设置为1秒钟,即1秒钟未响应则判定超时,并读取该网站的内容,输出获取到内容的长度
file = urllib.request.urlopen(url, timeout=1)
data = file.read()
print(len(data))
except Exception as e:
print("出现异常" + str(e))

爬虫之Get请求

案例:使用get请求获取百度