Python3利用http.cookiejar完成cookie操作模拟

有的网站需要登陆才能抓取到网站的数据，那么光模拟浏览器请求网站内容是还不够了，还需要能够模拟用户登陆网站，然后保留登陆状态，获取网站相关的内容。

想要成功模拟真实用户登陆，重点要找到登录时候提交表单都包含了哪些真实的数据。然后使用Python生成这些数据，携带在请求头信息当中，这样服务器就能当做正常的访客，返回正确的信息。一般需要携带cookie，post表单数据即可，成功通过验证后，可以访问其他需要登录才可以获取的内容。

url = 'http://www.a.com/login'

然后就是构造信息字典了，需要提交的信息主要有：用户名(user)、密码(pass)，将这些信息写在一个字典变量中：

params = {
"user": username,
"pass": password
}

登录后我们可以获取代码看下可成功了。

另外需要用到处理cookie的模块http.cookiejar，先创建一个CookieJar类，然后在请求的时候传递，看看官方的例子：

cj = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
r = opener.open("http://www.a.com/")

使用起来非常简单，基本直接可以用了。

下面来看看完整的代码吧：

import urllib.request
import random
import http.cookiejar
import urllib.parse

url = 'http://www.a.com/login'
username = 'admin'
password = '*******'

params = {
"user": username,
"pass": password
}

cookie = http.cookiejar.CookieJar()

openner=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cookie))
openner.addheaders = [('User-agent', 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')]

data = urllib.parse.urlencode(params).encode()
r= openner.open(url,data)
r=openner.open("http://www.a.com/admin/index")

f = open('test.html', 'w', encoding = 'utf-8')
f.write(r.read().decode())
f.close()

Python3利用http.cookiejar完成cookie操作模拟

我要评论！