Python3利用http.cookiejar完成cookie操作模拟

有的网站需要登陆才能抓取到网站的数据,那么光模拟浏览器请求网站内容是还不够了,还需要能够模拟用户登陆网站,然后保留登陆状态,获取网站相关的内容。

想要成功模拟真实用户登陆,重点要找到登录时候提交表单都包含了哪些真实的数据。然后使用Python生成这些数据,携带在请求头信息当中,这样服务器就能当做正常的访客,返回正确的信息。一般需要携带cookie,post表单数据即可,成功通过验证后,可以访问其他需要登录才可以获取的内容。

url = 'http://www.a.com/login'

然后就是构造信息字典了,需要提交的信息主要有:用户名(user)、密码(pass),将这些信息写在一个字典变量中:

params = {
"user": username,
"pass": password
}

登录后我们可以获取代码看下可成功了。

另外需要用到处理cookie的模块http.cookiejar,先创建一个CookieJar类,然后在请求的时候传递,看看官方的例子:

cj = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
r = opener.open("http://www.a.com/")

使用起来非常简单,基本直接可以用了。

下面来看看完整的代码吧:

import urllib.request
import random
import http.cookiejar
import urllib.parse

url = 'http://www.a.com/login'
username = 'admin'
password = '*******'

params = {
"user": username,
"pass": password
}

cookie = http.cookiejar.CookieJar()

openner=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cookie))
openner.addheaders = [('User-agent', 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')]

data = urllib.parse.urlencode(params).encode()
r= openner.open(url,data)
r=openner.open("http://www.a.com/admin/index")

f = open('test.html', 'w', encoding = 'utf-8')
f.write(r.read().decode())
f.close()
相关推荐:
有时候我们需要得到一份某区域的IP段,例如防火墙上使用。通过APNIC的地址库得到数据,会比较准确权威,且IP库每天都在更新中。 import os import sys import socket import math import urllib import url …
pip类似RedHat里面的yum,安装Python包非常方便。 python -m pip install --upgrade pip
很多时候因网络的问题,导致在进行pip命令安装模块时会有下载慢甚至是失败的可能,且可能性较大。为了解决国内的网络问题,我们很多时候会选择国内的镜像平台做为源,而在pip中如何自定义源呢? 首先我们看 …
原因在于系统里有多个版本冲突所导致的。 使用以下的命令代替: python -m pip
有些时候,为了方便多次使用同一个cookie的进行会话,需要将cookie保存下来,以便下次使用,这时就需要我们创建一个带有cookie的opener,在访问登录的url时,将登录后的cookie保存下来,然后利用这个cookie …
拿起手机扫一扫即可带走我!