Python3利用http.cookiejar完成cookie操作模拟

有的网站需要登陆才能抓取到网站的数据,那么光模拟浏览器请求网站内容是还不够了,还需要能够模拟用户登陆网站,然后保留登陆状态,获取网站相关的内容。

想要成功模拟真实用户登陆,重点要找到登录时候提交表单都包含了哪些真实的数据。然后使用Python生成这些数据,携带在请求头信息当中,这样服务器就能当做正常的访客,返回正确的信息。一般需要携带cookie,post表单数据即可,成功通过验证后,可以访问其他需要登录才可以获取的内容。

url = 'http://www.a.com/login'

然后就是构造信息字典了,需要提交的信息主要有:用户名(user)、密码(pass),将这些信息写在一个字典变量中:

params = {
"user": username,
"pass": password
}

登录后我们可以获取代码看下可成功了。

另外需要用到处理cookie的模块http.cookiejar,先创建一个CookieJar类,然后在请求的时候传递,看看官方的例子:

cj = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
r = opener.open("http://www.a.com/")

使用起来非常简单,基本直接可以用了。

下面来看看完整的代码吧:

import urllib.request
import random
import http.cookiejar
import urllib.parse

url = 'http://www.a.com/login'
username = 'admin'
password = '*******'

params = {
"user": username,
"pass": password
}

cookie = http.cookiejar.CookieJar()

openner=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cookie))
openner.addheaders = [('User-agent', 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')]

data = urllib.parse.urlencode(params).encode()
r= openner.open(url,data)
r=openner.open("http://www.a.com/admin/index")

f = open('test.html', 'w', encoding = 'utf-8')
f.write(r.read().decode())
f.close()
相关推荐:
urllib提供了一系列用于操作URL的功能,而urllib的request模块可以非常方便地抓取URL内容,也就是发送一个GET请求到指定的页面,然后返回HTTP的响应。 基本的网络请求示例 import urllib.request #请求百度 …
有时候我们想要用不同色彩的文字来区分下,但是在Windows上不同于Mac或Linux,无法使用\033的方法,那怎么办呢?这里我们将对Windows下命令行输出彩色文字进行分析。 首先我们来看一段代码,品味下是怎么生 …
如何让一个Python脚本输出的文字信息是彩色的?其实这个其实跟python无关的,跟具体所用console的类型有关系,不同的类型对应不同的控制码,如果是ansi终端,可以用ansi的控制码。 Mac或Linux终端中的颜色 …
原因在于系统里有多个版本冲突所导致的。 使用以下的命令代替: python -m pip
有时候我们需要得到一份某区域的IP段,例如防火墙上使用。通过APNIC的地址库得到数据,会比较准确权威,且IP库每天都在更新中。 import os import sys import socket import math import urllib import url …
拿起手机扫一扫即可带走我!