如何使用python爬虫爬取要登陆的网站

 更新时间:2019年07月12日 08:59:46   作者:千锋Python唐唐君   我要评论
这篇文章主要介绍了如何使用python爬虫爬取要登陆的网站,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

你好

由于你是游客

无法查看本文

请你登录再进

谢谢合作。。。。。


当你在爬某些网站的时候

需要你登录才可以获取数据

咋整?

莫慌

把这几招传授给你

让你以后从容应对

登录的常见方法无非是这两种

1、让你输入帐号和密码登录

2、让你输入帐号密码+验证码登录


今天

先跟你说说第一种

需要验证码的咱们下一篇再讲

第一招


Cookie大法

你平常在上某个不为人知的网站的时候

是不是发现你只要登录一次

就可以一直看到你想要的内容

过了一阵子才需要再次登录

这就是因为 Cookie 在做怪

简单来说

就是每一个使用这个网站的人

服务器都会给他一个 Cookie

那么下次你再请求数据的时候

你顺带把这个 Cookie 传过去

服务器一看

诶,小伙子是老客户啊

有登录过

直接返回数据给他吧

在服务中还可以设置 Cookie 的有效时间

也就是说

当你下次携带一个过期了的 Cookie 给服务器的时候

服务器虽然知道你是老客户

但是还是需要你重新再登录一次

然后再给你一个有效的 Cookie

Cookie 的时长周期是服务器那边定的

ok

了解了这一点之后

我们就来玩一下吧

我们以「逼乎」为例

https://biihu.cc/account/login/

输入地址之后

按一下 F12

点击 network 标签

然后登录你的帐号

然后点击其中一个

你就可以看到在 Request Headers 有你的 Cookie


有了 Cookie 之后

我们在代码中直接获取我的个人信息

import requests
headers = {
 # 假装自己是浏览器
 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/73.0.3683.75 Chrome/73.0.3683.75 Safari/537.36',
 # 把你刚刚拿到的Cookie塞进来
 'Cookie':'',
}
session = requests.Session()
response = session.get('https://biihu.cc/people/wistbean%E7%9C%9F%E7%89%B9%E4%B9%88%E5%B8%85', headers=headers)
print(response.text)

运行后可以发现不用登录就可以直接拿到自己的个人信息了

<!DOCTYPE html>
<html>
<head>
<meta content="text/html;charset=utf-8" http-equiv="Content-Type" />
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no" name="viewport" />
<meta http-equiv="X-UA-Compatible" content="IE=edge,Chrome=1" />
<meta name="renderer" content="webkit" />
<title>小帅b真特么帅 的个人主页 - 逼乎</title>
<meta name="keywords" content="逼乎,问答,装逼,逼乎网站" />
<meta name="description" content="逼乎 ,与世界分享你的装逼技巧与见解" />
<base href="https://biihu.cc/" rel="external nofollow" /><!--[if IE]></base><![endif]-->
<link rel="stylesheet" type="text/css" href="https://biihu.cc/static/css/bootstrap.css" rel="external nofollow" />
<link rel="stylesheet" type="text/css" href="https://biihu.cc/static/css/icon.css" rel="external nofollow" />
<link href="https://biihu.cc/static/css/default/common.css?v=20180831" rel="external nofollow" rel="stylesheet" type="text/css" />
<link href="https://biihu.cc/static/css/default/link.css?v=20180831" rel="external nofollow" rel="stylesheet" type="text/css" />
<link href="https://biihu.cc/static/js/plug_module/style.css?v=20180831" rel="external nofollow" rel="stylesheet" type="text/css" />
<link href="https://biihu.cc/static/css/default/user.css?v=20180831" rel="external nofollow" rel="stylesheet" type="text/css" />
<link href="https://biihu.cc/static/css/mood/mood.css" rel="external nofollow" rel="stylesheet" type="text/css" />
<script type="text/javascript">
 var _02AEC94D5CA08B39FC0E1F7CC220F9B4="a5359326797de302bfc9aa6302c001b8";
 var G_POST_HASH=_02AEC94D5CA08B39FC0E1F7CC220F9B4;
 var G_INDEX_SCRIPT = "";
 var G_SITE_NAME = "逼乎";
 var G_BASE_URL = "https://biihu.cc";
 var G_STATIC_URL = "https://biihu.cc/static";
 var G_UPLOAD_URL = "/uploads";
 var G_USER_ID = "188";
 var G_USER_NAME = "666";
 var G_UPLOAD_ENABLE = "Y";
 var G_UNREAD_NOTIFICATION = 0;
 var G_NOTIFICATION_INTERVAL = 100000;
 var G_CAN_CREATE_TOPIC = "1";
 var G_ADVANCED_EDITOR_ENABLE = "Y";
 var FILE_TYPES = "jpg,jpeg,png,gif,zip,doc,docx,rar,pdf,psd";
</script>
<script src="https://biihu.cc/static/js/jquery.2.js?v=20180831" type="text/javascript"></script>

第二招


表单请求大法

很简单

就是通过抓包

获取请求登录的时候需要用到的用户名密码参数

然后以表单的形式请求服务器

如果你细心一点的话应该会知道之前说过拉

具体在这

去看下

我就不多说了

第三招


Selenium 自动登录法

获取到两个输入框的元素

再获取到登录按钮

往输入框写你的帐号密码

然后自动点击一下登录

username = WAIT.until(EC.presence_of_element_located((By.CSS_SELECTOR, "帐号的selector")))
password = WAIT.until(EC.presence_of_element_located((By.CSS_SELECTOR, "密码的selector")))
submit = WAIT.until(EC.element_to_be_clickable((By.XPATH, '按钮的xpath')))
username.send_keys('你的帐号')
password.send_keys('你的密码')
submit.click()

登录完之后拿到 Cookie

cookies = webdriver.get_cookies()

有了 Cookie 你就可以拿到你想要的数据了,希望对你有帮助

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持澳门金沙网上娱乐。

相关文章

  • python自定义函数实现最大值的输出方法

    python自定义函数实现最大值的输出方法

    今天小编就为大家分享一篇python自定义函数实现最大值的输出方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • Python中的Numpy入门教程

    Python中的Numpy入门教程

    这篇文章主要介绍了Python中的Numpy入门教程,着重讲解了矩阵中的数组操作,需要的朋友可以参考下
    2014-04-04
  • Python3爬虫学习之应对网站反爬虫机制的方法分析

    Python3爬虫学习之应对网站反爬虫机制的方法分析

    这篇文章主要介绍了Python3爬虫学习之应对网站反爬虫机制的方法,结合实例形式分析了Python3模拟浏览器运行来应对反爬虫机制的相关操作技巧,需要的朋友可以参考下
    2018-12-12
  • python中异常捕获方法详解

    python中异常捕获方法详解

    异常信息的获取对于程序的调试非常重要,可以有助于快速定位有错误程序语句的位置。下面介绍几种python中获取异常信息的方法,希望小伙伴们能够喜欢
    2017-03-03
  • Python数据类型之Number数字操作实例详解

    Python数据类型之Number数字操作实例详解

    这篇文章主要介绍了Python数据类型之Number数字操作,结合实例形式详细分析了Python数字类型的概念、功能、分类及常用数学函数相关使用技巧,需要的朋友可以参考下
    2019-05-05
  • python 判断字符串中是否含有汉字或非汉字的实例

    python 判断字符串中是否含有汉字或非汉字的实例

    今天小编就为大家分享一篇python 判断字符串中是否含有汉字或非汉字的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-07-07
  • Python 变量类型详解

    Python 变量类型详解

    变量可以指定不同的数据类型,这些变量可以存储整数,小数或字符。这篇文章主要介绍了Python 变量类型详解,需要的朋友可以参考下
    2018-10-10
  • 30分钟搭建Python的Flask框架并在上面编写第一个应用

    30分钟搭建Python的Flask框架并在上面编写第一个应用

    这篇文章主要介绍了如何搭建Python的Flask框架并在上面编写一个简单的登录模版应用,代码数量少、充分体现了Flask框架的轻量与开发高效的特点,需要的朋友可以参考下
    2015-03-03
  • python多进程中的内存复制(实例讲解)

    python多进程中的内存复制(实例讲解)

    下面小编就为大家分享一篇python多进程中的内存复制(实例讲解),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-01-01
  • Python实现动态图解析、合成与倒放

    Python实现动态图解析、合成与倒放

    这篇文章主要为大家详细介绍了Python实现动态图的解析、合成与倒放,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-01-01

最新评论