网络爬虫之动态内容爬取

根据联合国网站可访问性审计报告,73%的主流网站都在其重要功能中依赖JavaScript。和单页面应用的简单表单事件不通,使用JavaScript时,不再是加载后立即下载所有页面内容。这样会造成许多网

大家好,又见面了,我是全栈君,今天给大家准备了Idea注册码。

  根据联合国网站可访问性审计报告,73%的主流网站都在其重要功能中依赖JavaScript。和单页面应用的简单表单事件不通,使用JavaScript时,不再是加载后立即下载所有页面内容。这样会造成许多网页在浏览其中展示的内容不会出现在HTML源码中,针对于这种依赖于JavaScript的动态网站,我们需要采取相应方法,比如JavaScript逆向工程、渲染JavaScript等方法。

1. 动态网页示例

  网络爬虫之动态内容爬取

  如上图,打开智联招聘主页,输入python,搜索会出现上面的页面,现在我们爬取上图红色标记出的链接地址

  首先分析网页,获取该位置的div元素信息,我这里使用的是firefox浏览器,按F12

  网络爬虫之动态内容爬取

  看上图,红色标记就是我们要获取的链接地址,现在用代码获取该处链接试试看

import requests
from bs4 import BeautifulSoup as bs

url = 'https://sou.zhaopin.com/?jl=736&kw=python&kt=3'
reponse = requests.get(url)
soup = bs(reponse.text,"lxml")
print(soup.select('span[title="JAVA软件工程师"]'))
print(soup.select('a[class~="contentpile__content__wrapper__item__info"]'))

  输出结果为:[ ] [ ]

  表示这个示例爬虫失败了,检查源码也会发现我们抓取的元素实际是空的,而firefox显示给我们的却是网页当前的状态,也就是使用JavaScript动态加载玩搜索结果后的网页。

2. 对动态网页进行逆向工程

  在firefox中按F12单击控制台,打开XHR

网络爬虫之动态内容爬取

  依次点开,并查看响应出内容

网络爬虫之动态内容爬取

  会发现最后一行有我们要的内容,继续点开results的索引0

  网络爬虫之动态内容爬取

  很好,这就是我们要找的信息

  接下来我们就可以对第三行的网址进行爬虫处理并获取我们的想要的json信息。

3. 代码实现

  接下来提取首页jobName中包含python的所有链接:

import requests import urllib import http import json def format_url(url, start=0,pagesize=60,cityid=736,workEXperience=-1, education=-1,companyType=-1,employmentType=-1,jobWelfareTag=-1, kw="python",kt=3): url = url.format(start,pagesize,cityid,workEXperience,education,companyType,\ employmentType,jobWelfareTag,kw,kt) return url; def ParseUrlToHtml(url,headers): cjar = http.cookiejar.CookieJar() opener = urllib.request.build_opener(urllib.request.HTTPSHandler, urllib.request.HTTPCookieProcessor(cjar)) headers_list = [] for key,value in headers.items(): headers_list.append(key) headers_list.append(value) opener.add_headers = [headers_list] html = None try: urllib.request.install_opener(opener) request = urllib.request.Request(url) reponse = opener.open(request) html = reponse.read().decode('utf-8') except urllib.error.URLError as e: if hasattr(e, 'code'): print ("HTTPErro:", e.code) elif hasattr(e, 'reason'): print ("URLErro:", e.reason) return opener,reponse,html '''print(ajax) with open("zlzp.txt", "w") as pf: pf.write(json.dumps(ajax,indent=4))''' if __name__ == "__main__": url = 'https://fe-api.zhaopin.com/c/i/sou?start={}&pageSize={}&cityId={}'\ '&workExperience={}&education={}&companyType={}&employmentType={}'\ '&jobWelfareTag={}&kw={}&kt={}&_v=0.11773497'\ '&x-zp-page-request-id=080667c3cd2a48d79b31528c16a7b0e4-1543371722658-50400' headers = {"Connection":"keep-alive", "Accept":"application/json, text/plain, */*", 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0'} opener,reponse,html = ParseUrlToHtml(format_url(url), headers) if reponse.code == 200: try: ajax = json.loads(html) except ValueError as e: print(e) ajax = None else: results = ajax["data"]["results"] for result in results: if -1 != result["jobName"].lower().find("python"): print(result["jobName"],":",result["positionURL"]) 

   输出:

网络爬虫之动态内容爬取

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/120049.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • java重载与重写的区别_java重载和重写的区别和联系

    java重载与重写的区别_java重载和重写的区别和联系1.重写(Override)从字面上看,重写就是重新写一遍的意思。其实就是在子类中把父类本身有的方法重新写一遍。子类继承了父类原有的方法,但有时子类并不想原封不动的继承父类中的某个方法,所以在方法名,参数列表,返回类型(除过子类中方法的返回值是父类中方法返回值的子类时)都相同的情况下,对方法体进行修改或重写,这就是重写。但要注意子类函数的访问修饰权限不能少于父类的。2.重载(Overload)在一个类中,同名的方法如果有不同的参数列表(参数类型不同、参数个数不同甚至是参数顺序不同)则视.

  • HDU 6034 Balala Power!【排序/进制思维】

    HDU 6034 Balala Power!【排序/进制思维】

  • MATLAB自带的dwt2和wavedec2函数实现基于小波变换的自适应阈值图像边缘检测

    MATLAB自带的dwt2和wavedec2函数实现基于小波变换的自适应阈值图像边缘检测主要完成了以下功能:1.调用不同的小波函数对图像进行小波分解;2.求解模极大值,实现固定阈值和自适应阈值的边缘提取;3.实现了全局自适应阈值的多尺度小波边缘检测;

  • myeclipse jdbc连接mysql数据库_怎样把navicat连接到eclipse

    myeclipse jdbc连接mysql数据库_怎样把navicat连接到eclipse解决Eclipse通过JDBC连接MySQL数据库遇到的问题。包括EstablishingSSLconnectionwithoutserver’sidentityverificationis…警告和Theservertimezonevalueisunrecognized警告

  • DeepLink的实现原理「建议收藏」

    DeepLink的实现原理「建议收藏」前言之前我们又是看源码又是研究动画,今天分享一个比较简单的技术点:DeepLink。DeepLink,深度链接技术,主要应用场景是通过Web页面直接调用Android原生app,并且把需要的参数通过Uri的形式,直接传递给app,节省用户的注册成本。简单的介绍DeepLink概念之后,我们看一个实际的例子:朋友通过京东分享给我一个购物链接:于是我通过微信打开了这条链接:…

  • Python里divmod_python基本函数

    Python里divmod_python基本函数前言我们都知道,python中//代表整数运算中的取整,%代表整数运算中的取余,那么有什么函数可以同时取到整数和余数吗?答案是有的,使用python内置函数divmoddivmod首先看一下源

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号