博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
03 Python爬虫之Requests网络爬取实战
阅读量:4945 次
发布时间:2019-06-11

本文共 1626 字,大约阅读时间需要 5 分钟。

目录

实例1:京东商品页面的爬取

实例1:京东商品页面的爬取

https://item.jd.com/2967929.html

import requestsurl = "https://item.jd.com/2967929.html"try:    r = requests.get(url)    print(r.status_code)    # 200    print(r.encoding)    r.raise_for_status()    r.encoding = r.apparent_encoding    print(r.text[:1000])except:    print("爬取失败")

实例2:亚马逊商品页面的爬取

实例2:亚马逊商品页面的爬取

https://www.amazon.cn/gp/product/B01M8L5Z3Y

该网站通过对来源审查做了限制,因此需要修改头部信息,伪装成浏览器对网站进行数据的爬取。

import requestsurl = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"try:    r = requests.get(url)    print(r.status_code)    # 503 说明访问失败    print(r.encoding)       # ISO-8859-1    r.encoding = r.apparent_encoding    # 修改编码    print(r.status_code)    # 503 说明访问失败    # 可能是通过来源审查对网络爬虫采取了限制    print(r.request.headers)    # 查看 'User-Agent': 'python-requests/2.22.0'    # 更改头部信息,伪装成浏览器,修改User-Agent    kv = {"user-agent" : "Mozilla/5.0"}    r = requests.get(url, headers = kv)   # 关键字实参    print(r.status_code)    # 再次查看状态码,发现已经成功 200    print(r.text[:1000])except:    print("爬取失败")

实例3:百度搜索关键字提交

百度的关键词接口:

import requeststry:    kv = {"wd": "Python"}    r = requests.get("http://www.baidu.com/s", params=kv)   # url中的参数    print(r.request.url)    r.raise_for_status()    print(len(r.text))except:    print("爬取失败")

实例4:IP地址归属地的自动查询

iP138网站 查询IP地址归属地http://m.ip138.com/ip.asp?ip=ipaddress

import requestsurl = "http://m.ip138.com/ip.asp?ip="   # iP138网站请求数据的前半部分idAddr = "211.70.176.3"     # 需要查询的IP地址try:    r = requests.get(url+idAddr)    r.raise_for_status()    r.encoding = r.apparent_encoding    print(r.text[-1000:])except:    print("爬取失败")

转载于:https://www.cnblogs.com/XuChengNotes/p/11336117.html

你可能感兴趣的文章
最长严格上升子序列
查看>>
asp.net将控件或页面数据导出到Excel
查看>>
(50)zabbix API二次开发使用与介绍
查看>>
2016/1/1--jquery(添加和部分css)
查看>>
2016/02/04
查看>>
一些资料
查看>>
smix到底是个啥?Perl的正则表达式匹配模式
查看>>
STM32的USART
查看>>
ubuntu解决软件依赖问题
查看>>
sql常识-union
查看>>
Mysql之字符集
查看>>
第二章 网络爬虫技能概述
查看>>
DFS和BFS
查看>>
Python中sort和sorted函数代码解析
查看>>
R语言Switch语句
查看>>
bash数组
查看>>
python学习目录
查看>>
爬虫苦训第一天,我的第一个爬虫!!!
查看>>
poj2992 阶乘分解
查看>>
iOS开发UI篇—九宫格坐标计算
查看>>