风一样的回忆

新浪微薄腾讯微薄

最新碎语:从未遇见一位没亏过钱的富人,却遇见许多从未亏掉一毛钱的穷人

您的位置:风一样的回忆 >Python> 关于Python3爬虫简单的一个范例

关于Python3爬虫简单的一个范例

仿站就需要下载原始站点的资源,一个个去下载很麻烦,这个时候我们可以写一个python爬虫来完成资源的快速抓取。

这是一个简单的python爬虫抓取图片数据的例子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# __Author__: 凡


# 四部曲:1.导入模块 2.获取网页源码 3.正则匹配下载 4.调用函数

import urllib.request #获取网址模块
import re  #正则匹配模块

#定义获取网页源代码函数
def gethtml():
    papg = urllib.request.urlopen('http://www.wmpic.me/Movie/index.html') #打开图片的网址
    html = papg.read()  #用read方法读成网页源代码,格式为字节对象
    html = html.decode('UTF-8') #定义编码格式解码字符串(字节转换为字符串)
    return html

#匹配

def getimg(html):
    imgre = re.compile('img src="(.*?)"')#正则匹配,compile为把正则表达式编译成一个正则表达式对象,提供效率。
    imglist = re.findall(imgre, html)#获取字符串中所有匹配的字符串
    x = 0 #定义全局变量默认为0
    for imgurl in imglist: #循环图片字符串列表并输出
        print(imgurl)

#下载
        urllib.request.urlretrieve('http://www.wmpic.me/'+imgurl,'%s.jpg' % x)#把图片下载到本地并指定保存目录
        x += 1 #每次自增1
        print("正在下载第%s张" % x)#格式化输出张数

#调用函数
html = gethtml()

print(getimg(html))


---

转载请注明本文标题和链接:《关于Python3爬虫简单的一个范例

分享到:

发表评论

路人甲 表情
看不清楚?点图切换 Ctrl+Enter快速提交