urllib2

  • Python使用urllib2获取网络资源实例讲解

    urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件.他以urlopen函数的形式提供了一个非常简单的接口,下面我们用实例讲解他的使用方法 这是具有利用不同协议获取URLs的能力,他同样提供了一个比较复杂的接口来处理一般情况,例如:基础验证,cookies,代理和其他. 它们通过handlers和openers的对象提供. urllib2支持获取不同格式的URLs(在URL的":"前定义的字串,例如:"ftp"是

    python, urllib2, 获取网络资源April 30

  • python 简易爬虫

    目前还很慢..不过至少功能实现了 #coding=utf-8 import urllib2 as request import re usr_url = 'http://image.baidu.com/' usr_target = '/home/bu/Documents/py_learn/down/' def getHtml(url): page = request.urlopen(url) html = page.read() return html def getImg(html): reg

    python, 爬虫, urllib2April 14

  • python网页请求urllib2模块简单封装代码

    这篇文章主要分享一个python网页请求模块urllib2模块的简单封装代码,有需要的朋友参考下 对python网页请求模块urllib2进行简单的封装. 例子: #!/usr/bin/python #coding: utf-8 import base64 import urllib import urllib2 import time class SendRequest: ''' This class use to set and request the http, and get the i

    urllib2, 网页请求March 5

  • Python中urllib2模块的8个使用细节分享

    这篇文章主要介绍了Python中urllib2模块的8个使用细节分享,本文讲解了Proxy设置.Timeout设置.加入特定Header.Redirect.Cookie.PUT和DELETE方法等内容,需要的朋友可以参考下 Python 标准库中有很多实用的工具类,但是在具体使用时,标准库文档上对使用细节描述的并不清楚,比如 urllib2 这个 HTTP 客户端库.这里总结了一些 urllib2 库的使用细节. 1 Proxy 的设置 urllib2 默认会使用环境变量 http_proxy

    python, urllib2February 3

  • python通过urllib2爬网页上种子下载示例

    这篇文章主要介绍了通过urllib2.re模块抓种子下载的示例,需要的朋友可以参考下 通过urllib2.re模块抓种子 思路 1.用程序登录论坛(如果需要登录才能访问的版块) 2.访问指定版块 3.遍历帖子(先取指定页,再遍历页面所有帖子的url) 4.循环访问所有帖子url,从帖子页面代码中取种子下载地址(通过正则表达式或第三方页面解析库) 5.访问种子页面下载种子 import urllib import urllib2 import cookielib import re import

    python, urllib2, 种子December 15

  • CNKI小爬虫(Python)

    CNKI作为国文最大的数据库,虽然下载文章是需要登陆的,但是只除了全文外还有很多有价值的信息,包括文章名,作者,基金还有摘要,都可以作为重要数据进行匿名爬取,先写个简单的出来,之后有空再建个关联的数据吧 因为闲放在一个文件中太乱所以把他们分开两个文件,一个为主文件Crawl_cnki.py,一个为参数文件Parameters.py.文件包:https://github.com/shikanon/CNKI_crawler 参数文件主要是对提交参数做分析,对CNKI查询主要提交参数进行说明: # -

    python, cnki, 爬虫, urllib2November 5

  • Python标准库urllib2的一些使用细节总结

    这篇文章主要介绍了Python标准库urllib2的一些使用细节总结,本文总结了Proxy 的设置.Timeout 设置.Redirect.Cookie等细节的使用,需要的朋友可以参考下 Python 标准库中有很多实用的工具类,但是在具体使用时,标准库文档上对使用细节描述的并不清楚,比如 urllib2 这个 HTTP 客户端库.这里总结了一些 urllib2 的使用细节. 1.Proxy 的设置 2.Timeout 设置 3.在 HTTP Request 中加入特定的 Header 4.Re

    python, urllib2, 标准库, 使用细节June 29

  • python使用urllib2模块获取gravatar头像实例

    python使用urllib2模块获取gravatar头像的实例,大家参考使用吧 Gravatar注册地址: https://en.gravatar.com/ """`Gravatar <https://en.gravatar.com/site/implement/>`_""" # import code for encoding urls and generating md5 hashes import urllib2, hashl

    urllib2, gravatar头像June 22

  • Python库urllib与urllib2主要区别分析

    这篇文章主要介绍了Python库urllib与urllib2主要区别,需要的朋友可以参考下 作为一个Python菜鸟,之前一直懵懂于urllib和urllib2,以为2是1的升级版.今天看到老外写的一篇<Python: difference between urllib and urllib2>才明白其中的区别 You might be intrigued by the existence of two separate URL modules in Python -urllib and ur

    urllib, urllib2June 19

  • python33 urllib2使用方法细节讲解

    Python 标准库中有很多实用的工具类,这里总结一些 urllib2 的使用细节:Proxy 的设置.Timeout 设置.在 HTTP Request 中加入特定的 .Cookie.使用 HTTP 的 PUT 和 DELETE 方法 Proxy 的设置 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy.如果想在程序中明确控制 Proxy 而不受环境变量的影响,可以使用下面的方式 import urllib2 enable_proxy = True pro

    urllib2, python33June 16

  • Python中使用urllib2防止302跳转的代码例子

    这篇文章主要介绍了Python中使用urllib2防止302跳转的代码例子,即避免302跳转的实现,需要的朋友可以参考下 说明:python的urllib2获取网页(urlopen)会自动重定向(301,302).但是,有时候我们需要获取302,301页面的状态信息.就必须获取到转向前的调试信息. 下面代码将可以做到避免302重定向到新的网页 #!/usr/bin/python # -*- coding: utf-8 -*- #encoding=utf-8 #Filename:states_co

    python, urllib2, 302May 1

  • python使用urllib2实现发送带cookie的请求

    这篇文章主要介绍了python使用urllib2实现发送带cookie的请求,涉及Python操作cookie的相关技巧,非常具有实用价值,需要的朋友可以参考下 本文实例讲述了python使用urllib2实现发送带cookie的请求.分享给大家供大家参考.具体实现方法如下: import urllib2 opener = urllib2.build_opener() opener.addheaders.append(('Cookie','cookiename=cookievalue')) f

    python, Cookie, urllib2April 12

  • python中使用urllib2伪造HTTP报头的2个方法

    这篇文章主要介绍了python中使用urllib2伪造HTTP报头的2个方法,即伪造http头信息,需要的朋友可以参考下 在采集网页信息的时候,经常需要伪造报头来实现采集脚本的有效执行 下面,我们将使用urllib2的header部分伪造报头来实现采集信息 方法1. #!/usr/bin/python # -*- coding: utf-8 -*- #encoding=utf-8 #Filename:urllib2-header.py import urllib2 import sys #抓取网

    python, Http, urllib2, 伪造报头March 15

  • urllib2自定义opener详解

    这篇文章主要介绍了urllib2自定义opener详解,需要的朋友可以参考下 urllib2.urlopen()函数不支持验证.cookie或者其它HTTP高级功能.要支持这些功能,必须使用build_opener()函数创建自定义Opener对象. build_opener([handler1 [ handler2, ... ]]) 参数handler是Handler实例,常用的有HTTPBasicAuthHandler.HTTPCookieProcessor.ProxyHandler等. b

    自定义, urllib2, openerJanuary 11

  • python通过urllib2获取带有中文参数url内容的方法

    这篇文章主要介绍了python通过urllib2获取带有中文参数url内容的方法,涉及Python中文编码的技巧,具有一定参考借鉴价值,需要的朋友可以参考下 本文实例讲述了python通过urllib2获取带有中文参数url内容的方法.分享给大家供大家参考.具体如下: 对于中文的参数如果不进行编码的话,python的urllib2直接处理会报错,我们可以先将中文转换成utf-8编码,然后使用urllib2.quote方法对参数进行url编码后传递. content = u'你好 jb51.net

    python, 方法, 中文, urllib2December 12

  • python中使用urllib2获取http请求状态码的代码例子

    这篇文章主要介绍了python中使用urllib2获取http请求状态码的代码例子,需要的朋友可以参考下 采集内容常需要得到网页返回的验证码做进一步处理 下面代码是用python写的用来获取网页http状态码的脚本 #!/usr/bin/python # -*- coding: utf-8 -*- #encoding=utf-8 #Filename:states_code.py import urllib2 url = 'http://www.jb51.net/' response = None

    python, Http, urllib2, 状态码November 1

  • Python2.7 urllib&&urllib2学习

    urllib模块提供一些简单的函数从url中读取数据,但是urllib没有高级定制功能,可以使用urllib2.在urllib中使用最多的是urlopen函数. urlopen(str_url,data)访问一个给定的url,然后返回一个只读的文件对象t,文件对象t可以使用read.readline.readlines.close等方法.t.geturl()返回t的url.在data为None,并且str_url为http协议时,urlopen发送一个GET请求,在data不是None时,str

    python, urllib2, cookielibDecember 13

  • python ---- urllib2

    获取数据的方式 #!/usr/bin/env python #-*- coding:utf-8 -*- import urllib2 u='[email protected]' p='xxxxxxxxxxxxxxxxx' url='https://api.github.com/users/username' def encodeUserData(user,password): return "Basic " + (user + ":" + passwor

    python, urllib2July 25

  • Python 解析网页

    最近想在一些网站获取汉字的一些,简单的使用python做了一个小解析工具. 工具使用 SGMLParser解析htm网页,获取里面指定的一些内容. 代码中获取的是http://www.chazidian.com/r_zi_zd4e50/里面的内容. 现有另一个问题,www.chazidian.com下面可能有上万个类似的网页,我怎么能获取这上万个网页的地址呢?希望高手解答解答··· #-*- coding:utf-8 -*- import urllib2 import codecs class

    python, 汉字, urllib, urllib2, 网页解析, SGMLParserJuly 23

  • 字符串抓取,与替换

    #coding:utf-8 import urllib2 data = urllib2.urlopen('http://lady.163.com/').read() i = data.find('<title>') + 7 b = data.find('</title>') title = data[i:b] print title print title.replace('女人'.decode('utf-8').encode('gb2312'),'测试'.decode('utf-

    python, urllib2, 字符串抓取October 3