目录：Python3教程

第一章：Python和Pycharm 安装Python解释器 安装Pycharm 第二章：开始写Python程序 输出和输入 写Python程序的方式 运行Python程序的注意事项 第三章：Python基础语法 基本数据类型 变量和常量 初级运算符 高级运算符 再讲字符串 list类型 tuple类型 dict类型 set类型 条件判断 循环 第四章：函数 函数定义和调用 函数参数详解 匿名函数 闭包 装饰器 第五章：Python高级特性 切片迭代 推导式 生成器 迭代器 第六章：面向对象编程 类和对象 构造函数和访问控制 继承和多态 一切皆对象 第七章：面向对象高级编程 再讲动态绑定 使用__slots__ 使用@property 定制类 多重继承 type和元类 第八章：文件编程 文件IO 操作文件和目录 StringIO和BytesIO 序列化 第九章：异常处理和调试 异常处理 调试 第十章：模块 自定义模块 模块路径搜索 第十一章：常用内建模块 collections itertools base64 time xml urllib HTMLParser hashlib 第十二章：常用第三方模块 如何安装第三方模块 第三方图片处理模块PIL 第十三章：虚拟环境 第十四章：常用设计模式 工厂方法模式 单例模式 策略模式 装饰模式 迭代器模式 观察者模式 第十五章：多进程、多线程和协程 多进程 多线程 协程 第十六章：网络编程 TCP编程 详解TCP协议栈 多线程聊天 粘包和分包处理 UDP编程 FTP编程 电子邮件编程 异步网络模型 第十七章：界面编程 PyQt模块 常用界面功能 消息循环 信号和槽 常用控件 常用控件II 布局管理 QtDesigner 工作者线程 精品计算器 第十八章：项目实战

urllib

阅读：227569258 分享到

我们在浏览器中输入 url 就可以打开一个网页，实际上是我们在自己计算机上的浏览器向这个 url（标志了目标机器和目录）发送了请求信息，然后对方服务器给我们返回信息，我们在浏览器上就可以显示这些信息了，这就是请求，回应，显示整个过程。

urllib 是 Python 解释器中内置的非常方面，好用的网络库，它可以支持多种网络协议进行网络通信。

我们可以通过 urllib 包里面的 request 模块的 urlopen 函数，传入一个 URL，该函数默认采用的协议是 HTTP 协议，我们的浏览器访问网站的过程就是用 HTTP 协议网站服务器通信的过程。当然你也可以把 HTTP 换做 FTP，FILE，HTTPS 等等，只是代表了一种访问控制协议，urlopen 有好多默认参数，我们在本节课介绍一下常用的几个参数。

使用 urllib

我们给 Python 内置的 urllib 包里的 request 模块的 urlopen 函数出入一个 url，就可以模拟浏览器访问这个网页，下面我们爬取 老鸟python 的首页。

from urllib import request

response = request.urlopen("http://47.100.38.27/")
print(response.read())  # 打印

urlopen 还有一个默认参数 timeout，这个参数可以设置访问网站的超时时间。当然我们要确保网站的 url 存在，如果不存在，超时时间不起作用，则会直接抛出异常；如果访问的 url 存在的话，假如在设置的超时时间内没有打开，则会一直会等到超时时间过去，报异常；如果访问的 url 存在，并且在超时时间内打开，则正常。

from urllib import request

response = request.urlopen("http://47.100.38.27/", timeout=3)   # 存在，一般瞬间就打开
response = request.urlopen("http://www.google.com", timeout=3)  # 存在，但一般人打不开的 url
response = request.urlopen("http://dajiahaowoxizhazhahui.com", timeout=3)  # 一个不存在的 url