正则表达式
正则表达式的基础知识
- 原子
- 普通字符 “yue”即为三个原子y u e
- 非打印字符
- 原子表
- [xyz]中xyz可以匹配
- [^xyz]除了xzy都可以匹配
- [xyz]中xyz可以匹配
- 通用字符
- \w \W \d \D \s \S
- 元字符
- 常见的元字符
- 任意匹配元字符
- 边界限制元字符
- 限定符
- 模式选择符
- 模式单元
- 模式修正
- 贪婪模式与懒惰模式
正则表达式常见函数
- re.match()函数
- 从源字符开头开始检索
- re.search()
- 从全文检索
- 全局匹配函数
- re.compile()对正则表达式预编译
- 编译后,使用findall()全部找出
- re.sub()函数
- re.sub(pattern,rep,string,max)
- pattern 正则表达式
- rep要替换成的字符
- string 源字符
- max 代表最多可替换的次数
Cookie
- Cookie常用于保存会话信息
Cookiejar
Cookiejar是Python3中用于处理Cookie的库。
进行Cookie处理的常用思路:
- 导入Cookie处理模块http.cookiejar
- 使用http.cookiejar.CookieJar()创建CookieJar对象
- 使用HTTPCookieProcessor创建cookie处理器,并以其为参数构建opener对象
- 创建全局默认的opener对象
多线程爬虫
Trackback解读
Trackback