打开支付宝首页搜索‘543701491’,领取马云的支付宝红包
Python的文本处理是经常碰到的一个问题,Python的txt文件读取中,有三类方法:read()、readline()、readlines(),这三种方法各有利弊,下面逐一介绍其使用方法和利弊。
read():
- read()是最简单的一种方法,一次性读取文件的所有内容放在一个大字符串中,即存在内存中
file_object = open('test.txt') //不要把open放在try中,以防止打开失败,那么就不用关闭了 try: file_context = file_object.read() //file_context是一个string,读取完后,就失去了对test.txt的文件引用 # file_context = open(file).read().splitlines() // file_context是一个list,每行文本内容是list中的一个元素 finally: file_object.close() //除了以上方法,也可用with、contextlib都可以打开文件,且自动关闭文件, //以防止打开的文件对象未关闭而占用内存
- read()的利端:
- 方便、简单
- 一次性独读出文件放在一个大字符串中,速度最快
- read()的弊端:
- 文件过大的时候,占用内存会过大
readline():
- readline()逐行读取文本,结果是一个list
with open(file) as f: line = f.readline() while line: print line line = f.readline()
- readline()的利端:
- 占用内存小,逐行读取
- readline()的弊端:
- 由于是逐行读取,速度比较慢
readlines():
- **readlines()一次性读取文本的所有内容,结果是一个list
with open(file) as f: for line in f.readlines(): print line
- 这种方法读取的文本内容,每行文本末尾都会带一个'\n'换行符 (可以使用L.rstrip('\n')去掉换行符)
- readlines()的利端:
- 一次性读取文本内容,速度比较快
- readlines()的弊端:
- 随着文本的增大,占用内存会越来越多
最简单、最快速的逐行处理文本的方法:直接for循环文件对象
file_object = open('test.txt','rU') try: for line in file_object: do_somthing_with(line)//line带"\n" finally: file_object.close()
如果对于读取到的一行内容要进行分割,也很容易,可以使用split进行分割
s='hello! my word' print s.split() #输出结果为['hello!', 'my', 'word']
如果是格式化的定长的字符,也可以使用下标进行读取,比如s=‘helloworld’,s[5:]读到的就是'world'