- images
- results
- .gitignore
- 1.1概论.ipynb
- 1.2 环境配置.pdf
- 1.3数据类型.ipynb
- 1.4 人机交互.ipynb
- 1.5 对象与变量.ipynb
- 1.6 编码与命名规范.ipynb
- 2.1 数值类型.ipynb
- 2.2 数值类型转换.ipynb
- 2.3 数值元算.ipynb
- 2.4常用数学运算函数.ipynb
- 2.5 math 模块及其应用.ipynb
- 2.6.1 逻辑值测试.ipynb
- 2.6.2 成员运算.ipynb
- 2.6.3 比较运算.ipynb
- 2.6.4 布尔运算.ipynb
- 2.6.5 运算优先级.ipynb
- 2.ipynb
- 3.1 流程控制结构.ipynb
- 3.3.1 for 循环语句.ipynb
- 3.3.3 rang.ipynb
- 3.3.3 while 循环语句.ipynb
- 3.4 and 3.5 分支结构和条件.ipynb
- 3.6 and 3.7 .ipynb
- 3.9 异常处理.ipynb
- 4 函数和模块化编程.ipynb
- 4.1 函数的定义、调用与返回值.ipynb
- 4.2 函数的参数传递.ipynb
- 4.3 变量的作用域.ipynb
- 4.4 匿名函数.ipynb
- 4.5 递归.ipynb
- 4.6 内置函数.ipynb
- 4.7 模块化程序设计.ipynb
- 5.1 序列通用操作.ipynb
- 5.1.1 索引.ipynb
- 5.1.2 切片.ipynb
- 5.1.3 序列拼接与重复.ipynb
- 5.1.4 成员测试.ipynb
- 5.2.1 字符串的创建.ipynb
- 5.2.2 字符串常量.ipynb
- 5.2.4 字符串的遍历.ipynb
- 5.2.5 文件遍历.ipynb
- 5.2.6 字符串的处理方法.ipynb
- 5.2.7 字符串格式化.ipynb
- 5.2.8 转义字符.ipynb
- 5.3 random 模块及其应用.ipynb
- 6.1 元组.ipynb
- 6.2 列表.ipynb
- 6.2.1 列表的创建.ipynb
- 6.2.2 列表的更新.ipynb
- 6.2.3 列表的删除.ipynb
- 6.2.4 列表的排序.ipynb
- 6.2.5 列表赋值与复制.ipynb
- 6.2.6 列表推导式.ipynb
- 6.2.8 常用内置函数.ipynb
- 6.2.9 列表嵌套及其排序.ipynb
- 6.3 列表综合应用.ipynb
- 7.1.1 集合的创建.ipynb
- 7.1.2可变集合类型的操作.ipynb
- 7.1.3 成员关系.ipynb
- 7.1.4 集合关系.ipynb
- 7.1.5 集合运算.ipynb
- 7.2.1 字典创建.ipynb
- 7.2.2 获取字典值.ipynb
- 7.2.3 修改字典值.ipynb
- 7.2.4内置函数与方法.ipynb
- 7.2.5字典排序输出.ipynb
- 7.3 集合与字典的应用.ipynb
- 8 中 numpy 概述.ipynb
- 8 中panda 库.ipynb
- 8.1 文件的打开与关闭.ipynb
- 8.2 文件读写操作.ipynb
- 8.3 文件的应用.ipynb
- 8.4 numpy 文件操作.ipynb
- 8.4.2 and 3.ipynb
- 8.5.1 pandas文件读写.ipynb
- 8.5.2 and 3 and 4.ipynb
- 9.1 matplotlib 线性图.ipynb
- 9.1.5 数据文化绘图.ipynb
- 9.2 非线性图.ipynb
- 9.3 词云.ipynb
- _overview.md
- _readme.ipynb
- coding_here.ipynb
- dream.png
- score.txt
- score_total.csv
- 成绩分析综合.json
5.2.5 文件遍历.ipynb @master — view markup · raw · history · blame
5.8 遍历文本文件¶
文本文件的内容除了我们看到的文本信息外,还有一些不可见字符,例如,在每行末会有一个换行和回车符。
行末常见的符号有CR/LF
LF是Line Feed的缩写,符号是\n,ASCII值是10;
CR是Carriage Return的缩写,符号是\r,ASCII值是13;
Unix/Linux/Mac系统下面,一般只用LF
Windows系统下面经常同时使用两个符号,CRLF,有时也只用LF。
这两种符号在python中都可以用字符串的str.strip()方法去除,下面统称为换行符。


知识扩展:
LF:换行
LF(Line Feed)代表“换行”,换行符(转义序列 \n)
这个字符代表一行文本的结束,在 Linux 和 Mac 上,这相当于新文本行的开始。
CR:回车
CR(Carriage Return)代表回车(转义序列\r)
将光标移动到当前行的开头。
打字机和回车(CR) 将一张纸固定在称为托架的机械卷上,为设备送入一张纸。每次击键时,打字机都会使用墨水在您的纸张上打印字母,将笔架向左移动以确保键入的下一个字母会出现在前一个字母的右侧。
当然,一旦当前行的空间用完,打字员就需要向下移动到纸张上的下一行。这是通过旋转滑架将纸张相对于打字机的“笔”向上移动一定距离来完成的。但是还需要重置托架(carriage),以便键入的下一个字符将与纸张的左侧边距对齐。换句话说,打字员需要某种方式将托架返回到其起始位置。而这正是回车的工作:一个金属杆连接到托架的左侧,当推动时,将托架返回到其起始位置。
电传打字机和回车换行(CRLF) 进入 20 世纪初,出现了电传打字机。基本上,它的工作方式与手动打字机相同,除了不是打印到物理纸上,而是通过传输器通过物理电线或无线电波将消息发送给接收方。
虽然打印方式不同,但是同样需要使用换行符 (LF) 和回车符 (CR),而且这些设备需要同时使用换行符 (LF) 和回车符 (CR) 以允许打字员从下一行文本的开头输入。毕竟手动打字机就是这样工作的,只是它没有任何“字符”的概念,因为它是一种机械操作的设备。
我们可以将 LF 和 CR 视为代表水平或垂直方向上的独立运动,而不是同时代表两者,这样更容易将其形象化。为了实现这个功能,电传打字机在一些最早的操作系统中设定了 CRLF 行尾的标准,比如流行的 MS-DOS。将CR 代表“回车”——CR 控制字符将打印头(“回车”)返回到第 0 列,而无需推进纸张。 LF 代表“换行”——LF 控制字符在不移动打印头的情况下将纸张前进一行。因此,如果您想将打印头返回到第 0 列(准备打印下一行)并推进纸张(以便在新纸上打印),则需要 CR 和 LF。
1. 遍历输出文件¶
open()函数可以打开文件并创建一个可遍历的文件对象,可用赋值方式命名:
f = open()
也可用内容管理器with...as为之命别名:
with open() as f:
两个方法都可以打开文件创建文件对象。
f = open('images/ch5/8.1 静夜思.txt') # f 只是为创建的文件对象起的名字,无特殊意义
for a in f: # 遍历文件对象,每次循环获得文件的一行,包括行末的符号
print(a) # 逐行输出
# with ...as 语句需要以冒号结尾
with open('images/ch5/8.1 静夜思.txt') as fr: # fr 只是为创建的文件对象起的名字,可理解为可读文件对象
for line in fr: # 遍历文件对象,每次循环获得文件的一行,包括行末的符号
print(line) # 逐行输出
两种方法都可以逐行输出文件内容,但注意到文件末尾有一个换行符:
print('静夜思') # 输出静夜思后换行
print() # 输出一个换行
print('\n') # 输出两个换行
print('静夜思\n') # '静夜思\n'相当于'静夜思'+'\n',输出静夜思后换行再换行,即多输出一个空行
2. 读文件时去除换行符¶
2.1 字符串的str.strip()方法¶
f = open('images/ch5/Who Moved My Cheese.txt') # f 只是为创建的文件对象起的名字,无特殊意义
for line in f: # 遍历文件对象,每次循环获得文件的一行,包括行末的符号
print(line.strip()) # 逐行输出
# with ...as 语句需要以冒号结尾
with open('/data/bigfiles/8704a285-deaf-40f3-8694-f2036f0604de.txt') as fr: # fr 只是为创建的文件对象起的名字,可理解为可读文件对象
for line in fr: # 遍历文件对象,每次循环获得文件的一行,包括行末的符号
print(line.strip()) # 逐行输出
2.2 用字符串的str.replace()方法替换¶
f = open('images/ch5/8.1 静夜思.txt') # f 只是为创建的文件对象起的名字,无特殊意义
for line in f: # 遍历文件对象,每次循环获得文件的一行,包括行末的符号
print(line.replace('\n','')) # 将字符串中的换行符替换为空字符串
with open('/data/bigfiles/8704a285-deaf-40f3-8694-f2036f0604de.txt') as fr: # fr 只是为创建的文件对象起的名字,可理解为可读文件对象
for line in fr: # 遍历文件对象,每次循环获得文件的一行,包括行末的符号
print(line.replace(',','-')) # 逐行输出
2.3 定义函数¶
def read_txt(filename): # 传入的带路径文件名
"""接收一个文件名为参数,读取文件中的数据并逐行输出。"""
with open(filename, 'r', encoding='utf-8') as poem: # poem为创建的文件对象名
for line in poem:
print(line.strip())
if __name__ == '__main__':
file = '/data/bigfiles/8704a285-deaf-40f3-8694-f2036f0604de.txt' # 文件名定义变量,使函数具有通用性,传不同的文件名就可以读不同的文件
read_txt(file)
3 读文件为一个字符串¶
def read_txt(filename): # 传入的带路径文件名
"""接收一个文件名为参数,读取文件中的数据为一个字符串,返回这个字符串。"""
with open(filename, 'r', encoding='utf-8') as poem: # poem为创建的文件对象名
text = '' # 空字符串
for line in poem:
text = text + line # 当前行拼接到字符串上,保留原来的换行符
return text
if __name__ == '__main__':
file = 'images/ch5/8.1 静夜思.txt' # 文件名定义变量,使函数具有通用性,传不同的文件名就可以读不同的文件
print(read_txt(file))
练一练1
修改3的程序,拼接为字符串时去掉每个行末的换行符,观察输出的结果为分析换行符的作用。
# 补充你的代码
练一练2
模仿3的程序,编程读取文件“Who Moved My Cheese.txt”,逐行输出。
def read_txt(filename): # 传入的带路径文件名
"""接收一个文件名为参数,读取文件中的数据为一个字符串,返回这个字符串。"""
# 补充你的代码
if __name__ == '__main__':
file = 'images/ch5/Who Moved My Cheese.txt' # 文件名定义变量,使函数具有通用性,传不同的文件名就可以读不同的文件
print(read_txt(file))
练一练3
观察练一练2的输出,发现若每行要么全是中文,要么该行全是英文或数字;
根据这个特点,将中文和英文分别输出
提示:
非中文字符x的ord(x)值均不小于 256
一般来说每行只判断第1个字符就可以知道是中文还是英文
但本文档中,有些中文的行是英文符号开头,这些行也会被输出,思考一下如何解决这个问题?
def read_txt(filename): # 传入的带路径文件名
"""接收一个文件名为参数,读取文件中的英文为一个字符串,返回这个字符串。"""
# 补充你的代码
if __name__ == '__main__':
file = 'images/ch5/Who Moved My Cheese.txt' # 文件名定义变量,使函数具有通用性,传不同的文件名就可以读不同的文件
print(read_txt(file))
def read_txt(filename): # 传入的带路径文件名
"""接收一个文件名为参数,读取文件中的中文为一个字符串,返回这个字符串。"""
# 补充你的代码
if __name__ == '__main__':
file = '/data/bigfiles/863798db-6d6b-4bfa-842d-d6294266be31.txt' # 文件名定义变量,使函数具有通用性,传不同的文件名就可以读不同的文件
print(read_txt(file))