本教材由知了传课辛苦制作而成,仅供学习使用,请勿用于商业用途!如进行转载请务必注明出处!谢谢!

Excel文件处理

在爬虫开发中,我们主要关注Excel文件的读写,不会过多关心Excel中的一些样式。如果想要读写Excel文件,需要借助到两个库xlrdxlwt,其中xlrd是用于读的,xlwt是用于写的,安装命令如下:

pip install xlrd
pip install xlwt

一、读取Excel文件:

import xlrd workbook = xlrd.open_workbook("成绩表.xlsx") sheet_names = workbook.sheet_names() print(sheet_names) #打印所有的sheet的名称

1. 获取Sheet

一个Excel中可能有多个Sheet,那么可以通过以下方法来获取想要的Sheet信息:

  1. sheet_names:获取所有的sheet的名字。
  2. sheet_by_index:根据索引获取sheet对象。
  3. sheet_by_name:根据名字获取sheet对象。
  4. sheets:获取所有的sheet对象。
  5. sheet.nrows:这个sheet中的行数。
  6. sheet.ncols:这个sheet中的列数。

示例代码如下:

import xlrd workbook = xlrd.open_workbook("成绩表.xlsx") sheet_names = workbook.sheet_names() print(sheet_names) #打印所有的sheet的名称 # 根据索引获取sheet sheet = workbook.sheet_by_index(0) print(sheet.name) # 根据名称获取sheet sheet = workbook.sheet_by_name("1班成绩") print(sheet.name) # 获取所有的sheet对象 sheets = workbook.sheets() for sheet in sheets: print(sheet.name) # 获取这个sheet中的行数和列数 nrows = sheet.nrows ncols = sheet.ncols

2. 获取Cell及其属性:

每个Cell代表的是表格中的一格。以下方法可以方便获取想要的cell

  1. sheet.cell(row,col):获取指定行和列的cell对象。
  2. sheet.row_slice(row,start_col,end_col):获取指定行的某几列的cell对象。
  3. sheet.col_slice(col,start_row,end_row):获取指定列的某几行的cell对象。
  4. sheet.cell_value(row,col):获取指定行和列的值。
  5. sheet.row_values(row,start_col,end_col):获取指定行的某几列的值。
  6. sheet.col_values(col,start_row,end_row):获取指定列的某几行的值。

示例代码如下:

sheet = workbook.sheet_by_index(0) # 使用cell方法获取指定的cell对象 for col in range(sheet.ncols): for row in range(sheet.nrows): print(sheet.cell(row,col)) # 使用row_slice获取第0行的1-2列的cell对象 cells = sheet.row_slice(0,1,3) # 使用col_slice获取第0列的1-2行的cell对象 cells = sheet.col_slice(0,1,3)

另外在Cell上面也有一些常用的属性:

  1. cell.value:这个cell里面的值。
  2. cell.ctype:这个cell的数据类型。

3. Cell的数据类型:

  1. xlrd.XL_CELL_TEXT(Text):文本类型。
  2. xlrd.XL_CELL_NUMBER(Number):数值类型。
  3. xlrd.XL_CELL_DATE(Date):日期时间类型。
  4. xlrd.XL_CELL_BOOLEAN(Bool):布尔类型。
  5. xlrd.XL_CELL_BLANK:空白数据类型。

二、写入Excel:

写入Excel步骤如下:

  1. 导入xlwt模块。
  2. 创建一个Workbook对象。
  3. 创建一个Sheet对象。
  4. 使用sheet.write(row,col,data)方法把数据写入到Sheet下指定行和列中。如果想要在原来workbook对象上添加新的cell,那么需要调用put_cell来添加。
  5. 保存成Excel文件。

示例代码如下:

import xlwt import random workbook = xlwt.Workbook(encoding='utf-8') sheet = workbook.add_sheet("成绩表") # 添加表头 fields = ['数学','英语','语文'] for index,field in enumerate(fields): sheet.write(0,index,field) # 随机的添加成绩 for row in range(1,10): for col in range(3): grade = random.randint(0,100) sheet.write(row,col,grade) workbook.save("abc.xls")

另外,如果想要在原来已经存在的Excel文件中添加新的行或者新的列,那么需要采用put_cell(row,col,type,value,xf_index)来添加进去,最后再放到xlwt创建的workbook中,然后再保存进去。示例代码如下:

import xlrd import xlwt workbook = xlrd.open_workbook("成绩表.xlsx") rsheet = workbook.sheet_by_index(0) # 添加总分成绩 rsheet.put_cell(0,4,xlrd.XL_CELL_TEXT,"总分",None) for row in range(1,rsheet.nrows): grade = sum(rsheet.row_values(row,1,4)) rsheet.put_cell(row,4,xlrd.XL_CELL_NUMBER,grade,None) # 添加每个科目的平均成绩 total_rows = rsheet.nrows total_cols = rsheet.ncols for col in range(1,total_cols): grades = rsheet.col_values(col,1,total_rows) avg_grade = sum(grades)/len(grades) print(type(avg_grade)) rsheet.put_cell(total_rows,col,xlrd.XL_CELL_NUMBER,avg_grade,None) # 重新写入一个新的excel文件数据 wwb = xlwt.Workbook(encoding="utf-8") wsheet = wwb.add_sheet("1班学生成绩") for row in range(rsheet.nrows): for col in range(rsheet.ncols): wsheet.write(row,col,rsheet.cell_value(row,col)) wwb.save("abc.xls")

1420人已阅读,今天你学习了吗?

添加新回复