返回顶部

[Python] 使用pandas比对Excel表格,把不同数据列出

[复制链接]
awagink 显示全部楼层 发表于 2020-10-28 23:49:17 |阅读模式 打印 上一主题 下一主题

由于工作中经常有2个表格内容需要比对一下,把不同的内容列出来,所以做了一个对比程序,如下:

import pandas as pd# 读取2个要对比的表格df1 = pd.read_excel('需要对比的数据.xlsx', sheet_name='数据1')df2 = pd.read_excel('需要对比的数据.xlsx', sheet_name='数据2')# 获取所有数据,并删除重复值,为了获取所有iddf = df1.append(df2)cols_value = df.id.values  # 获取'id'列数组cols_value = list(set(cols_value))cols_value.remove(df1.iat[0, 0)  # 删除了表头# 初始化 res,把表1的第一行标题添加到 resrow = list(df1.values[0)columns = ['id', 'data1', 'data2', 'data3', 'data4', 'data5', 'data6', 'data7', 'data8', 'data9', 'data10'res = pd.DataFrame([row, columns=columns)# 表1和表2进行比对,把不同的数组存入到res中for i in cols_value:    # print(i)    row1 = df1[df1.id == i    row2 = df2[df2.id == i    if row1.empty:  # 判断是不是空值        res = res.append({'table': '表1', 'id': i}, ignore_index=True)        row2['table' = '表2'        res = res.append(row2)    else:        if row2.empty:  # 判断是不是空值            row1['table' = '表1'            res = res.append(row1)            # res.loc['id' == i, 'table'] = '表1'            res = res.append({'table': '表2', 'id': i}, ignore_index=True)        else:            temp = row1.append(row2)            temp.drop_duplicates(inplace=True)            if temp.shape[0 == 1:                pass            else:                row1['table' = '表1'                res = res.append(row1)                row2['table' = '表2'                res = res.append(row2)order = ['table', 'id', 'data1', 'data2', 'data3', 'data4', 'data5', 'data6', 'data7', 'data8', 'data9', 'data10'res = res[orderprint(res)res.to_excel('比对结果.xlsx', sheet_name='比对结果')res.save()print('done')
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48

使用时,在同一级目录下建立 需要对比的数据.xlsx 文件,创建2个表,表名为 数据1 和 数据2,且第一行写 [id, data1, data2, data3, data4, data5, data6, data7, data8, data9, data10] 如下图:

注意:第一列需要填写主建,且2个需要对比的数据顺序需要一致。

最后运行代码后,在同目录下生成 比对结果.xlsx 的文件,打开他就能看到结果了,如下图(表2中缺少id=8的行,所以结果中显示空值):

虽然运行代码能正常处理,但还是会报些错误,请各位能给个建议,谢谢。


您需要登录后才可以回帖 登录 | 注册

本版积分规则

纳速健身网成立于2006年8月,是国内优秀健身运动网站,现拥浏览人数超30万。网站是集养生、武术、太极拳和健身气功等多种健身项目于一体的多功能交流平台。平台提供大量优质的教学视频、伴奏音乐(太极拳晨练音乐,广场舞音乐,健身气功音乐)、图文教程、运动科普和经验分享,为健身爱好者提供完善的运动指导平台。
  • 纳速QQ群乙:151815303
  • 纳速QQ群丙:79104490
  • 微信交流群:微信好友搜索【nasuwang】加小纳微信进群交流健身知识,备注【纳速】
  •                     或者扫描页面底部右侧二维码添加小纳微信>>>
  • 微信公众号

  • 微信群客服交流

  • Copyright © 2006-2021, 纳速健身网. | | 辽ICP备13002388号-1 辽公安网备21050202000005号公安网备号 纳速武术-乙 QQ