神兵天降！通过python实现办公自动化

永洪社区 › 用户分享 ›

分享到

用户分享 2022-7-5 09:52 3417人浏览 2人回复

收藏邀请

摘要

要说在工作中最让人头疼的就是用同样的方式处理一堆文件夹中文件，这并不难，但就是繁。所以在遇到机械式的操作时一定要记得使用Python来合理偷懒！最近朋友找到我想对1000+的excel文件获取其中的一部分数据进行获取 ...

要说在工作中最让人头疼的就是用同样的方式处理一堆文件夹中文件，这并不难，但就是繁。所以在遇到机械式的操作时一定要记得使用Python来合理偷懒！

最近朋友找到我想对1000+的excel文件获取其中的一部分数据进行获取和整理。

首先，我先对他的需求做了一个简单的询问，内容包括获取数据的格式是否一致、数据所在位置是否一直、获取数据的逻辑是否一致，以及从他那里获取到一个标准数据的样式。

沟通下来他想处理的数据大概长这样：

他想获取的只是第二行数据中的公司、姓名、组别、电话号整合到一个文件中生成对应的四个列，这个过程中提到了一个比较特殊的点，这个信息有可能在sheet1中也有可能在sheet2中，也可能都存在，这个时候我就想一定要遍历sheet页。如果都存在的时候数据也是相同的，但只需要获取其中一条，并且最终的结果数据一定是没有重复的，那么在做的时候就要考虑判断是否存在重复数据了。

现在需求确定了，我们就要考虑脚本如何运行了，首先我们要获取excel所在文件夹，然后遍历这个文件夹中的所有excel文件，再依次遍历文件中的sheet页获取指定位置的数据，最后对数据进行格式的处理存到我们指定的文件中。这个过程就是一个简单的ETL（Extraction-Transformation-Loading）过程。

确定了逻辑后我们就可以开始编写我们想要的脚本了。

第一步设置引用的包和预设参数，我们要对系统文件进行处理需要引用os包，对excel处理可以引用xlrd包。

import os,xlrd

# 下载xlrd

# pip install xlrd=1.2.0

listname=['公司','姓名','单位','电话号'] # 数据表头

filename=[] # 文件名列表

result=[] # 结果列表

第二步遍历py文件所在目录下的所有文件。

def gci(filepath):

#遍历filepath下所有文件，包括子目录

files = os.listdir(filepath) # 获取指定路径下的所有文件

for fi in files:

if fi.split('.')[-1]!='py': # 去除列表中获取的python文件

fi_d = os.path.join(filepath,fi) # 路径拼接

filename.append(fi_d.replace('\\','/')) # 转换路径内容，转为一致的斜杠

gci(os.path.dirname(__file__)) # 获取python文件路径

第三步预设数据的格式处理。

def todata(text):

while True: # 循环

if text.find(' ') != -1: # 有两个空格则转为一个

text=text.replace(' ',' ')

elif text[0]==' ': # 去掉开头的格子

text=text[1:-1]

elif text[-1]==' ': # 去掉结尾的格子

text=text[0:-2]

else:

text=text.replace(' ',',') # 空格转为逗号，方便转csv

text=text.replace('\n','') # 去掉换行

text=text.replace(listname[0]+'：','') # 去掉数据标题

text=text.replace(listname[1]+'：','')

text=text.replace(listname[2]+'：','')

text=text.replace(listname[3]+'：','')

return text

第四步遍历所有的excel获取数据。

# 循环获取excel中的sheet页数据

for filepath in filename:

xl = xlrd.open_workbook(filepath) # 打开文件

for i in range(len(xl.sheet_names())):

table1 = xl.sheets()[i] # 打开sheet页

try:

temp_data=table1.row_values(1, start_colx=0, end_colx=None)[0] # 获取第二行数据并取第一个格子数据

except:

continue

if temp_data == '': # 如果为空则跳过该sheet页

continue

# 查询数据中是否存在listname的内容，有一个不存在则跳过

if temp_data.find(listname[0]) == -1 or temp_data.find(listname[1]) == -1 or temp_data.find(listname[2]) == -1 or temp_data.find(listname[3]) == -1:

continue

if todata(temp_data) in result: # 数据格式转换，自定义函数

continue

else:

result.append(todata(temp_data)) # 转换后的数据插入到结果列表中

第五步结果写入到指定文件中。

# 数据写入csv文件

f=open(os.path.dirname(__file__)+'/result.csv','w',encoding='gbk')

for rdata in result:

f.write(rdata+'\n')

f.close()

最后执行脚本，将执行的结果自己手动加了一个表头，如下图。（数据皆为随机造数，并不代表真实数据）

将数据进行一个统计，能够更好的反映出各组提交状态：

从需求的梳理到逻辑的实现再到图片的展示，总计一个小时左右，用一个小时来解决1000+的excel文件的处理，您觉得是否合适呢？

上一篇：个人经验分享//报告内容个性化(定制化)展示

下一篇：数据脱敏到底怎么用//几步学会完美保护用户隐私数据

社区资源

互助问答海量模板永洪学院成功案例帮助中心积分商城

关于永洪

了解永洪加入永洪市场活动媒体报道联系我们

官方微信

欢迎关注永洪服务号！收费为0，价值无限

扫码关注
新浪微博

让每位用户轻松挖掘数据价值！

访问新浪微博
智能客服

1500W

用户等你来哦

返回顶部

神兵天降！通过python实现办公自动化

相关阅读

分享一下/如何简单简单几步实现地图脚本轮播

个人经验分享//报告内容个性化(定制化)展示

敏捷BI到底比传统BI强大在哪里？

学习数据分析？要从这六步走

数据决策照亮未来！光伏翘楚天合光能与永洪

车企数字化升级再进一步，华晨宝马签约永洪

永洪科技荣获2023信创应用创新企业奖

技术实力与商业成果并蓄！永洪科技荣获大数

永洪科技获创客北京·鲲鹏应用创新大赛2023

热门产品

社区资源

关于永洪