Python办公自动化，如何数据选取，减少数据冗余 - 干货资料 - 永洪社区

永洪社区干货资料 Python办公自动化，如何数据选取，减少数据冗余 ...

喝酸奶不舔盖

白银三

此人很懒，什么也没有留下

发帖数 114粉丝 9

作者更多精彩帖子

精选文章更多内容

探索永洪vividime的超链接功能：数据分析的桥梁

2025-09-02

数据决策新引擎：vividime七大智能分析功能让决策快人一步！

2025-08-14

掘金数据富矿，永洪科技为山东黄金定制“数智掘金”实战营 ...

2025-08-11

永洪科技荣获商业智能品牌影响力奖，全力打造”AI+决策”引擎 ...

2025-08-07

IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔 ...

2025-08-07

活跃用户

喝酸奶不舔盖

白银三

2024-6-26 17:00:15 发布在干货资料

【Python独家资料】 Python办公自动化，如何数据选取，减少数据冗余

本帖最后由喝酸奶不舔盖于 2024-6-26 17:06 编辑

一张表中通常会包含很多字段，造成数据冗余，在做数据分析时，我们仅需要提取数据分析所需要的字段，这里就需要用到数据选取的知识点。

本文构建数据表做数据索引，然后对数据内容进行调整，包含修改数据类型、去除空格、数据替换、截取字符等，最后做数据规整。

一、构建数据表

首先导入常用的库，设置一些数据字段，构建一张数据表。

import pandas as pd import numpy as np import datetime df = pd.DataFrame({'用户ID':[1001,1002,1003,1004,1005,1006], '日期':pd.date_range(datetime.datetime(2021,3,23),periods=6), '城市':['北京', '上海', '广州', '上海', '杭州', '北京'], '年龄':[23,44,54,32,34,32], '性别':['F','M','M','F','F','F'], '成交量':[3200,1356,2133,6733,2980,3452]}, columns =['用户ID','日期','城市','年龄','性别','成交量']) df

二、数据索引

1、索引修改

#修改索引，直接赋值给Index即可 df.index=list('abcdef') df

2、数据索引

索引某行，有三种方法，一种是loc按照名字索引，另一种是iloc按照下标索引，Ix是loc和iloc的混合，既能按索引标签提取，也能按位置进行数据提取。

#索引两列 df.loc[:,['城市','成交量']]

#索引前两行，两列 df.loc[['a','b'],['城市','成交量']]

#获取第一列、第二列数据 df.iloc[:,0:2]

#获取第二行、第三行，第一、二、三列的数据 df.iloc[[1, 2],[0, 1, 2]]

# 仅取出第1行的数据 df.iloc[0]

#索引全部行数据 df.iloc[:,[0, 1, 2]]

#使用ix按索引标签和位置混合提取数据 df.ix[:'2021-03-26',:3]

3、条件筛选

#筛选性别为F的数据 df[df['性别']=='F']

df[(df['城市']=='北京') & (df['年龄']>30)]

#布尔索引加普通索引选择指定的行和列 df[df['年龄']>30][['用户ID','城市','成交量']]

#切片索引加普通索引选择指定的行和列 df.iloc[0:3][['用户ID','城市','成交量']]

三、数据内容调整

1、修改数据类型

#数据类型修改 df.dtypes

#将用户ID数值类型转化为字符串类型df['用户ID'] = df['用户ID'].astype(str) df['用户ID'].dtype

2、去除空格

#去除字段中的空格 df = pd.DataFrame({'城市':['北京 ', ' 上海', ' 广州 ', '上海', ' 杭州 ', ' 北京']}) df['城市']

df['城市'].str.strip()

3、数据替换

df['城市'] = df['城市'].replace('北京','北京市') df['城市']

4、截取部分字符

#截取部分字符到日期日 df['日期'] = df['日期'].astype(str) df['日期'].str[8:10]

四、数据规整

1、数据排序

#排序，以成交量降序排列 df.sort_values(['成交量'],ascending=False)

2、数据分类

#使用where进行判断，条件满足为第一个值，不满足则返回第二个值 df['达成情况']=np.where(df['成交量']>3000,'达成量高','达成量低') df

文章源自：大话数据分析

免责声明：本文不代表本站立场，且不构成任何建议，请谨慎对待。

版权声明：作者保留权利，不代表本站立场。

1220

1

精彩评论1

happypanda 钻石一

钻石一

发表于 2024-7-28 08:35:51 显示全部楼层

回复

使用道具 2^#

高级模式

B Color Image Link Quote Code Smilies

您需要登录后才可以回帖登录 | 免费注册

回帖后跳转到最后一页

热门产品

企业版购买试用 vividime Desktop vividime Z-Suite vividime X-Suite vividime Megrez vividime Dubhe 永洪云

社区资源

互助问答海量模板永洪学院成功案例帮助中心积分商城

关于永洪

了解永洪加入永洪市场活动媒体报道联系我们

官方微信

欢迎关注永洪服务号！收费为0，价值无限

扫码关注
新浪微博

让每位用户轻松挖掘数据价值！

访问新浪微博
智能客服

1500W

用户等你来哦

Copyright ©2012-2025 北京永洪商智科技有限公司 (京ICP备12050607) 京公网安备110110802011451号 |《永洪社区协议》

返回顶部