[数据分析] 实操案例,带你了解如何关联分析

Kate甜铂金一 显示全部楼层 发表于 2022-6-10 17:18:22 |阅读模式 打印 上一主题 下一主题
前几天,朋友问了我一个问题,大概是说,他们正在做一个大数据相关的分析,场景类似这样,每天有大量的酒店入住人的信息,怎么从这些信息中,筛选出某几个人是可能存在某种特定关系的。

(因为真实场景需要保密,所以这里采用类比的方式举例,但是并不妨碍进行进一步的分析。)

听完需求后,我的第一反应就是使用关联规则的算法就可以实现想要得结果。

为了方便朋友理解,我使用Yonghong Desktop做了一个案例。

首先准备测试数据。


该数据中,同一个酒店和同一个日期入住的人,我们认为属于同一个批次,给与相同的id进行标识。然后上传到Yonghong Desktop保存为数据集。


再在深度分析模块新建实验模型,拖入创建好的数据集,再拖入关联规则算法,设置最小支持数和最小置信度,最后再拖入数据集视图。至此,模型建立完毕。是不是特别简单。


我们运行一下,几秒后遍得到了结果,是不是很惊喜,so easy。





不过接下来就是朋友的四连问。
1:这个结果怎么看?
2:数据维度为什么只有这几个,加几个行吗?
3:数据量大的话,怎么处理?
4:筛选出来的结果集比较大,怎么进一步提取关联结果?

第一个问题
置信度,left 和right, 当 left出现时,right出现的概率,为置信度。

Support 为 left和right ,同时出现的概率,受整体样本行数影响,这个值可能不会太高。最小支持数,数据重复出现的最小次数。

这里我们需要研究的是某人或者某些人之间的关联关系,所以首先置信度要高,再者,left和right一定有关系的话,还必须是充分且必要,也就是说老李出现时,小李一定出现,反之小李出现时,老李一定出现,则我们可以认定他俩存在某种特定的关系。


第二个问题
我们研究的目的是找出可能存在的特定关系,在这个案例中,我们并不关心任何因果关系,只关心概率,也就是说如果反复匹配出现,则认为存在关联关系。所以其他维度可以不要,只要能够标识清楚这个id和姓名就足够了。

第三个问题
这里需要说回关联规则的一个基本概念,频繁项集,也就是说如果只出现1次,那么他肯定不能算频繁项集。所以数据处理的时候可以直接排除掉只出现1次记录。

最后一个问题,将结果集导入mysql,再进行sql处理,表1和表2相同,where 表1.left=表2.right and 表1.right = 表2.left,因为样本数据较少,这里没有做验证。但是理论上应该可以行。

到这里是不是就结束了呢,其实,研究他们的关系还不是最终目的。

这里我提出1种假设,,找出了特定关系的数据后,还不知道它们是哪种特殊关系,怎么办,以本案例来讲,老李和小李,出现的时间是五一和国庆,所以他们大概率是一家人,是出来旅游的,那么就可以有针对性的推旅游线路,酒店,美食,特产相关的信息,也就是精准营销。

至于应该怎么来猜,这里需要回归到第二问题中,把数据放回多维度记录中,去找比较突出的维度(也可以是打标签),或者使用聚类分析(数据多的时候),然后再进行业务解析,这里做聚类和业务解析可能需要下次有机会再进一步展开了。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?免费注册

x
回复

使用道具 举报

精彩评论12

happypanda皇冠三 显示全部楼层 发表于 2022-6-13 09:55:09
好棒
回复

使用道具 举报

小七皇冠三 显示全部楼层 发表于 2022-6-14 10:20:49
学习了
回复

使用道具 举报

yhdata_tCbElqTF玄铁三 显示全部楼层 发表于 2022-6-26 16:52:15
厉害
回复

使用道具 举报

北城话唠铂金一 来自手机 显示全部楼层 发表于 2022-7-6 11:42:36
好厉害
回复

使用道具 举报

无为不争铂金一 显示全部楼层 发表于 2022-7-18 18:04:07
666
回复

使用道具 举报

Ndate皇冠三 来自手机 显示全部楼层 发表于 2022-7-24 10:40:14
{:11:}厉害
回复 支持 反对

使用道具 举报

yhdata_RdDmt2ry白银二 显示全部楼层 发表于 2022-7-26 08:25:31
厉害
回复

使用道具 举报

yhdata_5ifhFmo5白银一 显示全部楼层 发表于 2022-7-30 13:47:32
回复

使用道具 举报

kongfg白银四 显示全部楼层 发表于 2022-8-10 16:39:39
厉害了
回复

使用道具 举报

高级模式
您需要登录后才可以回帖 登录 | 免费注册

  • 官方微信

    欢迎关注永洪服务号!收费为0,价值无限

    扫码关注
  • 新浪微博

    让每位用户轻松挖掘数据价值!

    访问新浪微博
  • 智能客服
50W

会员等你来哦

Copyright   ©2012-2024  北京永洪商智科技有限公司  (京ICP备12050607) 京公网安备110110802011451号 |联系社区管理员|《永洪社区协议》
返回顶部