找文章 / 找答案
精选问答 更多内容

[技术功能] 屌丝用数据分析帮女神学姐选婚房

海风呢 显示全部楼层 发表于 2017-8-15 15:02:32 |阅读模式 打印 上一主题 下一主题
本帖最后由 海风呢 于 2017-8-15 15:10 编辑

屌丝用数据分析帮女神学姐选婚房

下午,有一位学姐在微信上找我,能不能帮我在北京选一套婚房啊?学姐求我,焉有不应!于是我们约了晚上在校园的咖啡馆见面。

学姐一身漂亮的装束,香水扑鼻,是实验室比我大两级的女神,追求者众,据说只找BAT的高富帅。毕业三年,就准备买婚房了。

我开始询问她对婚房具体需求,同时为了保证准确,我重新抓取今天所有的二手房数据。

学姐说,要找面积在70平以上,130平以下的房子。现在两家人拿出了180万的首付。我帮她算了一下,她男友的工资一个月两万,按照贷款三十年,每个月还款不超过收入的51%计算,总共能贷大概140万。因此,预算在320万左右。15分钟后数据采完了。

所有二手房总共10W套
我按照学姐的要求,选择了70到130平,价格在350万以下,260万以上的所有房子。
按面积和价格筛选:5892套
她突然又说,不喜欢太老的房子。
房子确实不能太老,否则水暖电都会老化,也很难出手。于是,我用正则表达式抽取房子的年份。
1997年以后待出售的有906套
“让我再想想,哦,上班最好不要太远,所以位置不要太偏。“
我心想,恩,要离老公近一点。我打开了地图,告诉她,你来选一个区域范围吧!
学姐用纤纤手指,在屏幕上画了一个框,我仔细看了一下,大概是这个样子:

1.jpg

这个区域,西至玉泉路,东到东五环,南到长安街,北到立水桥。
我觉得很有意思,问学姐,长安街以南有好多单价较低的东西城区的房子,为什么不考虑呢?

她说,“男朋友在北边,这样上班方便。再说,宁要北边一张床,不要南边一间房,所以当然要买长安街以北的房子啦!”
她选的其实还挺有道理,北边过了立水桥,就是昌平的天通苑了,我的听过天通苑国出入境极其困难的传言,没有二十分钟进不去。她男朋友怎么舍得让她早高峰在天通苑地铁站挤地铁呢,那个情景,大概是下面这个样子:

2.jpg

我分析了一下坐标,这个矩形范围大约在东经116.25到116.53度,北纬39.91到40.059度之间。
位置筛选表达式跑下来,剩804
按照不同区域进行划分,就能看到下面的柱状图:

3.png

学姐瞄了一眼这张图,傲娇地说,我只想买东城西城,朝阳海淀的房子。

我感到很吃惊,1997年后,居然还有单价在5W以内的西城区的房子?西城有10套,东城有3套。如果能买到西城的房子,学姐真是赚大了!于是我赶紧把那些西城的房子出来:

4.png

单价才三万八!这怎么可能,随便找了两个仔细一看,原来一个是地下室,另外一个是商住两用的房子。

学姐问我,什么是商住两用?我告诉她,所谓商住两用就是商水商电,小产权,不能落户口。

学姐说,坚决不要地下室,而且要能落户口。

这个也难不倒我,中介当然不会傻到在标题上标注地下室和商住两用。但通常商住两用,会标明“不限购”,各种“大厦”,“中心”,“投资”的关键字,都是无法落户的,用关键字筛掉它们!

学姐眉头一皱,“忘了告诉你了,我要两室或者三室的房子,一定要带客厅”。我想了几秒钟,看来还得正则表达式出马:

housetype = re.compile(u'(2|3)室(1|2)厅');

这样,西城东城的房子彻底干掉了。我告诉学姐,你现在只能选择朝阳和海淀的房子了。
海淀朝阳,不要小产权,商住两用和地下室,两室/三室带客厅:572
接下来按照区域选房子。我们按照区域排序分组并求数量,得到了下面这张表:

5.png

学姐往我这边凑了凑身子,才看清图表上的那些小字,”这么多地方,好多听都没听过,怎么选?“

我把数据导入到可视化工具里绘制出所有可选的位置。集中在北苑,清河,望京和十里堡附近。

6.jpg

学姐想了想说,“男朋友所在的公司在西边,我在东边,所以北苑应该是个不错的选择”

北苑正好是两个人的上班的中点,酒仙桥地铁并不方便,所以暂时先不考虑。
选择北苑,106套
我们将地图缩放到北苑,每个小区有多少套合适的房子一目了然。

7.jpg

”这个不错啊,那每个小区的价格和年份呢?我想买尽量新的房子。”

我很快导出了下面的表格,顺便把2014到2015年每个小区的涨价/跌价数量也显示出来,并按数量排序:

8.png

(笔者后来才知道, 跌价的两个小区,旭辉奥都基本都是商住两用,美立方小区很新,但基本都不满两年)

她对比了一下每个小区的价格,“这价格差别还是挺大的,从2.7W到3.9W都有。为什么呢?”

我说,这可能和房子年份有关,我猜越新的小区,房子肯定会越贵(附录证明了我的猜测)。买较新的房子也有缺点,就是可能卖家房本不足两年或五年,因此税费会较高。

学姐吃惊的说,原来成交价不是网上的挂牌价啊!

我偷笑了一下,心想,“看来学姐是完全不懂啊”。中介当然要收中介费的啊,某著名中介一般是成交价的2.7%。我拿出之前整理的各类费用的表格,列在下面:

15.png

我接着说道,这是普通商品房的税率,如果是经济适用房,需要交纳10%的综合地价款,如果是公房,还需要交纳土地出让金…

学姐打断我,“这个太复杂了!”

这些政策足够写好几张纸,我自己也不是很清楚。

这时,学姐拿出手机,一脸兴奋的说,啊,“我男朋友一会开车来接我,咱们尽量快一点结束”。

心塞啊,为了简单先不管公房和经适房。根据中介给出的隐含信息,结合附录中给的方法,重新计算最终成交价。

根据手续费占原价的百分比,可以看到不同百分比二手房的数量

9.png

学姐说,希望所有的最终费用不超过330万。

最终费用不超过330万,总共95套

“我想要性价比较高的房子!”

我回答,这看你怎么定义性价比了。基本上,一分价钱一分货,能从下面几个角度来考虑:

· 户型:仅次于位置的最重要因素
· 采光:即使做不到明厨明卫,也最少做到明室明厅。
· 学区:旁边是否有不算太差的幼儿园和小学
· 升值空间:房子未来是否好出手

学姐问,90多套房子,这个让我怎么选啊,能让机器帮我选择一下吗?

这可让我犯了难,户型图都可以查到,但让程序去做自动识别,并计算采光,这实在是太难了,只能让学姐自己来选了。

采光也没法自动识别,但能通过中介给出的评论中提取关键词,绘制词图,提高筛房效率。

学区和升值空间相对比较容易,把北苑所有的学校,幼儿园,以及未来地铁的建设情况绘制出来,即可作为直接的参考。

检索2020年北苑位置的地铁

10.jpg

即使在2020年,北苑的地铁线路依旧不够发达,只增加了勇士营一站。勇士营站的位置,靠近来春园和北京青年城,可以认为未来有较好的升值空间。
绘制北苑所有的幼儿园
以学姐的情况,估计以后还会换学区房,我们姑且将附近的幼儿园绘制出来:

11.jpg

(时间所限,笔者没有标注每个幼儿园的情况,之后有专门的学区房专题进行分析)
提取中介点评关键字,做成词云,方便观察
由于中介对每套房子的评价内容特别多,因此一条一条观察会非常浪费时间。我不得不动用自然语言处理技术,对剩余的90多套房子,提取点评关键词。

12.png

按综合评价排序表格
为了方便学姐快速地从90套房子中选取自己中意的房子,我生成了这些房子的词图,坐标图和房型图。

另一方面,考虑对这些房源进行排序,但如何评价房子的综合好坏呢

一般来说,看房的人越多越火,但不排除挂出来很久都没人看上,因此用每月平均看房次数比较合适。另外,更好的房子会有更多的中介小哥对其进行评价,房评热度较高。因此,使用下面的公式来计算房子的评价:
综合评价=(总看房人数/已挂出时间)∗0.2+经纪人评论数量∗0.8

(获取挂出时间的方法请参考附录,公式的权重参数是我瞎编的)
我花了五分钟生成了一个word文档能非常方便地进行对比,选择恐惧症福音,就像下面这个样子:

13.jpg

我接着说,接下来就靠你和你男朋友对户型进行筛选,选出20-30套觉得不错的房子,综合地铁商场幼儿园地图,制定看房计划,联系中介,最后确定最合适的房子,这样会比较有效率。

学姐看完以后,非常开心,说道,太棒了太棒了,这样我选房就一目了然,你把你生成的这份文档拷到我U盘上吧

这时,学姐掏出了一个非常精致的爱心优盘,说道“不要随便乱看哦,这里面有我和我男票的爱之皂片”。

心塞啊。。。我把优盘插在电脑上准备拷贝,顺便问学姐,你难道不考虑酒仙桥,清河的房子吗?好像中关村也有符合你要求的房子呢,那里比北苑地理位置好多了。。。

学姐表情一变,啊啊啊啊,是啊,我到底该怎么选啊,你知道我有选择恐惧症。。。你再帮我选一下吧。。。

我:。。。。。。

这时,外面有汽车鸣了两下笛,学姐的电话也响了,应该是她的BAT男友来了。

她一看手机,啊,我男朋友来接我了,学弟今天谢谢你!于是拿起包包转身急匆匆地就出门了。。。

14.jpg

本文转自微信公众号:小蚊子数据分析,作者:沙漠之鹰
文章原链接为:https://mp.weixin.qq.com/s/8jPUHVVah4OHKYtbK-JFvg
回复

使用道具 举报

精彩评论1

VVvv青铜四 来自手机 显示全部楼层 发表于 2024-5-1 15:22:37
婚房
回复

使用道具 举报

高级模式
您需要登录后才可以回帖 登录 | 免费注册

  • 官方微信

    欢迎关注永洪服务号!收费为0,价值无限

    扫码关注
  • 新浪微博

    让每位用户轻松挖掘数据价值!

    访问新浪微博
  • 智能客服
50W

会员等你来哦

Copyright   ©2012-2024  北京永洪商智科技有限公司  (京ICP备12050607) 京公网安备110110802011451号 |《永洪社区协议》
返回顶部