本帖最后由 海风呢 于 2017-8-15 15:10 编辑
屌丝用数据分析帮女神学姐选婚房
下午,有一位学姐在微信上找我,能不能帮我在北京选一套婚房啊?学姐求我,焉有不应!于是我们约了晚上在校园的咖啡馆见面。
学姐一身漂亮的装束,香水扑鼻,是实验室比我大两级的女神,追求者众,据说只找BAT的高富帅。毕业三年,就准备买婚房了。
我开始询问她对婚房具体需求,同时为了保证准确,我重新抓取今天所有的二手房数据。
学姐说,要找面积在70平以上,130平以下的房子。现在两家人拿出了180万的首付。我帮她算了一下,她男友的工资一个月两万,按照贷款三十年,每个月还款不超过收入的51%计算,总共能贷大概140万。因此,预算在320万左右。15分钟后数据采完了。
所有二手房总共10W套我按照学姐的要求,选择了70到130平,价格在350万以下,260万以上的所有房子。 按面积和价格筛选:5892套她突然又说,不喜欢太老的房子。 房子确实不能太老,否则水暖电都会老化,也很难出手。于是,我用正则表达式抽取房子的年份。 1997年以后待出售的有906套
“让我再想想,哦,上班最好不要太远,所以位置不要太偏。“ 我心想,恩,要离老公近一点。我打开了地图,告诉她,你来选一个区域范围吧! 学姐用纤纤手指,在屏幕上画了一个框,我仔细看了一下,大概是这个样子:
这个区域,西至玉泉路,东到东五环,南到长安街,北到立水桥。 我觉得很有意思,问学姐,长安街以南有好多单价较低的东西城区的房子,为什么不考虑呢?
她说,“男朋友在北边,这样上班方便。再说,宁要北边一张床,不要南边一间房,所以当然要买长安街以北的房子啦!” 她选的其实还挺有道理,北边过了立水桥,就是昌平的天通苑了,我的听过天通苑国出入境极其困难的传言,没有二十分钟进不去。她男朋友怎么舍得让她早高峰在天通苑地铁站挤地铁呢,那个情景,大概是下面这个样子:
我分析了一下坐标,这个矩形范围大约在东经116.25到116.53度,北纬39.91到40.059度之间。 位置筛选表达式跑下来,剩804套按照不同区域进行划分,就能看到下面的柱状图:
学姐瞄了一眼这张图,傲娇地说,我只想买东城西城,朝阳海淀的房子。
我感到很吃惊,1997年后,居然还有单价在5W以内的西城区的房子?西城有10套,东城有3套。如果能买到西城的房子,学姐真是赚大了!于是我赶紧把那些西城的房子出来:
单价才三万八!这怎么可能,随便找了两个仔细一看,原来一个是地下室,另外一个是商住两用的房子。
学姐问我,什么是商住两用?我告诉她,所谓商住两用就是商水商电,小产权,不能落户口。
学姐说,坚决不要地下室,而且要能落户口。
这个也难不倒我,中介当然不会傻到在标题上标注地下室和商住两用。但通常商住两用,会标明“不限购”,各种“大厦”,“中心”,“投资”的关键字,都是无法落户的,用关键字筛掉它们!
学姐眉头一皱,“忘了告诉你了,我要两室或者三室的房子,一定要带客厅”。我想了几秒钟,看来还得正则表达式出马:
housetype = re.compile(u'(2|3)室(1|2)厅');
这样,西城东城的房子彻底干掉了。我告诉学姐,你现在只能选择朝阳和海淀的房子了。 海淀朝阳,不要小产权,商住两用和地下室,两室/三室带客厅:572套接下来按照区域选房子。我们按照区域排序分组并求数量,得到了下面这张表:
学姐往我这边凑了凑身子,才看清图表上的那些小字,”这么多地方,好多听都没听过,怎么选?“
我把数据导入到可视化工具里绘制出所有可选的位置。集中在北苑,清河,望京和十里堡附近。
学姐想了想说,“男朋友所在的公司在西边,我在东边,所以北苑应该是个不错的选择”
北苑正好是两个人的上班的中点,酒仙桥地铁并不方便,所以暂时先不考虑。
选择北苑,106套我们将地图缩放到北苑,每个小区有多少套合适的房子一目了然。
”这个不错啊,那每个小区的价格和年份呢?我想买尽量新的房子。”
我很快导出了下面的表格,顺便把2014到2015年每个小区的涨价/跌价数量也显示出来,并按数量排序:
(笔者后来才知道, 跌价的两个小区,旭辉奥都基本都是商住两用,美立方小区很新,但基本都不满两年)
她对比了一下每个小区的价格,“这价格差别还是挺大的,从2.7W到3.9W都有。为什么呢?”
我说,这可能和房子年份有关,我猜越新的小区,房子肯定会越贵(附录证明了我的猜测)。买较新的房子也有缺点,就是可能卖家房本不足两年或五年,因此税费会较高。
学姐吃惊的说,原来成交价不是网上的挂牌价啊!
我偷笑了一下,心想,“看来学姐是完全不懂啊”。中介当然要收中介费的啊,某著名中介一般是成交价的2.7%。我拿出之前整理的各类费用的表格,列在下面:
我接着说道,这是普通商品房的税率,如果是经济适用房,需要交纳10%的综合地价款,如果是公房,还需要交纳土地出让金…
学姐打断我,“这个太复杂了!”
这些政策足够写好几张纸,我自己也不是很清楚。
这时,学姐拿出手机,一脸兴奋的说,啊,“我男朋友一会开车来接我,咱们尽量快一点结束”。
心塞啊,为了简单先不管公房和经适房。根据中介给出的隐含信息,结合附录中给的方法,重新计算最终成交价。
根据手续费占原价的百分比,可以看到不同百分比二手房的数量:
学姐说,希望所有的最终费用不超过330万。
最终费用不超过330万,总共95套
“我想要性价比较高的房子!”
我回答,这看你怎么定义性价比了。基本上,一分价钱一分货,能从下面几个角度来考虑:
· 户型:仅次于位置的最重要因素 · 采光:即使做不到明厨明卫,也最少做到明室明厅。 · 学区:旁边是否有不算太差的幼儿园和小学 · 升值空间:房子未来是否好出手
学姐问,90多套房子,这个让我怎么选啊,能让机器帮我选择一下吗?
这可让我犯了难,户型图都可以查到,但让程序去做自动识别,并计算采光,这实在是太难了,只能让学姐自己来选了。
采光也没法自动识别,但能通过中介给出的评论中提取关键词,绘制词图,提高筛房效率。
学区和升值空间相对比较容易,把北苑所有的学校,幼儿园,以及未来地铁的建设情况绘制出来,即可作为直接的参考。
检索2020年北苑位置的地铁
即使在2020年,北苑的地铁线路依旧不够发达,只增加了勇士营一站。勇士营站的位置,靠近来春园和北京青年城,可以认为未来有较好的升值空间。 绘制北苑所有的幼儿园 以学姐的情况,估计以后还会换学区房,我们姑且将附近的幼儿园绘制出来:
(时间所限,笔者没有标注每个幼儿园的情况,之后有专门的学区房专题进行分析) 提取中介点评关键字,做成词云,方便观察由于中介对每套房子的评价内容特别多,因此一条一条观察会非常浪费时间。我不得不动用自然语言处理技术,对剩余的90多套房子,提取点评关键词。
按综合评价排序表格为了方便学姐快速地从90套房子中选取自己中意的房子,我生成了这些房子的词图,坐标图和房型图。
另一方面,考虑对这些房源进行排序,但如何评价房子的综合好坏呢?
一般来说,看房的人越多越火,但不排除挂出来很久都没人看上,因此用每月平均看房次数比较合适。另外,更好的房子会有更多的中介小哥对其进行评价,房评热度较高。因此,使用下面的公式来计算房子的评价: 综合评价=(总看房人数/已挂出时间)∗0.2+经纪人评论数量∗0.8
(获取挂出时间的方法请参考附录,公式的权重参数是我瞎编的) 我花了五分钟生成了一个word文档,能非常方便地进行对比,选择恐惧症福音,就像下面这个样子:
我接着说,接下来就靠你和你男朋友对户型进行筛选,选出20-30套觉得不错的房子,综合地铁商场幼儿园地图,制定看房计划,联系中介,最后确定最合适的房子,这样会比较有效率。
学姐看完以后,非常开心,说道,太棒了太棒了,这样我选房就一目了然,你把你生成的这份文档拷到我U盘上吧!
这时,学姐掏出了一个非常精致的爱心优盘,说道“不要随便乱看哦,这里面有我和我男票的爱之皂片”。
心塞啊。。。我把优盘插在电脑上准备拷贝,顺便问学姐,你难道不考虑酒仙桥,清河的房子吗?好像中关村也有符合你要求的房子呢,那里比北苑地理位置好多了。。。
学姐表情一变,啊啊啊啊,是啊,我到底该怎么选啊,你知道我有选择恐惧症。。。你再帮我选一下吧。。。
我:。。。。。。
这时,外面有汽车鸣了两下笛,学姐的电话也响了,应该是她的BAT男友来了。
她一看手机,啊,我男朋友来接我了,学弟今天谢谢你!于是拿起包包转身急匆匆地就出门了。。。
本文转自微信公众号:小蚊子数据分析,作者:沙漠之鹰 文章原链接为:https://mp.weixin.qq.com/s/8jPUHVVah4OHKYtbK-JFvg |