三分钟教你挖掘出9个亿的5位数QQ号,QQ大数据的神秘技能(2)
很有感悟“ 互联网上没有垃圾信息,只有放错位置的资源”。关于WEB数据挖掘方面其实是很值得研究的。以上的数据分享案例仅从5个维度做了对应分析,其实根据数据采集的维度,是可以做更广泛分析的。如从腾讯开放的QQ群、QQ会员、QQ拼音及QQ秀等多个公开数据源渠道挖掘收集到非常有价值的数据。就像百度中有很多你需要的开放数据,关键看你怎么去挖掘收集。
多年前,数据采集工作是需要程序员自己写各种爬虫程序,同时需要搞定多线程、数据库、高匿IP等多个技术门槛才能比较随心所欲地做到,整个过程是非常繁琐的。现在好多了,随着互联网云存储计算、大数据相关云技术的成熟,使用支持云采集的SaaS工具化交易平台,一方面自己可以使用工具轻而易举收集到想要你的数据,另一方面也可以直接发个需求让其他开发者或供应方定制给你。自己就可以聚焦在擅长的数据分析方面了。
言归正传。以上数据源由托管在发源地数据交易平台,有兴趣的朋友可以去这个链接:?action=robots&op=viewrobot&robotid=1123看看(需要登录),2万多原始数据都在里面。






