如何进行有效的挖掘,不是空想,是要解决实际的问题。
最好是带着问题进行学习的,否则理论学了一大堆,但是到了实际问题前面,就一下子傻眼了。
日志有很多种,可以存放在数据库中,如登陆日志,密码修改日志,操作日志等。
较为简单的一种日志是用户浏览日志,说起来简单,做起来却很细致。 (开始最好讨论简化的模型,而不是一开始就很复杂)
现有挖掘案例:
豆瓣、校内,Facebook,淘宝,china-pub(做的应该比当当要晚,或者说是很晚才做的),当当
日志挖掘目标:
1、分析用户的商品浏览日志,分析用户的喜好,潜在的购买力,及感兴趣的产品。这样就可以向其做产品推荐。提升电子商务网站的成交量。(不过一般的网站在初期是不会考虑这一点的,只有当流量很大,很有发展前景的情况下,为了进一步发展的需要,才会想到数据挖掘的。其实也是他们在遇到很多问题后,发现数据挖掘确实很适合做锦上添花的事情,才会着手做开发的。) 一般网站在发展中期,也会做一些简单的挖掘。只有当做大了,才会专门成立小组或团队来系统地分析和建模,并进行挖掘的。
2、购物车分析。分析现有的成交数据,以后向用户推荐商品。
在没有具体场景的情况下,找什么数据,并进行挖掘呢?
对代理服务器日志进行分析,并查找活跃用户?