个性化阅读的过去、现在和未来
揉入2005年以来的协同过滤算法,至少能做到make something people want吧。
四、Interest Graph的变化
以前,郑昀针对不同人群做的信息聚合,单纯从内容分类做,属于从信息本身下手。这种方式有一个问题:
某一类人群,虽然有一些集中的阅读点,但还有边缘的共同兴趣。举例,如IT人群,虽然共享和推荐的大多数是IT科技,但也涌现出很多受欢迎的兴趣点,如韩寒的,如冷笑话,如创意趣味产品。
这也就是为何基于 Tag 方式的阅读模式,以及基于指定主题的追踪模式,都不容易持久耐用的原因。一个人群的阅读兴趣点是比较模糊的。对于一个人来说,如果一个信息过滤器供应点科技,供应点娱乐,适当补充些人文历史,就能保证一定的粘度。
所以,郑昀后来觉得从内容分类,由于不引入人工,只靠比较大条的自然语言处理分类,对于博文、微博、论坛帖子等文字质量不稳定的信息会分得很粗糙,所以改变思路,从人群分类开始做。
也就是,划分出目标人群,依靠人群来挑拣信息,NLP算法为辅。这样有一个额外的好处,人群的兴趣点在动态变,短期地变,长期地变,但由于锁定人群,所以筛选出来的信息也在变。而相比之下,自动分类做出的信息,隔几个月或半年后,就要重新训练机器,因为往往信息包含的语言特征变了。
这也是信息聚合中的一个实际考虑点。
现在,中国也有了自己的Interest Graph,比如新浪微博,它的数据天然就表明一个人的兴趣喜好,以及连续波动,都可以跟踪和挖掘出来。以前依靠遍历Twitter、Google Reader、FriendFeed的好友所得到的社群分离,现在通过新浪微博等Social Graph都可以得到类似的。
五、人员配比
一般我对这个领域,研发人员配比是这么建议的:
爬虫2人,文本挖掘4人,数据挖掘和分析2人, Web前端展现3人,产品经理1人, 12人是一个比较不错的开局。