大规模网页快速消重中网页特征的提取
作者:98tj 日期:2009-06-01
刚在群里有人突然提起这个,也就顺便写写大家暂且看之,所以算法都需要考虑应用场景,而我自己设计的算法也仅满足我当时的业务应用而已,不可直接照抄,否则后果自负。
1、一般处理的方法
(1)最原始的使用文本相似度判别,相当准确,但是计算速度慢,提高的方法无非是先索引进行预处理,或者用SVD来降维减少矩阵运算时间
(2)文本摘要为文本特征,进行特征重复判别
(3)抽取文本关键词,构成比较小的文本向量做为特征进行判别
1、一般处理的方法
(1)最原始的使用文本相似度判别,相当准确,但是计算速度慢,提高的方法无非是先索引进行预处理,或者用SVD来降维减少矩阵运算时间
(2)文本摘要为文本特征,进行特征重复判别
(3)抽取文本关键词,构成比较小的文本向量做为特征进行判别
Tags: 消重







