1、网页结构化:HTML代码全部删除掉,提取出内容。
2、消噪:留下网页的主题内容。
3、查重:查找删除重复的网页与内容。
4、分词:提取出正文的内容后,分成若干个词语,然后排列存入索引库。同时计算这个词在这个页面出现了多少次。有必要指出,关键词堆砌就是借用这个原理对网站进行优化。这种做法属于作弊。
5、链接分析:搜索引擎会查询分析这个页面的反向链接有多少,导出链接有多少内链,然后判定这个页面多少权重。
1、网页结构化:HTML代码全部删除掉,提取出内容。
2、消噪:留下网页的主题内容。
3、查重:查找删除重复的网页与内容。
4、分词:提取出正文的内容后,分成若干个词语,然后排列存入索引库。同时计算这个词在这个页面出现了多少次。有必要指出,关键词堆砌就是借用这个原理对网站进行优化。这种做法属于作弊。
5、链接分析:搜索引擎会查询分析这个页面的反向链接有多少,导出链接有多少内链,然后判定这个页面多少权重。