从事SEO(搜索引擎优化)工作的人可以比喻成搜索引擎的贴身管家,作为一名合格称职的管家必须要了解所服务对象的习性,爱好,健康程度等。
SEO服务的对象是搜索引擎,必须对它的运行规律、工作原理、习性、优缺点等都铭记在心,多多实践操作,平时实践的越多,经验也就越丰富。
搜索引擎是由人创造出来的,所以也是有理可寻的。搜索引擎工作过程有主要的三段工作流程,爬行、预处理及服务输出。
一、爬行抓取:
抓取是搜索引擎蜘蛛从待抓地址库中提取要抓的URL,访问这个URL,把读取的HTML代码存入数据库。蜘蛛的抓取就是像浏览器一样打开这个页面,和用户浏览器访问一样,也会在服务器原始日志中留下记录。
爬行抓取是搜索引擎工作中重要的一步,把所有需要抓取的地方抓取回来处理分析,因此如果在抓取这部分出错,后面就完全瘫痪了。
搜索引擎是事先已经处理好了所抓取的网页。搜集工作也是要按照一定的规律来进行,基本上有以下两种特征:
1、批量收集:对互联网上只要是存在链接的网页都收集一遍,耗时在几周左右。缺点在于增加了额外的带宽消耗,时效性也不高。
2、增量收集:是批量收集的一个技术升级,完美的弥补了批量收集的缺点。在原有的基础上搜集新增加的网页,变更上次收集之后有改变的页面,删除收集重复和不存在的网页。
二、预处理:
搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理。也不可能直接在用户输入关键词后返回排名结果。因此抓取来的页面必须经过预处理,为最后的查询排名做好准备。
1、提取文字
搜索引擎抓取到页面HTML代码时,首先会做的是从HTML文件中去除标签、程序,提取出可以用于排名处理的页面文字内容。
2、中文分词
分词是中文搜索引擎特有的步骤。英文句子单词与单词之间有空格作为间隔,搜索引擎可以直接把句子划分为单词的集合,中文则不能。搜索引擎需辨认哪些字会组成一个词语,哪些字本身就是一个词。比如“空气开关”将被分为“开关”和“空气”两个词。
中文分词方法基本上有两种:基于词典匹配和基于统计。
基于词典匹配方法是指将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。如果按照扫描方向,基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同,又可以分为最大匹配和最小匹配。将扫描方向和长度优先混合,又可以产生正向最大匹配、逆向最大匹配等不同方法。词典匹配方法计算简单,其准确度在很大程度上取决于词典的完整性和更新情况。
基于统计的分词方法是指分析大量文本字样,计算出字与字相邻出现的统计频率,几个字相邻出现越多,就越可能形成一个单词。基于统计的方法的优势是对新出现的词反应更快速,也有利于消除歧义。
基于词典匹配和基于统计的分词方法各有优劣,实际使用中的分词系统都是混合使用两种方法的,快速高效,又能识别生词、新词,消除歧义。
3、去停止词
无论是英文和中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“的”、“地”之类的助词,“啊”、“哈”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。这类词被称为停止词。搜索引擎会在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。
4、消除噪声
绝大部分的页面上还有一部分内容对页面主题没有任何贡献,比如版权声明、导航条、广告等。这些区块都属于噪声,对页面主题只能起到分散的作用。搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容。消噪的基本方法是根据HTML标签对页面分块,区分出页头,导航,正文,页脚,广告等区域,在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后,剩下的才是页面主题内容。
5、去重
同一篇文章会被不同的网站使用,搜索引擎不喜欢这种重复性内容。试想一下,如果用户在前两页看到的都是不同网站的同一篇文章,那势必会造成用户体验差的表现。搜索引擎只希望返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程叫去重。
去重的基本方法是对页面特征关键词计算指纹,也就是说从页面主体内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词),然后计算这些关键词的数字指纹。这里的关键词选取是在分词,去停止词,消噪之后。通常识选取10个特征关键词就可以达到比较高的计算准确性,再选取更多词对去重准确性提高的贡献也就不大了。
6、正向索引
正向索引也可以简称为索引。经过前面五个步骤,搜索引擎得到的就是独特的,能反应页面主体内容的、以词为单位的字符串。接下来搜索引擎就可以提取关键词,按照分词程序划分好的词,把页面转化为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式(如出现子啊标题标签、黑体、H标签、锚文字等)、位置等信息。这样,每个页面都可以记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都记录在案。
7、倒向索引
正向索引还不能直接用于排名。假设用户搜索关键词2(见上图),如果只存在正向索引,排名程序需要扫描所有索引库文件,找出包含关键词2的文件,再进行相关性计算。这样的计算量无法满足实时返回排名结果的要求。
8、链接关系计算
搜索引擎在抓取页面内容后,必须事先计算出:页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重。Google PR值就是这种链接关系的最主要体现之一。其他搜索引擎也都进行类似计算,虽然它们并不称之为PR值。
9、特殊文件处理
除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我们在搜索结果中也经常会看到这些文件类型。但目前的搜索引擎还不能处理图片和视频,对Flash这类非文字内容,以及脚本和程序只能进行有限的处理。
10、质量判断
在预处理阶段,搜索引擎会对页面内容质量、链接质量等作出判断。近几年的百度和Google等推出的算法都是预先计算,然后上线,而不是实时计算的。这里所说的质量判断包含很多因素,并不局限于针对关键词的提取和计算,或者针对链接进行数值计算。比如对页面内容的判断,很可能包括了用户体验、页面排版、广告布局、语法、页面打开速度等,也可能会涉及到模式识别、机器学习,人工智能等方法。
三、服务输出:
1、输出结果
搜索引擎最终会跟用户的搜索输出结果,这里就是我们看到的百度快照了,在前面搜索引擎综合评估的机制原理中,我们可以看到搜索引擎已经做了初步处理,然后再根据用户的实际搜索词来进行具体的调整,然后输出结果。
我们做网站优化的目的就是为了提高关键词的排名,那么我们怎么快速提升关键词排名呢?现场SEO培训刘少庆相信在这部分内容里大家能够找到一些答案。
2、智能完善
搜索引擎还有另外的工作,那就是本身不断的学习和完善,通过这种智能学习,不断完善规则,给搜索用户展现更加符合期望的搜索结果。
发布时间:2019-05-06
推荐阅读:
夫唯学院成立于2007年,11年来与数万学员共成长。创始人夫唯先生总结的四处一词、站内站、定向锚文本、聚合等多种核心优化策略,并在众多学员网站上得到验证。夫唯先生推崇“循序渐进,基业长青”的SEO运维思想,以SEOWHY为现实实战案例,历经5年零起步创造了网站品牌。
SEO培训报名联系方式:客服QQ86594013 客服微信:seowhy2021
大冶网站搜索引擎优化seo优化网站推广公司黄山网站权重优化有哪些平台网站搜索优化呛云速捷加选河源网站优化有哪些上海网站建设优化seo松岗网站自动优化公司云南菏泽网站优化公司推荐福州放心的电商网站优化网站内部优化思维导图监利网站优化推广贵阳搜索引擎网站优化公司网站美观度和优化营销哪个重要正定优化网站费用凯里网站推广优化网站设计优化认苏州久远网络外贸网站英语关键优化萝岗外贸网站优化推广费用福永网站seo优化企业宁都网站优化推广网站优化知识点许昌网站seo优化哪家正规食品饮料网站优化阳江公司网站关键词优化易语言网站排名优化天河手机网站优化影响网站优化因素怎么优化阿里巴巴网站标题如何优化网站 site六盘水网站优化营销网站优化SEO目标网站快速排名优化工具五华区效果好的网站seo优化上海服务网站优化价格表优化网站软件认可y火28星廊坊体育设施工程网站优化网站搜索优化良心易速达三沙企业网站优化方案网站怎么优化间或云速捷力荐从化网站优化推广公司鱼台谷歌网站优化河间网站seo优化网站导航栏目权重优化建议毕节市网站优化渠道政府网站瘦身优化网站优化应该考虑哪些方面网站优化符合搜索引擎睢宁网站优化制作泸州网站seo优化公司荔湾网站推广优化价格网站优化酷万网德阳网站优化推广性价比高网站搜索引擎推广优化韶关门窗网站seo优化鄂尔多斯专业网站优化网站关键词优化只信c火18星灵武网站关键词优化安阳ai网站快速排名优化技巧菏泽网站优化哪家专业三沙企业网站优化方案seo网站内站优化云浮手机网站优化网站外部优化的方式主机用共享IP优化网站效果迪庆网站优化哪家好如何做好网站结构优化seo网站优化的优点翠竹优化网站建设网站优化推广公司排名舟山优化网站怎么样铁岭网站优化教程重庆实力强的网站优化常平网站优化公司led网站优化东湖健康网站优化开平网站优化排名软件惠济区网站关键词优化找哪家赤峰网站优化关键词排名网站优化推广定做提供聊城网站优化武汉专业网站优化外包济南网站seo优化服务怎么给网站关键词优化网站做优化要花钱吗肇州县网站seo优化排名山东新站网站优化排名兰州网站快速名优化贵州网站seo优化公司网站优化缩写洛阳整站网站优化平台定州关键词网站优化浙江特制网站优化耗材宜兴seo网站优化工作室mvc5网站性能优化闵行区公司网站优化价格网站企业名词优化南皮网站优化费用网站内部链接优化注意事项网站做好后怎么优化提升网站优化前腾讯排名谷歌优化网站怎么获得流量北京光电网站优化检修金昌网站优化推广哪家公司好上海网站代优化网站 优化梁云速捷统统高端网站优化是怎么做的医疗设备网站优化方案网站排名优化拣选火28星达卫辉网站关键词排名优化长安印刷网站优化塘沽网站关键词优化方案郴州营销型网站优化方案北仑网站优化报价郑州产品网站优化怎么做拉萨网站搜索引擎优化凤冈县网站优化湖南专业网站关键词优化洛阳网站优化制作网站优化常用英文惠阳网站优化排名罗湖营销网站优化哪家好津市网站优化江门专业网站优化快照邹城市莱芜网站优化网站内部优化图文2022优化方案数学答案网站网站排名优化陆金手指科杰六南阳新站seo网站优化网站优化影响关键词苏州网站优化简历搜索引擎网站优化机构网站建设优化推广价格低唐山网站怎么优化大连seo网站排名优化软件网站优化营销难吗龙泉企业网站优化优化网站域名有影响吗企业网站如何搜索引擎优化荔波网站seo优化价格铁力怎么做网站优化鄂州网站排名优化西湖区网站优化哪里好北仑网站优化报价湖北官网网站优化哪家便宜邯郸五金行业网站优化推广技巧厦门网站优化指导网站优化要用到什么网站优化营销大概多少费用普洱网站布局优化公司网站优化是为了什么一个网站三个域名怎么优化西藏同行商机网站优化怎么做朔城区网站seo优化排名蚌埠市企业网站排名优化网站优化标题怎么填写长春有实力的优化网站娄底网站优化公司青岛seo网站排名优化沧州专业网站优化公司优化视频网站关键词怎么做seo优化可以用空白网站吗企业网站整站优化七大思路狗网站优化软件天津做网站优化价格安顺网站优化推广价格兰州网站关键词优化费用网站二级目录优化网站整站优化方法越秀区网站优化哪家专业优化一个网站要多少钱优化网站设计zi冖云速捷百度网站优化市场莱阳网站优化有哪些农副产品网站优化信宜网站优化工具360网站排名优化没电话诚信的免费网站优化铜陵企业网站优化推荐网站打开速度优化有什么方法原阳资讯网站搭建优化光明网站排名优化哪家好优化网站排名到首页江北网站关键词优化方案seo优化网站推广公司网站优化怎么做多图怀化营销型网站优化网站优化挂机软件新乡优化网站排名收费标准照明网站优化费用企业网站怎么搜索优化实惠的网站推广优化怎么制作一个好的网站优化引流360如何做网站优化东莞优化网站排行榜丽水网站优化平台亚马逊网站的优化建议郁南网站排名优化内江优化网站软件汕头网站排名优化价格重庆巴南网站优化