《网络营销教程—SEO》.doc
网络营销教程—SEO
网络营销教程-SEO 序言
网络营销已经成为时下最热门的商务领域,而其中SEO领域成为最火热的细分应用。如何通过适合的SEO方式开展电子商务或网站推广,是业界较多关注的热点,也是初入互联网行业的新生、负责网站推广事宜的营销部门,以及中小企业领导关心的话题。
在这种形势下,DoNews、5Gme等多个从事相关营销工作的朋友聚合在一起,决定为这些人群做点什么,于是就有这个权做叫“书”的专集。为了达到传播经验的目的,原本是要出版成书发行。但最后时刻,大家认为首先既然是公益性传播,那么即便书价定的再低也不合适;其次既然是网络营销的知识传播,用户群就不应该是以传统书目来获得知识的人群,而应该通过网络传播;第三考虑到网络营销知识和技术日新月异,一旦付印成册难以及时更新,误导读者。在这种情况下,我决定把整个内容独家授予新浪科技连载。
由于时间仓促以及技术发展,内容观点难免有不合时代之处,请自行甄别;其间有引用前辈名人的经典论述和个案,在此一并感谢!
由于相关朋友大多处于与SEO有关的岗位上,不便露面,这等荣誉竟无意落在我一个人,诚惶诚恐。
附:《网络营销教程--SEO》目录 我会陆续全文发布在这里。
第一章 网络营销
第一节 什么叫网络营销
第二节 网络营销的分类
一、 搜索引擎营销
二、 软文营销
三、 博客营销
四、 邮件营销
五、 联盟广告
第三节 网络营销的职能
第二章 搜索引擎
第一节 搜索引擎的基本工作机制
一、 搜索引擎的工作过程
二、 搜集器
1、 线性搜集策略
2、 深度优先搜集策略
3、 广度优先搜集策略
4、 收录搜集策略
三、 索引器
四、 用户接口
第二节 搜索引擎的中文分词技术
一、 歧义处理
二、 未登录词处理
第三节 搜索引擎面临的挑战
一、 搜索引擎的技术流派
二、 相关名词解释
1. 全文搜索引擎
2. 目录索引搜索引擎
3. 元搜索引擎
4. 自动分类技术
5. 文本聚类技术
6. 网文摘录
第四节 网页等级技术pagerank
一什么是页面等级pagerank?
二如何决定页面等级?
三如何知道一个网页的等级?
四页面等级的意义
五控制页面等级
六GOOGLE的说法
第五节 搜索引擎的盈利模式
一Google AdWords
二Google AdSense
三百度竞价排名
四、 百度站长联盟
第三章 搜索引擎营销
第一节 什么叫搜索引擎营销
一搜索引擎营销的定义
二搜索引擎营销的价值
三搜索引擎营销原理
第四章.搜索引擎基础
第一节、空间域名
一如何选择稳定的空间
二挑选域名的技巧
第二节、搜索引擎机器人
一什么是搜索引擎机器人
二搜索机器人的种类以及如何分辨三蜘蛛的基本功能
第三节 认识主流搜索引擎 (补)
一百度(补)
二google
三yahoo
四搜狗
第四节 搜索引擎如何看待SEO工作
一人工(补)
二seo违法吗
第三节、链接
一外部链接原理
二内部链接原理
第三节、关键词策略
一、 关键词选择
(1)什么是关键词
(2)选择合适的关键词
(3)选择关键词的基本原则
(4)确定关键词实际步骤
二、养成关注热门的习惯
1社会新闻实事
2周期性热点
三.关键词的效能计算
第五章、单面页最佳优化
一 head区的组成
1.标题(Title)
2.MATE属性
3.描述(Description):
4.其它 Meta 标签:
二 head区标签注意事项
1.标题长度
2.描述和关键词
3.title的重要性
4.如何写好描述
5.关键字标签的禁忌
三.body区的组成
1.Header题头标签
2.标签的理解
3.网页的命名
第六章 单面页最佳优化
一 head区的组成
1标题选择标题长度
2描述和关键词
3如何写好title与title的重要性
4如何写好描述与自然列表展示的窗口
5kw关键字的禁忌
6其他标签介绍
二
三标签的理解
第6章提交你的网站
一 直接向搜索引擎提交
二 间接向搜索引擎提交
三 向开放的目录提交
四 向企业名录提交
五 向行业目录提交
第七章 外部链接的优化操作
一技术
1锚链接的使用
2单向链接
3双向链接(友情链接)
4链接的相关性
二思路
1黑帽vs白帽
2对链接网站的评测
3高质量的链接的理解
4站群互链
三高级
1dmoz
2购买链接
3链接诱饵
4撰写bolg
第八章 内部链接的优化操作
一技术篇内链基础
1图片链接
2js的链接
3链接相关性
二思路篇内链进阶
1首页链接入口
2面包屑导航
3与用户换位思考
4pr的传递
5主题的返还归一
三用户篇内链高级
1链接安全性
2链接速度
第九章 工作的周期安排
一 与搜索引擎第一次握手(提交)
二 久违了蜘蛛(日志)
三 收录,自然排名
四对已有的外链评估
五建设外链
六更新你的文章
七分析流量日志
八建立ppc
九分析roi
第十章 SEO工作实践-网站的技术准备
一 状态页
二 404号状态码
三 网站地图
1)html网站地图
2)sitemap
四 robots.txt
1)ROBOTS 介绍
2)Robots META标签
第十一章 常用seo工具
一google管理员
二IIS日志
三各类流量统计器
四主流cms系统
五主流shop系统
六 主流blog系统
第十二章 更了解你的网站
一 网站基础查询
1 域名基础信息查询
2 详细的网站历史查询
3 网站主机头状态码查询
二 网站外部信息查询
1.外部链接数量查询
2 PR真实值查询
3 友情链接批量安全性在线查询
4 同IP域名在线查询
三 全球排名查询
四 搜索引擎输入框查询
五 更多的利用搜索引擎查询实践怎样成为查询高手
第十三章 网站技术重构
1摒弃框架
2优化你的css,减少服务器的消耗
3javascript
4flash
5图片大小的影响
6网页的嵌入
7动态网页静态化
第十四章 网站思路重构
1网站3大要素,文字,图片,链接
2搜索引擎喜爱的文字
3关键词密度也网页噪音,125k你的舞台
4语义话你的html标签
5COPY对手的网站
第十五章 SEO工作的误区
一关键词堆砌
二隐藏文字
三伪装网页
四桥页
五重复提交
六镜像页面
七群发链接
八隐藏链接
九域名复制
十链接农场
第十六章 新手进阶你还应该知道的其他常识
一百度篇
二谷歌篇
1什么是沙盒
2什么是dance
三共性篇
第十七章 SEM工作在中国
1SEO工作现状记事
2SEM展望
第一章 网络营销 (上)
网络营销是借助一切被目标用户认可的网络应用服务平台开展的引导用户关注的行为或活动,目的是促进产品在线销售及扩大品牌影响力
在互联网web1.0时代,常用的网络营销有:搜索引擎营销、电子邮件营销、即时通讯营销、BBS营销、病毒式营销;但随着互联网发展至web2.0时代,网络应用服务不断增多,网络营销方式也越来越丰富起来,这包括:博客营销、播客营销、RSS营销、SN营销、创意广告营销、口碑营销、体验营销、趣味营销、知识营销、整合营销、事件营销。
我们需要深刻理解众多的网络营销策略,并结合自身资源广泛应用到产品推广和品牌建设中去,而如此至多的营销策略应该如何理解与有效开展,下面老黑发表一下个人见解:
1)搜索引擎营销
搜索引擎营销分两种:SEO与搜索引擎广告营销
SEO即搜索引擎优化,是通过对网站结构(内部链接结构、网站物理结构、网站逻辑结构)、高质量的网站主题内容、丰富而有价值的相关性外部链接进行优化而使网站为用户及搜索引擎更加友好,以获得在搜索引擎上的优势排名为网站引入流量。
搜索引擎广告很好理解,是指购买搜索结果页上的广告位来实现营销目的;各大搜索引擎都推出了自己的广告体系,相互之间只是形式不同而已;搜索引擎广告的优势是相关性,由于广告只出现在相关搜索结果或相关主题网页中,因此,搜索引擎广告比传统广告更加有效,客户转化率更高。
2)电子邮件营销
电子邮件营销是以订阅的方式将行业及产品信息通过电子邮件的方式提供给所需要的用户,以此建立与用户之间的信任与信赖关系。大多数公司及网站都已经利用电子邮件营销方式。毕竟邮件已经是互联网基础应用服务之一。
3)即时通讯营销
顾名思义,即利用互联网即时聊天工具进行推广宣传的营销方式。譬如最近利用MSN疯狂发垃圾消息的中国缘(正续写这篇文章的时候,又收到了垃圾消息,见图)
偶不喜欢这种策略,本身并无益于品牌建设,也许获得了不小的流量,可用户不但没有认可你的品牌名称,甚至已经将你的品牌名称拉进了黑名单;所以,有效的开展营销策略要求我们考虑为用户提供对其个体有价值的信息。
4)病毒式营销
病毒式营销并非利用病毒或流氓插件来进行推广宣传,而是通过一套合理有效的积分制度引导并刺激用户主动进行宣传,是建立在有意于用户基础之上的营销模式。
5)BBS营销
不用细致的解释了,我想这个应用的已经很普遍了,尤其是对于个人站长,大部分到门户站论坛灌水同时留下自己网站的链接,每天都能带来几百IP;当然,对于企业,BBS营销更要专也精。
6)博客营销
博客营销是建立企业博客,用于企业与用户之间的互动交流以及企业文化的体现,一般以诸如行业评论、工作感想、心情随笔和专业技术等作为企业博客内容,使用户更加信赖企业深化品牌影响力。
博客营销可以是企业自建博客或者通过第三方BSP来实现,企业通过博客来进行交流沟通,达到增进客户关系,改善商业活动的效果。企业博客营销相对于广告是一种间接的营销,企业通过博客与消费者沟通、发布企业新闻、收集反馈和意见、实现企业公关等,这些虽然没有直接宣传产品,但是让用户接近、倾听、交流的过程本身就是最好的营销手段。企业博客与企业网站的作用类似,但是博客更大众随意一些。另一种,也是最有效而且可行的是利用博客(人)进行营销,这是博客界始终非常热门的话题,老徐与新浪博客的利益之急,KESO的博客广告,和讯的博客广告联盟,最近瑞星的博客测评活动等等,这其实才是博客营销的主流和方向。博客营销有低成本、分众、贴近大众、新鲜等特点,博客营销往往会形成众人的谈论,达到很好的二次传播效果,这个在外国有很多成功的案例,但在国内还比较少!
GOOGLE最新推出了起企业博客,名为“GOOGLE黑板报”,至于如何操作,请看文章“如何发挥Blog的互动营销功能”
7)播客营销
播客营销是在广泛传播的个性视频中植入广告或在播客网站进行创意广告征集等方式来进行品牌宣传与推广,例如:前段时间“百事我创,网事我创”的广告创意征集活动;国外目前最流行的视频播客网站(世界网民的视频狂欢),知名公司通过发布创意视频广告延伸品牌概念,是品牌效应不断的被深化。
8)RSS营销
RSS营销是一种相对不成熟的营销方式,即使在美国这样的发达国家仍然有大量用户对此一无所知。使用RSS的以互联网业内人士居多,以订阅日志及资讯为主,而能够让用户来订阅广告信息的可能性更微乎其微
9)SNS营销
SNS:Social Network Sevice,即社会化网络服务,是互联网web2.0的一个特制之一。SN营销是基于圈子、人脉、六度空间这样的概念而产生的,即主题明确的圈子、俱乐部等进行自我扩充的营销策略,一般以成员推荐机制为主要形式,为精准营销提供了可能,而且实际销售的转化率偏好,例如:GOOGLE GMAIL邮箱即采用推荐机制,只有别人发给你邀请,你才有机会体验GMAIL;同时,当你拥有了GMAIL又可以给其他人发邀请,用户通过邀请机制扩展了其社交网络,同时,GOOGLE GMAIL通过人的不断传递与相互关联实现了品牌的传递。这也可以说是病毒式营销的升华,这对于用户认可产品的品牌起到很强的作用;
10)创意广告营销
创意广告营销,也许看完“youtube热门视频分析“后你会受到一些启发,企业创意型广告可以深化品牌影响力以及品牌塑求。格子网站、我有钱这样的是纯粹的创意广告
11)知识型营销
知识型营销就像百度的知道,通过用户之间提问与解答的方式来提升用户粘性,你扩展了用户的知识层面,用户就会感谢你,试想企业不妨建立一个在线疑难解答这样的互动频道,让用户体验企业的专业技术水平和高质服务,或是不妨设置一块区域,专门向用户普及相关知识,每天定时更新等等。
12)事件营销
事件营销可以说是炒作,可以是有价值的新闻点或突发实践在平台内或平台外进行炒作的方式来提高影响力,例如:DISCUZ论坛刚被黑客攻击几分钟本人就发现了,于是最短时间内写出一篇文章简单介绍事件,并发给了几个经常活动的QQ群及论坛上,当然,如果能根据该事件写出一篇深度报道会更好,会使更多人注意到我的blog。
13)口碑营销
口碑营销虽然并非2.0时期才有的,但是在2.0时代表现的更为明显,更为重要。
第一章 网络营销(中)
第一节网络营销的分类
一、搜索引擎营销
搜索引擎营销的基本思想是让用户发现信息,并通过点击进去网站/网页进一步了解他所需要的信息。在介绍搜索引擎策略时,一般认为,搜索引擎优化设计主要目标有2个层次:被搜索引擎收录、在搜索结果中排名靠前。这已经是常识问题,多数网络营销人员和专业服务商对搜索引擎的目标设定也基本处于这个水平。但从目前的实际情况来看,仅仅做到被搜索引擎收录并且在搜索结果中排名靠前还很不够,因为取得这样的效果实际上并不一定能增加用户的点进率,更不能保证将访问者转化为顾客或者潜在故顾客,因此只能说是搜索引擎营销策略中两个最基本的目标。
利用搜索引擎工具可以实现4个层次的营销目标:
(1)被搜索引擎收录;
(2)在搜索结果中排名靠前;
(3)增加用户的点击(点进)率;
(4)将浏览者转化为顾客。
在这四个层次中,前三个可以理解为搜索引擎营销的过程,而只有将浏览者转化为顾客才是最终目的。在一般的搜索引擎优化中,通过设计网页标题、META标签中的内容等,通常可以实现前两个初级目标(如果付费登录,当然直接就可以实现这个目标了,甚至不需要考虑网站优化问题)。实现高层次的目标,还需要进一步对搜索引擎进行优化设计,或者说,设计从整体上对搜索引擎友好的网站。
网站对搜索引擎友好的重要性
无论哪个层次的目标,都需要从网站设计方面下功夫。网络营销是从网站建设之前就开始的,但现在的情况是,大部分网站在建设过程中根本没有考虑过推广的要求,往往将网站策划设计交给专业设计公司,或者本公司的技术人员,等到网站设计完成并发布之后才开始考虑推广,但这种做法是不正确的。建设一个具有营销导向的网站才是网络营销取得成效的基础,网站对搜索引擎的友好只是其中的部分需要。因此,最好是在网站策划和设计阶段就将网络营销思想结合进来,这样不仅要比网站发布之后效果不佳再回过头来考虑这个问题会节省时间和金钱,同时也在很大程度上增加了网络营销人员的信心。
友好是相互的,网站设计对搜索引擎友好,他所反馈的结果才更能吸引用户点击,网站才可以获得更多的访问量,取得最好的营销效果,这也是“营造网上营销环境中”的一个方面,即网站和网络服务商之间关系的营造。对搜索引擎友好的网站实际上也是对用户友好的网站,用户在这样的网站上更容易发现所需要的信息,如可以方便地拷贝、保存、转发对自己有价值的信息,可以方便检索了浏览产品信息,并且注册或者购买购买。
网站对搜索引擎不友好的表现
网站设计对搜索引擎不友好,表现在多个方面,最糟糕的是使得搜索引擎无法检索信息,或者返回的检索信息让用户看起来没有吸引力。造成网站对搜索引擎不友好的主要原因是:
1 大量采用图片形式,没有可以检索的文本信息;
2 网页没有标题,或者标题中没有包含有效的关键词;
3 网页正文中有效关键词比较少;
4 网站导航系统让搜索引擎“看不懂”;
5 部分数据库信息对搜索引擎“保密”;
6 没有其他网站提供链接线索进行比较。
有些企业网站非常重视网页的视觉效果,尤其是首页,往往希望用很复杂的图片,或者用Flash等Rich Media形式来展示企业形象,这些固然能从视觉形象上引起人们的关注,但从搜索引擎优化的角度来看,没有任何价值,甚至起到副作用,让搜索引擎无从检索,用户也就无法通过搜索引擎发现这个网站。
因此,应该在兼顾实用的前提下追求美观,而不是将美观放在首位,在两者之间必须权衡取舍时,宁可放弃外在的美观。因为对于对视觉效果并没有完全一致的评价标准,但搜索引擎却有共同的检索基础,对搜索引擎不够友好,失去的将是自己的潜在用户。强调网站的实用还有一个重要原因:用户通过搜索引擎来到一个网站,他们不是为了欣赏网页的视觉效果,而是为了获得与他在搜索引擎中所使用的关键词相关的信息。可以想像,如果用户进入一个网站却没有发现自己需要的信息,他惟一的选择就是尽快离开,这大概不是网站经营者所期望的结果。
另一种搜索引擎优化设计思路
根据上面的分析,为了保证搜索引擎对你的网站更加友好,让网站在搜索结果中更容易被用户发现并点击,需要从网站设计阶段就开始注意适应搜索引擎的特点(营造对搜索引擎友好的环境:提供随适合于搜索引擎检索的关键词并出现在合适的位置上、指引搜索引擎去进一步分析网站的内容、尽可能多的获得其他网站的链接等)。
当网站出现在搜索结果中比较理想的位置后,仍然存在会一些问题。我们看一个例子:
搜索引擎:google
关键词:茶杯
搜索结果举例(出现在检索结果的第一页):
********网
| 首页| 新闻公告| 机构介绍| 法律法规| 专利市场| 专利申请| 统计信
息| 专利检索| 在线咨询| 在线调查| IP论坛| ||||. 玉风2茶杯 (专利优秀
奖). ... 一种活性瓷球填料的制造方法 ?机动三轮运输车差速器整体式壳体 ?
玉风2茶杯. ...
看到这些搜索结果,也许就很难决定是否继续点击这项搜索结果,因为从摘要内容中看不出这个网页与茶杯之间有很大的关系。不过,这种情况也提醒我们,使用纯文本的网站导航系统要比图片格式的导航条在搜索引擎中反映出更多的信息,并且,如果栏目名称设置合理,用户便可以通过导航条反映出的信息来判断网站上是否包含有自己需要的信息,从而决定是否点进这个网站(网页)。由于用户使用不同的关键词检索,所反馈的页面内容摘要信息不同,而用户所使用的关键词又有很大的不确定性,尽管无法照顾到所有的关键词,但对于主要的关键词,还是有必要进行认真设计,以达到最好的搜索引擎优化效果,为实现搜索引擎的高级目标打下基础。
二、 软文营销
顾名思义,它是相对于硬性广告而言,由企业的市场策划人员或广告公司的文案人员来负责撰写的“文字广告”。与硬广告相比,软文之所以叫做软文,精妙之处就在于一个“软”字,好似绵里藏针,收而不露,克敌于无形,等到你发现这是一篇软文的时候,你已经冷不盯的掉入了被精心设计过的“软文广告”陷阱。它追求的是一种春风化雨、润物无声的传播效果。如果说硬广告是外家的少林功夫;那么,软文则是绵里藏针、以柔克刚的武当拳法,软硬兼施、内外兼修,才是最有力的营销手段。
企业通过软文可以把自己的一些需要宣传或广告的事件主动暴露给报纸、杂志等印刷媒体,以达到做广告的效果和提高企业知名度和美誉度的目的。软文在当前已成为企业一种非常实用的宣传方法,企业的企划部门常都把软文广告作为一项重要工作来做,常能取得做硬性广告达不到的效果。
三、 博客营销
开展BLOG营销的一个核心的任务就是写作。为什么写作的作用在BLOG营销中如此突现?因为写作的目一方面是公关写作,通过文字加强与客户之间认知与信任度;一方面是记事写作,增强企业与客户之间的情感交流;另外一方面是,结合搜索引擎优化SEO工作为企业在搜索引擎上的营销推广起到促进作用。
如果您会写作,我相信!但是,并不是每个会写作的人都会写配合BLOG营销的文章。那么接下来,我们一起谈谈BLOG营销中的写作技巧。
第一章 网络营销(下)
首先,我觉得有必要提出BLOG营销的一个基本原则,那就是文章的可读性。
这个原则很重要,如果脱离了这个原则,那写出的文章就已经不是BLOG营销所需求的了。在执行BLOG营销过程中,BLOG上应该发表什么类型的文章已经哪些人可以参与其中?
企业的每个员工都可以参与BLOG的写作,也应该是所有员工必须参与BLOG营销工作的执行。至于要求在BLOG中发表什么类型的文章,我的建议是什么文章都可以发布,不限制文章篇幅,诸如行业评论、工作感想、心情随笔和专业技术等。但是,什么文章都可以发布得有一个大的前提,那就是这些文章的发布不会对企业带来负面影响,反而对反映企业文化和增强企业与客户之间的信任度有很大的帮助和促进作用。
如何把握BLOG营销写作的核心?
很简单,那就是立足于本行业。一个企业要想在起所处的行业有所发展,那她就必须要比其他人更加关注本行业,同时也应该对行业现象有自己的看法,这些内容可以在企业BLOG上体现出来,这也是对行业的一种积极负责的态度。
基于以上观点,BLOG营销的写作内容可围绕以下方向展开:
1:行业新闻,可有原创和转载
2:行业评论,执笔人应为企业管理层人员
3:企业新闻,发布企业的最新官方信息
4:客户关系
5:行业技术交流探讨
6:员工工作随笔
企业BLOG里文章,应体现一种专业性,充满人性化元素,所以笔调不可做限制,可根据文章的性质而选择合适的笔调。
BLOG营销是一种综合的营销模式,需要很多人一起配合协作,整个工作的进行需要搜索引擎优化专家指导帮助。
知名博客营销案例
新技术为企业开启了新的信息沟通传递方式。B2B企业的营销人员开始利用新的媒体如博客(BLOG),播客(podcasts)和RSS来接触并与他们的客户、员工、潜在客户和商业合作伙伴进行沟通。最近JupiterResearch发现博客等新兴媒体已经在广告客户中占据一席之地,如一些金融服务、媒体及旅游行业开始使用博客, podcasts和RSS进行广告或宣传试验。
一些知名IT公司如Hewlett-Packard, IBM,SUN和Oracle都是博客营销等新技术的积极实践者。本文介绍Visa USA,Oracle和IBM等知名企业的博客营销应用案例。
Visa USA的企业博客
Visa USA在2005年10月份发布了他们的第一个博客,叫做都灵之旅:,该博客网站以冬奥会体育新闻为内容主题,包含采访运动员的podcasts音频内容。值得注意的是,Visa没有特意推广这个博客站,同时除了网站logo和页面底部的说明Brought to you by Visa USA.,内容中也没有提到Visa公司。他们的目的是想考察通过病毒性传播手段,这个博客宣传能够达到何种传播效果。结果显示,网站用户数从一小部分读者开始发展到每天300人,2006年1月份第一周读者人数达到1万人。
Oracle的podcasts节目和博客社区
Oracle在营销领域一直热衷于尝试新技术应用。2005年4月,Oracle就制作了一个podcasts节目,内容是技术专家讨论公司的技术和应用,放在Oracle Technology Network的podcast中心,用户可以自由下载到桌面或MP3播放器中。
同时,Oracle还拥有一个大的博客社区,目前有60-70篇博客文章,都是由Oracle的客户和合作伙伴发布的,讨论他们如何使用公司的技术产品。Oracle还计划改用第三方提供的博客系统,以加大对博客的利用。
不过,要测量这些新兴媒体的投资收益率是比较困难的。Oracle使用网页浏览数指标来判断博客达到的沟通和传播效果,以及通过podcast的下载量等进行效果评估。
IBM的博客和podcasts I
IBM也是新营销的积极实践者。2005年8月份,他们发布了专门针对投资人的podcasts站点:/investor。其中讨论商业和技术主题,如银行业、购物和网络游戏等。IBM也在公司内部网上提供博客系统以鼓励员工使用博客和podcasts。IBM 的发言人称,员工对于这些社会化网络和沟通方式的活跃状态让他们意识到新兴技术应用的极大潜力。
到目前为止,约15000个IBM员工注册了公司博客,2200个员工定期维护其博客。博客主题从技术讨论到寻求项目帮助,应有尽有。
但IBM也发现不少潜在的问题,如机密信息泄露或可能危害公司声誉的信息等。为了降低风险,IBM还专门针对员工发布博客拟订了发布指南,包括员工不得泄漏公司机密信息、未经客户许可不得提及客户,不可使用侮辱性或亵渎性语言等。
前面提及的IT公司实际上并不是最早尝试博客营销的公司,相对于一些IT顾问咨询公司的博客应用来说,甚至是比较迟钝的.
企业博客的发展状况表明,2006年企业博客营销将获得更大的发展——尽管很多公司的博客营销实践应用水平可能还很不专业,但毕竟走出了革命性的一步。鉴于博客营销的影响力日渐重要,而博客营销实践中的问题也非常突出.
酒厂案例
有一个名不见经传的小葡萄酒品牌,却通过博客,进行了一次成功的营销,使得自己的产品迅速扩大了销量和知名度。2004年,马尔在南非的Doolhof谷买了80公顷葡萄园开始了他的新事业-Stormhoek葡萄酒公司,Stormhoek,一家小葡萄酒厂家,其产品是” freshness matters“牌葡萄酒,该厂家的葡萄酒在英国的asda, threshers, waitrose, majestic, sainsbury’s 和oddbins等大小商场均有销售。
“新西兰有最好的酿造白葡萄酒的技术,但南非的葡萄比较好” ,Stormhoek的葡萄酒据称就是这两者的结合。但不久他就陷入了困境,马尔深信这里肥沃的土壤一定能生产出好酒,但酒厂的位置偏僻,他的品牌如何才能越过南非的崇山峻岭赢得英国消费者的关注并与超市签订大宗销售合同呢?
Stormhoek是家小企业,没多少钱,因而也没有在英国投放任何广告。
马尔产生了一个看似不可能的想法-利用INTERNET。
2005年5月,也就是Stormhoek葡萄酒诞生后的六个月,马尔给英国最热门的150名博客每人寄了一瓶中等价位的葡萄酒。只要博客满足以下两个条件就可以收到一瓶免费的葡萄酒:
引用
1. 住在英国、爱尔兰或法国,此前至少三个月内一直写博。读者多少不限,可以少到3个,只要是真正的博客
2. 已届法定饮酒年龄收到葡萄酒并不意味着你有写博义务–你可以写;也可以不写,可以说好话,也可以说坏话。
马尔给他的一份公告起了一个吓人的题目”Stormhoek:微软真正的竞争对手”,他在里面写道,如果你口袋里装着400美元无所事事,你可以有多种选择,你既可以买一台微软的Xbox 360主机,也可以买一箱葡萄酒。发放免费葡萄酒的公司都希望网上赞誉如潮,但Stormhoek品牌的不凡之处在于通过虚拟世界的闲聊引发了现实世界的销量攀升。
马尔的到来并未引来众博客们的攻击,他说,”我们很诚实,我们没有声称自己是南非最好的葡萄酒,我们只是告诉人们这里的酒品质不错,价格合理,然后请人们说出自己的看法。”
博客们开始工作了,他们敲出了葡萄酒的优点。估计全世界范围内有1500万到3000万博客,每天诞生八万页博客日记。去年六月你在Google搜索引擎里键入Stormhoek这个词,会弹出500条结果,但到上周这个数字变成了85000条,而在这两个月中,他们自己估计有30万人通过Blog 开始知道这家公司,写酒的博客包括伦敦皇家学院的天体物理学家安德鲁亚弗博士和微软的技术专家罗伯特斯考伯。
Stormhoek通过博客发动的病毒营销,产生的滞后效应还很难具体估量,但Stormhoek发现,在过去不到一年的时间里,他们的葡萄酒销量翻倍了,达到了”成千上万箱”的规模。从去年夏天至今,Stormhoek的月销售量翻了一番,这个品牌已经得到了Sainsbury超市和Majestic葡萄酒公司的订单。因特网上的对话也引爆了零售市场的巨大需求,零售商Asda 和Threshers都和马尔进行过网络对话,现在他们也在销售Stormhoek的产品。
在英国五英镑以上的瓶装酒市场,Stormhoek占了南非葡萄酒销售量的五分之一强。马尔说,我们这些年取得了辉煌的成绩,博客对此功不可没,一些消费者告诉葡萄酒商店和超市的售货员,他们是通过博客知道Stormhoek品牌的。博客不仅使我们销量飃升,而且彻底改变了我们的行为方式。
Stormhoek的公司网站本身就是一个博客。
Stormhoek在自己公司的博客上,发布一些关于Stormhoek葡萄酒的产品信息和最新的市场活动信息。
举例说来,当Stormhoek去年决定改变瓶子上的商标时,公司把这个消息发到了博客上,公司还通过博客举行了评酒会。下个月Stormhoek登陆美国的时候也会举行一系列针对美国博客作者的活动,希望能通过这种形式激起美国人的消费热情。
当然,博客日记上也有一些尖酸的评价。马尔说,博客的伟大之处在于我们能看到别人的评价,能够回复评价,”公司能和他们的顾客进行双向交流。” Stormhoek并不是唯一一家通过博客与顾客交流的公司,饮料界的巨人吉百利史威士公司也鼓励自己的雇员在公司写博客。大公司之所以不敢贸然进入博客世界是因为博客们比较刻薄,倾向于发对现有权威,喜欢把大公司作为首选攻击目标。
马尔说,博客世界能迅速传递讯息,但如果以傲慢的态度行走江湖就会遭到众人攻击,立刻损失惨重。现在马尔所面临的挑战是让博客们对葡萄酒保持兴趣。他说,我不知道下一步的对话是怎么样的,你无法控制信息,无法控制事态的发展。 Stormhoek发言人尼克迪牟克?玛尔(Nick Dymoke marr)说,他们的葡萄酒在南非5英镑以上葡萄酒市场的份额目前已经占到19%,销售量从2004年的5万箱升至去年的十万箱之多。有一篇新闻报道说微软公司12月份在伦敦举办的一次”怪才聚餐”中点名要求提供这个酒,Stormhoek已经成为所谓”伦敦数码人”的首选葡萄酒。
第二章 搜索引擎(第一节)
第一节 搜索引擎的基本工作机制
大型互联网搜索引擎的数据中心一般运行数千台甚至数十万台计算机,而且每天向计算机集群里添加数十台机器,以保持与网络发展的同步。搜集机器自动搜集网页信息,平均速度每秒数十个网页,检索机器则提供容错的可缩放的体系架构以应对每天数千万甚至数亿的用户查询请求。企业搜索引擎可根据不同的应用规模,从单台计算机到计算机集群都可以进行部署。
搜索引擎一般的工作过程是:首先对互联网上的网页进行搜集,然后对搜集来的网页进行预处理,建立网页索引库,实时响应用户的查询请求,并对查找到的结果按某种规则进行排序后返回给用户。搜索引擎的重要功能是能够对互联网上的文本信息提供全文检索。
图1 搜索引擎的工作流程
搜索引擎通过客户端程序接收来自用户的检索请求,现在最常见的客户端程序就是浏览器,实际上它也可以是一个用户开发的简单得多的网络应用程序。用户输入的检索请求一般是关键词或者是用逻辑符号连接的多个关键词,搜索服务器根据系统关键词字典,把搜索关键词转化为wordID,然后在标引库(倒排文件)中得到docID列表,对docID列表中的对象进行扫描并与wordID进行匹配,提取满足条件的网页,然后计算网页与关键词的相关度,并根据相关度的数值将前K篇结果(不同的搜索引擎每页的搜索结果数不同)返回给用户,其处理流程如图1所示。
图2描述了一般搜索引擎的系统架构,其中包括页面搜集器、索引器、检索器、索引文件等部分,下面对其中的主要部分的功能实现进行了介绍。
图2 搜索引擎各个组成部分的关系
图3搜索引擎抓取网页过程
一、搜集器
搜索引擎通过一种程序robot(又称spider),搜集器的功能是在互联网中漫游,发现并搜集信息,它搜集的信息类型多种多样,包括HTML页面、XML文档、Newsgroup文章、FTP文件、字处理文档、多媒体信息等。搜索器是一个计算机程序,其实现常常采用分布式和并行处理技术,以提高信息发现和更新的效率。商业搜索引擎的搜集器每天可以搜集几百万甚至更多的网页。搜索器一般要不停地运行,要尽可能多、尽可能快地搜集互联网上的各种类型的新信息。因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死链接和无效链接。另外,因为Web信息是动态变化的,因此搜集器、分析器和索引器要定期更新数据库,更新周期通常约为几周甚至几个月。索引数据库越大,更新也越困难。
互联网上的信息太多,即使功能强大的搜集器也不可能搜集互联网上的全部信息。因此,搜集器采用一定的搜索策略对互联网进行遍历并下载文档,例如,一般采用以广度优先搜索策略为主、线性搜索策略为辅的搜索策略。
在搜集器实现时,系统中维护一个超链队列,或者堆栈,其中包含一些起始URL(
理解成像DMOZ、Yahoo目录Google sitemap等),搜集器从这些URL出发,下载相应的页面,并从中抽取出新的超链加入到队列或者堆栈中,上述过程不断重复队列直到堆栈为空。为提高效率,搜索引擎将Web空间按照域名、IP地址或国家域名进行划分,使用多个搜集器并行工作,让每个搜索器负责一个子空间的搜索。为了便于将来扩展服务,搜集器应能改变搜索范围。
1、线性搜集策略
线形搜索策略的基本思想是从一个起始的IP地址出发,按IP地址递增的方式搜索后续的每一个IP地址中的信息,完全不考虑各站点的HTML文件中指向其他Web站点的超链地址。此策略不适用于大规模的搜索(主要原因在于IP可能是动态的),但可以用于小范围的全面搜索,利用此种策略的搜集器可以发现被引用较少或者还没有被其他HTML文件引用的新HTML文件信息源。
2、深度优先搜集策略
深度优先搜集策略是早期开发搜集器使用较多的一种方法,它的目的是要达到被搜索结构的叶结点。深度优先搜索顺着HTML文件上的超链走到不能再深入为止,然后返回到上一个接点的HTML文件,再继续选择该HTML文件中的其他超链。当不再有其他超链可选择时,说明搜索已经结束。深度优先搜索适宜遍历一个指定的站点或者深层嵌套的HTML文件集,但对于大规模的搜索,由于Web结构相当深,也许永远也出不来了
3、广度优先搜集策略
广度优先搜集策略是先搜索同一层中的内容,然后再继续搜索下一层。假如一个HTML文件中有三个超链,选择其中之一并处理相应的HTML文件(注意:这里的处理文件指的是对文件内容进行检索,文件上的其他超链接先不作处理),然后返回并选择刚才第一个网页的第二个超链,处理相应的HTML文件,再返回。一旦同一层上的所有超链都已被处理过,就可以开始在刚才处理过的HTML文件中搜索其余的超链。(广度链接的定义)
这样保证了对浅层的首先处理,当遇到一个无穷尽的深层分支时,也就不会再陷进去。宽度优先搜集策略容易实现并被广泛采用,但是需要花费比较长的时间才能到达深层的HTML文件
4、收录搜集策略
有些网页可以通过用户提交的方式进行搜集,例如某些商业网站向搜索引擎发出收录申请,搜集器就可以定向搜集提交申请网站的网页信息并加入到搜索引擎的索引数据库中。
二、分析器
对搜集器搜集来的网页信息或者下载的文档一般要首先进行分析,以用于建立索引,文档分析技术一般包括: 分词(有些仅从文档某些部分抽词,如Altavista)、过滤(使用停用词表stoplist)、转换(有些对词条进行单复数转换、词缀去除、同义词转换等工作),这些技术往往与具体的语言以及系统的索引模型密切相关。
三、索引器
索引器的功能是对搜索器所搜索的信息进行分析处理,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有元数据索引项和内容索引项两种: 元数据索引项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度为元数据索引项等等; 内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,因为单词之间有天然的分隔符(空格); 对于中文等连续书写的语言,必须进行词语的切分。在搜索引擎中,一般要给单索引项赋予一个权值,以表示该索引项对文档的区分度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。
为了快速查找到特定的信息,建立索引数据库是一个常用的方法,即将文档表示为一种便于检索的方式并存储在索引数据库中。索引数据库的格式是一种依赖于索引机制和算法的特殊数据存储格式。索引的质量是Web信息检索系统成功的关键因素之一。一个好的索引模型应该易于实现和维护、检索速度快、空间需求低。搜索引擎普遍借鉴了传统信息检索中的索引模型,包括倒排文档、矢量空间模型、概率模型等。例如在矢量空间索引模型中,每个文档d都表示为一个范化矢量V(d)=(t1,w1 (d)…ti,w1(d)…tn,wn(d))。其中ti为词条项,wi(d)为ti在d中的权值,一般被定义为ti在d中出现频率tfi(d)的函数。
索引器的输出是索引表,它一般使用倒排形式(Inversion List),即由索引项查找相应的文档。索引表也可能记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或接近关系(proximity)。索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现实时索引(Instant Indexing),否则就无法跟上信息量急剧增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量
四、检索器
检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型等多种,可以查询到文本信息中的任意字词,无论出现在标题还是正文中。
检索器从索引中找出与用户查询请求相关的文档,采用与分析索引文档相识的方法来处理用户查询请求。如在矢量空间索引模型中,用户查询q首先被表示为一个范化矢量V(q)=(t1,w1(q); …; ti,wi(q); …; tn,wn(q)),然后按照某种方法来计算用户查询与索引数据库中每个文档之间的相关度,而相关度可以表示为查询矢量V(q)与文档矢量V(d)之间的夹角余弦,最后将相关度(怎样判断相关度?文件内容、文件的反响链接数与质量)大于阀值的所有文档按照相关度递减的顺序排列并返还给用户。当然搜索引擎的相关度判断并不一定与用户的需求完全吻合。
五、用户接口
用户接口的作用是为用户提供可视化的查询输入和结果输出界面,方便用户输入查询条件、显示查询结果、提供用户相关性反馈机制等,其主要目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效的信息。用户接口的设计和实现必须基于人机交互的理论和方法,以适应人类的思维和使用习惯。
在查询界面中,用户按照搜索引擎的查询语法制定待检索词条及各种简单或高级检索条件。简单接口只提供用户输入查询串的文本框,复杂接口可以让用户对查询条件进行限制,如逻辑运算(与、或、非)、相近关系(相邻、NEAR)、域名范围(如edu、com)、出现位置(如标题、内容)、时间信息、长度信息等等。目前一些公司和机构正在考虑制定查询选项的标准。
在查询输出界面中,搜索引擎将检索结果展现为一个线性的文档列表,其中包含了文档的标题、摘要、快照和超链等信息。由于检索结果中相关文档和不相关文档相互混杂,用户需要逐个浏览以找出所需文档。
第二章 搜索引擎(第二节)
第二节 搜索引擎的中文分词技术
中文自动分词是网页分析的基础。在网页分析的过程中,中文与英文的处理方式是不同的,这是因为中文信息与英文信息有一个明显的差别: 英文单词之间有空格,而中文文本中词与词之间没有分割符。这就要求在对中文网页进行分析之前,先要将网页中的句子切割成一个个的词的序列,这就是中文分词。中文自动分词涉及到许多自然语言处理技术和评价标准,在搜索引擎中,我们主要关心中文自动分词的速度和准确度。分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此,搜索引擎对分词的准确性和速度都提出了很高的要求。
目前,中文自动分词比较成熟的技术是基于分词词典的机械分词方法。这种方法是按照一定的策略将要分析的汉字串与词典中的词条进行匹配。根据匹配策略的不同,机械分词方法又有如下几种算法: 正向最大匹配算法、逆向最大匹配算法、最少分词算法等。这种方法的优点是分词的速度快,准确度有一定的保证,但对未登录词的处理效果较差。实验结果表明: 正向最大匹配的错误率为1/169左右,逆向最大匹配的错误率为1/245左右。另一种比较常用的中文自动分词方法是基于统计的分词方法,这种方法是对语料中的字组频度进行统计,不需要切分词典,因此也称为无词典分词方法。但该方法经常把不是词的常用字组当成词,对常用词的识别精度较差,时空开销也比较大。在搜索引擎领域的实际应用中,一般将机械分词方法与统计分词方法相结合,先进行串匹配分词,然后使用统计方法识别一些未登录的新词,这样既发挥了匹配分词速度快、效率高的优势,又利用了统计分词中新词自动识别和自动消除分词歧义的特点。
分词词典是影响中文自动分词的一个重要因素,其规模一般在6万条词左右,词典太大或太小都是不合适的; 辞典太小,有些词切分不出来,辞典太大,切分过程中起义现象将大大增加,同样影响分词的精度。因此,分词词典中词条的选择是非常严格的。对于不断出现新词的网络领域,仅仅使用6万条词左右的分词词典是不够的,但随意向分词词典中加入新词将导致分词精度下降,一般的解决方法是使用辅助词典,其规模在50万词条左右。另外,中文自动分词的难点在于分词歧义的处理和未登录词的识别,如何处理这两个问题一直是该领域研究的热点。
1、歧义处理
歧义是指可能有两种或者更多的切分方法。例如: “表面的”这个词组,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面+的”和“表+面的”。这种称为交叉歧义。像这种交叉歧义十分常见,“化妆和服装”可以分成“化妆+和+服装”或者“化妆+和服+装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必须根据整个句子来判断了。
例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词; 在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
即使交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词、哪个应该不是词。例如: “乒乓球拍卖完了”,可以切分成“乒乓+球拍+卖+完+了”、也可切分成“乒乓球+拍卖+完+了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。
对歧义现象的处理方法一般采用类似于动态规划的算法将歧义问题的求解转化为一个优化问题的求解。在求解过程中,一般使用词频或概率等辅助信息求得一个最大可能的分词结果,这个结果在某种意义下是最佳的。
2、 未登录词处理
未登录词就是分词词典中没有的词,也称为新词。最典型的是人名、地名、专业术语等。例如,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”作为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如: 在句子“王军虎头虎脑”中的,“王军虎”还能不能算词?
未登录词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前,对未登录词的处理一般采用统计的方法,首先从语料中统计出出现频率较高的字组,然后按照某种规则把它们作为新词添加到辅助词典中。
目前,中文自动分词技术在搜索引擎中已经得到广泛应用,分词准确度已经达到96%以上,但是在对大规模网页进行分析处理的时候,现有的中文自动分词技术还存在许多不足,例如上面提到的歧义问题和未登录词的处理问题等。因此,国内外的科研院校,如北大、清华、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都一直关注并研究中文自动分词技术,这主要是因为网络上的中文信息越来越多,对网络上的中文信息的处理必将成为一个巨大的产业和广阔的市场,存在无限的商机。但是,中文自动分词技术要想更好地服务于网络中文信息的处理并形成产品,还要在基础研究方面和系统的集成方面做许多工作。
第二章 搜索引擎(第三节)
第三节 搜索引擎面临的挑战
目前的搜索引擎不可能做到“博大精深”,这是因为它们是矛盾的两个方面,不可兼得。随着互联网信息的急剧增长,关于搜索引擎的“博大”越来越难实现,从利用信息的角度也完全没有必要,“精深”反而是人们越来越重视并追求的指标。另外,多层次的搜索服务体系远远没有建立起来,传统搜索重导航作用、轻精准信息服务,就像行人问路,行人需要的不仅仅是方向,还要知道具体的路标指示。
现在人们经常谈论下一代搜索引擎,那么,下一代搜索引擎与第二代搜索引擎有什么不同?又有什么关系?它应该包括哪些功能?这些都是应该回答的问题,但答案是众说纷纭。也许下一代搜索引擎融入了更强劲的智能化、人机交互等方法来改善相关度的计算,也许下一代搜索引擎不仅仅运行在大规模服务器上,更有可能的是运行在共享计算资源的个人电脑集群上,或者植入“搜索芯片”中,也许其索引库的边界已经模糊、也许更加清晰,也许当下搜索巨头通过资金、品牌等人为地不断树立的商业壁垒,终究抵挡不住创新搜索技术的颠覆,正如当初Google将Altavista无声地瓦解一样。
一、搜索引擎的技术流派
搜索引擎的技术流派可以分为三类:第一类是利用计算机程序自动进行信息处理的自动化派,其典型代表是Google以及Ghunt等;第二类是以人工进行信息分类处理为主的人力加工派,这方面的典型代表是早期的Yahoo,正在兴起的Web 2.0、网摘等社区化搜索是这一流派的新发展;第三类是强调智能化人机交互、协同的融合派,目前英文Yahoo的搜索引擎在发展这方面的技术,MSN Live也显示出其更加重视融合性的技术,联索IFACE专业搜索融入了用户知识和机器学习方法,可以看做是融合派在中文搜索引擎方面的典型代表。
如果按照网页库的容量、相关度计算技术、用户搜索体验以及商业模式等方面来划分,到目前为止,搜索引擎的发展大约经历了两代。第一代搜索引擎(1994年~1997年)的索引网页量一般都在数百万量级左右,采用全文检索技术和分布式并行运算技术,但极少重新搜集网页并去刷新索引,而且其检索速度较慢,一般都要等待10秒甚至更长的时间,同时承受的检索请求也受到很大限制,商业模式处于探索期并且尚未成型。
第二代搜索引擎(1998年至今)大多采用分布式协同处理方案,其网页索引库一般都在数千万个网页量级甚至更多,采用可伸缩的索引库架构,每天能够响应数千万次甚至数以亿计的用户检索请求。1997年11月,当时最先进的几个搜索引擎宣称能建立1亿数量级的网页索引。以Google为代表的第二代搜索引擎通过链接分析和点击分析(网页流行度)方法来计算(网页权威性)相关度取得了巨大的成功。另外,以自然语言进行问题解答的搜索引擎在某种程度上改善了用户体验,更重要的是第二代搜索引擎奠定了目前搜索引擎普遍采用的成熟商业模式,如Google、Overture、百度等收费搜索服务均受益于此商业模式。
二、 相关名词解释
1.全文搜索引擎
是由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立网页索引数据库,由检索器根据用户输入的查询条件检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。
2. 目录索引搜索引擎
主要以人工方式搜集信息,由编辑人员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。用户完全可以不用关键词(Keywords)进行查询,仅靠分类目录也可找到需要的信息。
3.元搜索引擎
是指在统一的用户查询界面与信息反馈的形式下,共享多个搜索引擎的资源库为用户提供信息服务的系统。元搜索引擎是借助于其他搜索引擎进行工作,没有自己的索引库,它是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。
4.自动分类技术
是计算机根据分类标准自动将文档归类到已经存在的类别体系(或者主题)下的某一个具体类别中。目前自动分类并不能完全代替人工所做的相关工作,只是提供了一个花费较少的可选择方法。
5.文本聚类技术
是利用计算机将已经存在的大量文本(很多文档)进行分组的全自动处理过程。聚类可以提供对一个大的文本集内容的概况了解,可以识别隐藏的共同点,可以便捷地浏览相近或相关的文本
6.网文摘录
又称网摘,它具有对内容页的收藏、分类、摘录、加注标签、保存到信息库、信息库共享等功能,主要是为了满足用户阅读网络内容和信息知识积累的需要。
第二章 搜索引擎(第四节)
第四节 网页等级技术pagerank
1、 什么是页面等级pagerank?
PageRank计算页面的重要性,对每个链入(inbound)赋以不同的权值,链接提供页面的越重要则此链接入越高。当前页的重要性,是由其它页面的重要性决定的。
页面等级是Google用来评价一个网站重要程度的方法。当考虑完其他的因素,如标题和关键词,Google就利用页面等级技术来判断一个网站的重要程度以决定这个网站在用户搜索结果中应处于什么位置。
下面是Google搜索引擎工作的基本步骤:
1) 找出符合搜索关键词的所有网页。
2) 根据网页内容如关键词对搜索结果排序。
3) 根据页面等级分数调整查询结果的排序。
当然实际操作还要复杂的多,在后面对此还要做更深入的讨论。但是就目前来说,上面的描述已经足够了。因为页面等级是一个乘数而不是简单与其他分数相加,所以如果你的页面等级分数是零,那么你的页面总分数也就为0,在搜索结果中你的网页就会排在最后的位置。
2、 如何决定页面等级?
在Google的页面等级算法中,如果网页A提供网页B的链接则假设网页A认为网页B是重要的。一个网页的等级分数会考虑到对这个网页提供链接的其他网页的重要性,如果很多重要的网页提供对这个网页的链接,那么这个网页就被认为是重要的,这个网页的等级分数也会大大提高。同时这个网页所链接的其他网页也随之变得重要。而网页中的实际内容则与页面等级没什么联系。
3、 如何知道一个网页的等级?
如果想知道一个网页的页面等级,你可以从下载一个能够嵌入在Internet浏览器里的页面等级查看工具。安装好后,在浏览器的上方会有一个图案条,它可以显示你正在浏览网页的页面等级。把鼠标移到图案条上时,图案条上会显示一个从一到十的数字。这就是你所浏览网页的页面等级。如果你不能看到所浏览网页的页面等级,你可能安装了一个旧版本的页面等级查看工具。这时你需要先卸载所安装的页面等级查看工具,重新启动计算机。然后安装最新版本的页面等级查看工具。做完这一切后,你就可以从工具中看到你正在浏览的网页的页面等级。
在显示所浏览网页的实际页面等级的时候,Google的页面等级查看工具并不是很准确的。但是到现在为止也只能从它来得到对页面等级的一些人士。只要你知道这个工具的局限性,至少可以知道你在看什么。
Google的页面等级查看工具的两个主要局限:
1.页面等级查看工具的结果具有猜测性:如果你打开一个网页,这个网页并没有存在于它的网页列表中。但是网页列表中存在一个与你打开的相似的网页,它就会据此来猜测你打开网页的等级。这种猜测的结果对于我们是没有价值的,因为任何页面等级算法都不会这样做。想要知道所显示的页面等级是不是猜测的只有一个方法,把你所查看网页的URL输入Google的搜索框。如果在搜索结果中没有你所查看的网页,那么这个页面等级就是猜测的。
2.网页查看工具的结果只是实际页面等级的一种线性表示:网页查看工具的结果是线性的,而页面等级在Google里实际上是用非线性图来描述的。这样,在网页查看工具里,从等级2到等级3所提高的网页分数实际上要小于从等级3提高到等级4所提高的网页分数。我们可以从下面的对比表格里看到这种现象,Google里实际使用的标准还是保密的。
If the actual
PageRank is The Toolbar Shows
between
0and 5 1
6 and 25 2
25 and 125 3
126 and 625 4
626 and 3125 5
3126 and 15625 6
15626 and 78125 7
78126 and 390625 8
390626 and 1953125 9
1953126 and infinity 10
在Google目录() 里显示的页面等级也同样有这样的问题。Google目录里显示的页面等级使用了不同的标准,我们可以得到这两个标准之间的一个关系。可是由于它们是非线性的,所以你并不能从这个关系中知道更多的东西。
值得注意的是,一个程序员曾开发出一个脱离Internet浏览器的页面等级查看工具。这个工具得到的结果与Google工具的结果是符合的。为了保护本身数据,Google改变了本身的工具,所以现在这两种工具所得到的结果已经不一样。但这给了我们一个提示:
你在工具条上看到的页面等级可能与网页的实际等级更本就没有关系,Google在工具条上可以给一个网页任何等级。
5、 页面等级的意义
在搜索引擎算法中,任何因素存在的意义取决于这个因素所提供的信息的质量。一个因素的重要性可以作为它的加权值。如果想知道加权值是怎样得到的,我们先离开页面等级的讨论一会,来看看Meta标签。首先,如果是一个新的Meta标签关键词,你可以在你的文档中写入下面的文字:
meta name=”keywords” content=”pagerank, pagerank uncovered, algorithm,
algorithms”
理论上来说,Meta标签的关键词是对网页内容最好的概括。然而,正如我们所知道的,Meta标签中的关键词对加权值毫无用处。这主要是因为下面两个原因:
1. 网站管理员可以轻易的操作Meta标签中的关键词。
2. 网站管理员对它的操作级别过高。
Meta标签的关键词与页面等级是两个不同的因素,可是就人的本性来说,越容易改变的东西也就越容易被改变。这些原因共同决定了加权值的大小-即我们可以对一个因素所提供信息的信任程度。
6、 控制页面等级
毫无疑问,页面等级是网站管理员最难操纵的因素之一。然而,如果利用链接域和留言板则可以比较容易的让其他网站提供对你网站的链接从而认为影响页面等级的评定。Google一直对此方法的滥用非常头痛,现在很多网站用这种方法来提升他们的页面等级。不得不说,这种方法的滥用现在非常普遍并且对页面等级产生了很大影响。所以,虽然不太容易,页面等级也是可以被操纵的。
现在页面等级被操纵的程度已经发生了改变。大部分人不再相信Google先前的页面等级不能被人为改变的说法,也对基于页面等级所产生的搜索结果产生了怀疑。然而,更多迹象表明页面等级技术仍然在被使用,虽然有更多的页面等级操纵技巧被熟知。
虽然页面等级是有用的,你还是应该小心不要过高估计它的用处和能力。你最后的网页排序由许多因素共同决定,页面等级只是其中的一个。稍后,我们将更加详细的讨论页面等级与其他因素的不同以及页面等级何时会被使用。更具讽刺性的是,页面等级的加权值正逐渐减小。因为本书的第一版给出了页面等级的详细信息,使得页面等级技术被被更多人所了解,也就使得人为改变页面等级的可能性增加了,这可能是导致页面等级加权值减小的一个原因。
第三章 搜索引擎营销
第一节 什么叫搜索引擎营销
一、 搜索引擎营销的定义
搜索引擎营销,是英文Search Engine Marketing的翻译,简称为SEM。简单来说,搜索引擎营销就是基于搜索引擎平台的网络营销,利用人们对搜索引擎的依赖和使用习惯,在人们检索信息的时候尽可能将营销信息传递给目标客户。搜索引擎营销追求最高的性价比,以最小的投入,获最大的来自搜索引擎的访问量,并产生商业价值.
二、 搜索引擎营销的价值
搜索引擎营销的最主要工作是扩大搜索引擎在营销业务中的比重,通过对网站进行搜索引擎优化,更多的挖掘企业的潜在客户,帮助企业实现更高的转化率。
目前搜索引擎营销主要有三种方式,分别是付费排名、关键字广告及SEO(搜索引擎优化)。由于搜索引擎营销是一种精准营销,比起其他的网络广告具有更好的效果,所以一直受到企业的青睐。过去,企业最常用的是付费排名和关键字广告,但随着付费排名和关键字广告的弊端不断暴露,而SEO的优势得到了越来越多的企业认同,成为他们的新宠。
1、符合用户浏览习惯,效果更好
一般来说,用户是极少去浏览和点击搜索引擎右侧的关键字广告,这样关键字广告的效果就可想而知。据统计,95%以上的用户会优先浏览和点击搜索引擎左侧的检索结果,而左侧是常规结果。在国内网民中,对搜索引擎检索的常规结果的付费连接有着排斥行为。而且,竞价排名的展现位置有限。企赢营销,为企业提供一站式网络营销顾问服务,帮助企业赢得更广阔市场。据统计,70%左右的用户会直接在搜索结果的首页查找自己所需要的信息,而进入第二页的用户只占20%,进入第三页的用户所占比例不到5%。竞价排名都是在第一页,竞价的结果使大量的企业因价格的原因无法排在首页,使得这部分企业很难通过竞价广告获得良好的使用效果。
2、搜索流量更大,流量来源不限于主要关键词,而且相同的关键词投入成本更低
对于付费排名和关键字广告都是针对主要关键词来开展的,这些主要关键字带来的流量可能很大,但却忽略了其他关键词带来的流量,而对于做了竞价排名的企业,其网站的自然排名将可能被搜索引擎删除,这样做,就是为了逼着企业长期依赖搜索引擎做竞价。通过SEO,不过能使主要关键词在搜索引擎排得好名,也使得其他的关键词排得比较好的名,在许多企业网站的所有流量中,排在前十名的主要关键字所带来的流量不超过50%,其余50%以上的流量是通过成百上千的关键字所带来的。
在关键字收费方面,竞价按关键词的访问次数收费,而SEO产品采用包年的费用,关键词的定价根据首页竞价结果的价格最低线为标准,根据技术难易程度,制定出更低的价格标准。竞价广告可以设置每天的广告预算,超出预算则广告不被显示;规则看起来是能够帮助企业节约成本,但这是建立在牺牲潜在合作机会的基础上的。优化不会被这一规则限制,网站链接时刻都在上面显示。
行业内的竞争也可以让你在很短的时间内迅速提高成本。而网站优化不存在这一因素。举例:如果你曾经做过关键字竞价广告排名,你可能有过这样的经历:“上个月,广告排在右侧第一位的出价只需要0.8元,现在已经要提高到4.5元。这意味着广告每被点击1次需要花费4.5元。”
3、能够使网站整体得到优化,网站权重得以提高
付费排名和关键字广告对于整体网站优化毫无作作,更不用说提高网站权重,SEO通过对网站功能、网站结构、网页布局、网站内容等要素的优化,从而使整个网站得到优化,从而大大提高网站权重。
4、有效避免恶意点击,减少无效支出
随着搜索竞价商业模式而诞生的“点击欺诈”问题把搜索引擎推向了尴尬的境地。美国市场咨询公司Click Foren sics日前发布的“点击欺诈指数”调查中揭示:在2006年第二季度,搜索引擎广告总体点击欺诈率是14.1%,比第一季度的13.7%有所上升,而每次点击CPC价格在2美元及以上的热门关键词中,点击欺诈率达到20.2%。这一统计结果可能并未包括中国搜索引擎市场,但是据业内人士称,国内搜索引擎遭遇的恶意点击绝对比国外有过之而无不及。百度就曾多次涉嫌“点击欺诈”的案件当中。
通过SEO的方式,从根本上解决了恶意点击的问题,降低无效投入,从而使企业的广告投放获得更好的投放效果。
5、覆盖面更广泛,一次投入,综合收益
SEO网站优化是针对大部分专业搜索引擎的,你的网站不仅在百度中得到排名提升,同时在其它各大搜索引擎如Google、雅虎,也会提升你的网站排名。而选择竞价广告方式要达到这一效果则必须和各搜索引擎签订广告协议,这无疑增加了巨大的成本。
6、搜索引擎优化结果长期有效
对于竞价排名,一旦停止使用,网站链接也就即刻消失。而网站SEO能够帮助你提高网页的综合指数,如果你的链接已经得到提升,继续保持高质量反向连接数的增加和内容的维护,你的左侧排名会继续保持或提高。除非后期应用了作弊的方式而受到惩罚或停止后期的维护
第四章 搜索引擎优化基础(第一节
第一节 空间域名
一. 如何选择稳定的空间
什么是虚拟主机?
虚拟主机,是在网络服务器上划分出一定的磁盘空间供用户放置站点、应用组件等,提供必要的站点功能与数据存放、传输功能。虚拟主机技术的出现,是对Internet技术的重大贡献,是广大Internet用户的福音。由于多台虚拟主机共享一台真实主机的资源,每个用户承受的硬件费用、网络维护费用、通信线路的费用均大幅度降低,Internet真正成为人人用得起的网络!现在,几乎所有的美国公司(包括一些家庭)均在网络上设立了自己的WEB服务器,其中有相当的部分采用的是虚拟主机!所谓虚拟主机,也叫“网站空间”就是把一台运行在互联网上的服务器划分成多个“虚拟”的服务器,每一个虚拟主机都具有独立的域名和完整的Internet服务器(支持WWW、FTP、E-mail等)功能。一台服务器上的不同虚拟主机是各自独立的,并由用户自行管理。但一台服务器主机只能够支持一定数量的虚拟主机,当超过这个数量时,用户将会感到性能急剧下降。虚拟主机技术是互联网服务器采用的节省服务器硬体成本的技术,虚拟主机技术主要应用于HTTP服务,将一台服务器的某项或者全部服务内容逻辑划分为多个服务单位,对外表现为多个服务器,从而充分利用服务器硬体资源。如果划分是系统级别的,则称为虚拟服务器。
购买虚拟主机需要注意什么?
1、空间的稳定性。
稳定性是租用网站空间首要因素,如果一个网站恰好在搜索引擎蜘蛛来抓取内容的时候,空间不能正常访问,搜索引擎将无法索引到你的网页。因此将会给网站带来无法估量的损失,因为来自搜索引擎的流量占了网站流量的一大部分。所以,这也是开展网络营销自身条件所要求的。许多企业为了贪图一时的便宜而去使用免费稳定性低的空间,这种做法是不可取的。
2、空间的功能。
如果网站所使用的程序和数据库空间不支持,那网站上传后流行的动态程序是不能运行的。这个好多新手可能会遇到,因为对程序或者数据库不了解。比如DZ,它是PHP程序,MYSQL数据库,哪么选择空间的时候一般注意支持PHP和MYSQL就可以了。同时并不是支持的越多越好,比如MSSQL很多程序现在是用不到的,还非常浪费资源,所以大家选择一个够用的就可以了,支持功能的越少,当然也会越便宜了,安全性也越高。
3、空间的大小。
空间大小选择的原则是,既不浪费又要给网站的进一步发展留有余地。如果像博客类的网站就无须选很大的空间。大型的网站,站长就要根据自己的网站量体裁衣了.
4、空间的价格。
价格问题是需要考虑的成本之一。宣传的优质价廉空间可能暗藏陷阱。在国内良伪不齐的IDC市场中,不要被价格表面文章所迷惑。
5、空间品质参数
对于IIS、流量、CPU限制等问题。硬盘空间相对很便宜,主要是衡量资源成本在于IIS同时在线数量,网站月流量这些参数。不限制流量是可能的,但是IIS同时在线数量可能就会受到限制,因为一台中型服务器的IIS数在5000左右。IIS是每秒最高在线人数,IIS=100就是说每秒在线100人,超过的会显示无法显示该页。
6、空间商的信誉。
购买空间的时候一定要选择一个口碑好的服务商,这会为你的网站的稳定运行提供强大的保障。
7、关注你的“邻居”
一般来说,大部分企业所使用的空间应该称之为虚拟主机,也叫共享主机根据共享主机的特点,我们知道,大部分企业的空间是和其他很多网站的空间公用同一个独立IP,那么我们可以形象的称这个IP 下所有的网站都处在一个共处环境。如果你的“邻居”违反了某个搜索引擎的规定遭到惩罚,同在这台服务器上落户你的网站有可能也被殃及并遭到同样的惩罚。
8、还有就是,经常换服务器IP是对搜索引擎不友好的举动。在一些被公开的技术专利中,早有明确指出衡量网站质量等级的多少和你是否经常更换IP有关。
二 挑选域名的技巧
1域名常识
域名可分为不同级别,包括顶级域名、二级域名等。
顶级域名又分为两类:一是国家顶级域名(national top-lenel domainnames,简称nTLDs),目前200多个国家都按照ISO3166国家代码分配了顶级域名,例如中国是cn,美国是us,日本是jp等;二是国际顶级域名(national top-lenel domain-names,简称iTDs),例如表示工商企业的 .Com,表示网络提供商的.net,表示非盈利组织的.org等。目前大多数域名争议都发生在com的顶级域名下,因为多数公司上网的目的都是为了赢利。为加强域名管理,解决域名资源的紧张,Internet协会、Internet分址机构及世界知识产权组织(WEPO)等国际组织经过广泛协商,在原来三个国际通用顶级域名:()的基础上,新增加了7个国际通用顶级域名:firm(公司企业)、store(销售公司或企业)、Web(突出WWW活动的单位)、arts(突出文化、娱乐活动的单位)、rec (突出消遣、娱乐活动的单位)、info (提供信息服务的单位)、nom(个人),并在世界范围内选择新的注册机构来受理域名注册申请。
二级域名是指顶级域名之下的域名,在国际顶级域名下,它是指域名注册人的网上名称,例如 ibm,yahoo,microsoft等;在国家顶级域名下,它是表示注册企业类别的符号,例如com,edu,gov,net等。
我国在国际互联网络信息中心(Inter NIC)正式注册并运行的顶级域名是CN,这也是我国的一级域名。在顶级域名之下,我国的二级域名又分为类别域名和行政区域名两类。类别域名共6个,包括用于科研机构的ac;用于工商金融企业的com;用于教育机构的edu;用于政府部门的 gov;用于互联网络信息中心和运行中心的net;用于非盈利组织的org。而行政区域名有34个,分别对应于我国各省、自治区和直辖市。三级域名用字母( A~Z,a~z,大小写等)、数字(0~9)和连接符(-)组成, 各级域名之间用实点(.)连接,三级域名的长度不能超过20个字符。如无特殊原因,建议采用申请人的英文名(或者缩写)或者汉语拼音名 (或者缩写) 作为三级域名,以保持域名的清晰性和简洁性。
2域名选择,以海外推广应以英文单词为主。如果是只面向中国一般中文用户,可以选择拼音来取名。例如 与 意义在理解上相同。但是,对搜索引擎对域名的理解是不同的。在主要中文搜索引擎百度上拼音字母结构的域名更有优势。
3在域名中只出现字母,尽可能的不要放入下划线,或者连字符号。只有在一种情况下需要,就是说当多个单词组合起来后,会出现两种或两种以上的分词情况的。通常连在一起的单词,绝大部分情况下,搜索引擎可以很好的区分。有一点需要注意当面对国内用户,从使用习惯上讲国人并不认可域名内夹杂下划线、横线的域名。
4域名要便于记忆,短小的、有特殊含义的域名更适于记忆。例如teashop.Com 很好理解就是茶叶商店com 是在线手机充值网站。
5选择的域名不要易混淆,也不要易拼写错误。易拼写错误的域名很可能会将属于你的客户登录到对手的网站上去。例如 与 同样是葡萄酒主题网站,但是很容易被访客混淆。
6谨防注册一个遭受搜索引擎惩罚过的域名
一般来说网站因违反了搜索引擎的相关规则而被搜索引擎惩罚了,域名将会被视为惩罚域名。被惩罚过的域名按照惩罚的等级不同,有可能再不会被搜索引擎索引并收录,同时也就意味着从搜索引擎查询中消失。那么,我们怎样才知道一个域名是否已经遭受搜索引擎惩罚了呢?首先使用SITE命令去查找域名是否被收录,其次可以通过网站查看域名历史。
7注册时间在搜索引擎计算中一样在被重视。注册时间越久,一口气缴费时间越久,都会对网站排名靠前更加有利。
第四章.搜索引擎优化基础(第二节)
第二节、搜索引擎爬虫程序
一什么是搜索引擎爬虫程序
网络爬虫(又被称为网页蜘蛛,网络机器人,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。
这些处理被称为网络抓取或者蜘蛛爬行。很多站点,尤其是搜索引擎,都使用爬虫提供最新的数据,它主要用于提供它访问过页面的一个副本,然后,搜索引擎就可以对得到的页面进行索引,以提供快速的访问。蜘蛛也可以在web上用来自动执行一些任务,例如检查链接,确认html代码;也可以用来抓取网页上某种特定类型信息,例如抓取电子邮件地址(通常用于垃圾邮件)。
一个网络蜘蛛就是一种机器人,或者软件代理。大体上,它从一组要访问的URL链接开始,可以称这些URL为种子。爬虫访问这些链接,它辨认出这些页面的所有超链接,然后添加到这个URL列表,可以称作检索前沿。这些URL按照一定的策略反复访问。
二爬虫程序的种类以及分辨
搜索引擎派出他们的爬虫程序去访问、索引网站内容,但是由于搜索引擎派爬虫程序来访会在一定程度上影响网站性能。在你的服务器日志文件中,可见每次访问的路径和相应的 IP 地址,如果是爬虫程序来访, 则user-agent 会显示 Googlebot 或MSNBot 等搜索引擎爬虫程序名称,每个搜索引擎都有自己的user-agent,以下分别列出国内主要的爬虫程序。
百度 —-Baiduspider
/search/spider.htm
谷歌 —-Googlebot
/bot.html
雅虎 —-Yahoo
/help.html
有道 —-YodaoBot
/help/webmaster/spider/
搜搜 —-Sosospider/Sosoimagespider
/webspider.htm
/soso-image-spider.htm
搜狗 —-sogou
/docs/help/webmasters.htm
微软 —-msnbot
/msnbot.htm
第三节 认识主流搜索引擎
1关于百度
百度公司(,inc)于1999年底成立于美国硅谷,它的创建者是在美国硅谷有多年成功经验的李彦宏先生及徐勇先生。2000年1月,百度公司在中国成立了它的全资子公司-百度网络技术(北京)有限公司,随后于同年10月成立了深圳分公司,2001年6月又在上海成立了上海办事处。
百度的名字寄托着百度公司对自身技术的信心,另一层含义就是突破“事儿做到九十九度就是做到头”的西方说法,百度就是想
文档评论(0)