一个搜索引擎机器人会先爬行一个网站,检索在它看来是重要的页面部件,这些检索的数据随后被分析,并赋予指定要害字在搜索结果中的排名。每个搜索引擎算法被设计成足以判定相应要害字和相关页面的相关程度。
搜索引擎分类目录(Directories)
搜索引擎分类目录是由人工预审后被编入的网站列表。较为主要的搜索引擎分类目录有 Yahoo, LookSmart, Open Source Directory 等,您付款后也未必真能被收录至它们的分类目录中。分类目录会因为您网站导航不明确、网站设计不佳、死链接、网站是否正常运转、文法错误、文字不流畅、没有联系电话、没有商业地址、多次重复提交某目录的原因拒绝您的网站收录。在提交网站前反复审阅您的网站,确保网站在正常工作后方可提交。事实上,在您没有做好充分预备前提交您的网站对搜索引擎目录收录是非常不明智的。就算您进入了搜索引擎的目录中,对您网站的排名也会有很大的影响。
搜索引擎会基于很多标准,如要害字的相关性、出现的频率等,来决定您网站的排名,它还将查看您网站的标题及描述和网站所在目录的相关性来决定网站排名。在某些情况下,外部连接的数量及质量也会在排名中体现出来。有些分类目录也会跟踪访问者点击搜索结果中链接后停留在网站上的时间来作为衡量网站排名的一个因素。
有一点必须注重,分类目录的编辑人员有会改变您实现定义好的网站标题及描述。
什么叫要害字密度(Keyword Density)
要害字密度是指在一个页面中,要害字(keyword)或要害字段(keyphrase)占所有该页面中总的文字的比例,该指标对搜索引擎的优化起到要害的作用。为自然提高在搜索引擎中的排名位置,您网站中页面的要害字密度不能过高,也不要过低,一般在 1% 到 7% 较为合适。假如要达到 1% 的比例,那么您在平均 100 个文字中最好包含 1 个要害字或要害字段,假如在 1000 个文字中仅仅只包含 1 个要害字或要害字段,那么要害字密度就被稀释了。记住,您千万别把所有的要害字或要害字段堆积在一起,要不搜索引擎将人为是一种恶意行为(Spam), 直接降低您网站的排名位置。
什么叫坏链接(Bad Link)
在很多网站都可以看到各种和别的外部网站的链接,其实搜索引擎就是一个庞大的链接集合。这种链接成为外部链接(Link Popularity),高质量的外部链接在搜索引擎的排名算法中占据一席之地。然而要跟踪这些链接是否正常也非轻易。您要慎重选择和您网站交换链接的网站。
Google是率先将这种外部链接列入排名算法中的。假如过多地和毫不相干的网站做外部链接,非单不会提高排名,反而会受到 Google 的惩罚。尤其是一味地和外界网站进行链接,而没有高质量的外部网站和自己链接。
您的网站要和外部网站做连接,一定要注重,这个外部网站是没有被处罚的。Google 有一个独创性的衡量网页信誉评估工具条,称之为 PageRank. 主要依据是该网页被其他网页链接的次数,级别越高表示该网页越可信。该工具条可以在 http://toolbar.google.com 上下载安装。
什么叫隐藏文本(Hidden Text)
几乎所有的搜索引擎都利用网站页面上的文字作为搜索结果排名的重要因素。也就是说包含要害字的网站页面在搜索结果中将有更大的机会获得较高的排名。许多webmaster都意识到了这一点,他们出于网站美观或者是否流畅,将大量包含要害字的文本颜色设置成和网页背景相同的颜色,访问者是看不到的,而搜索引擎的 Spider 可以看到,于是获得较高的排名。
在这里我们想告诉你这种做法有一定的效果,但很危险,随着搜索引擎的智能化程度的提高,这样的网站将受到惩罚,甚至被驱逐出搜索引擎。
我们不主张采用这样的作弊行为来提高排名。
什么叫 DoorPage
有时侯有人会建议 Webmaster 提交一个叫做“bridge page”或者叫做“Doorway page”到搜索引擎中去,以换取较高的访问量。Doorway page 实际上是为某些要害字非凡制作的页面,有时也叫“portal page”、“jump page”、“entry page” 或其他名字。通过 Doorway page 再指向真正的网站。他很轻易被鉴别是专门为搜索引擎设计的,而不是为访问者设计的。大多数搜索引擎不支持该方式,尽量少用。
什么是UTF8
UTF8并不算是一种电脑编码,而是一种储存和传送的格式,如前所述,每个Unicode/UCS字符都以 2或4个bytes来储存,看看以下的比较:
以"I am Chinese"为例
用ANSI储存:12 Bytes
用Unicode/UCS2储存:24 Bytes 2 Bytes(header)
用UCS4储存:48 Bytes 4 Bytes(header)
以"我是中国人"为例
用ANSI储存:10 Bytes
用Unicode/UCS2储存:10 Bytes 2 Bytes(header)
用UCS4储存:20 Bytes 4 Bytes(header)
由此可见直接以Unicode/UCS的原始形式来储存是一种极大的浪费,而且也不利于互联网的传输(中文稍为合算一点^_^)。
有见及此,Unicode/UCS的压缩形式--UTF8出现了,套用官方网站的首句话『UTF-8 stands for Unicode Transformation Format-8. It is an octet (8-bit) lossless encoding of Unicode characters.』,由于UTF也适用于编码UCS,故亦可称为『UCS transformation formats (UTF)』
UTF8是以8bits即1Bytes为编码的最基本单位,当然也可以有基于16bits和32bits的形式,分别称为UTF16和UTF32,但目前用得不多,而UTF8则被广泛应用在文件储存和网络传输中。
编码原理
先看这个模板:
UCS-4 range (hex.) UTF-8 octet sequence (binary)
0000 0000-0000 007F 0xxxxxxx
0000 0080-0000 07FF 110xxxxx 10xxxxxx
0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0020 0000-03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0400 0000-7FFF FFFF 1111110x 10xxxxxx ... 10xxxxxx
编码步骤:
1) 首先确定需要多少个8bits(octets)
文章地址: http://www.xinasp.com/html/wangzhanyunying/cehuayingli/20070331/7823.shtml
tag: 术语 网站推广


RSS订阅
评论加载中…



