6362717839814709832508631.jpg

第3课、搜索引擎:网页收集

搜索引擎搜索的数据是预先收集的。

搜索引擎的抓取是通过蜘蛛

引擎蜘蛛:负责的工作把你的网页源代码下载到数据库

调度:是限制多长时间让蜘蛛访问

定期收集:百度会定期去你的网站收集数据

增量收集:第一天过来抓取你的网页发现没有更新,第二天又没有更新。它会周以后过来,一周以后你的网站还是没有什么数据更新他就会几个月后过来收集数据或者是半年。

搜索引擎大更新周期:如果你做的网站是正规的,质量比较高,每天都有文章更新会有效果。

种子站点:(枢纽页面)(这个页面有大量的连接指向高质量的站点,比如hao123)搜索引擎抓取站点,会从种子站点出发!

种子站点的抓取是非常的频繁,深度优先,广度优先是一层一层的往下抓

对于一个新的网站来说搜索引擎会采取广度优先抓取

新的网站先收取你的首页

通过、robots.txt页面屏蔽搜索引擎抓取页面

搜索引擎更新的机制(更新快照),尽可能的更新原创的文章。让搜索引擎认为你是原创,加快你的速速

尽可能的增加网站外链。

sitemap(网站地图)增加收取录的好东西,生成一个页面的URL地址。让搜索引擎更清楚的了解你的网站。

网站主要是内容为王


第4课、搜索引擎的原理:预处理

网页预处理的大致过程

关键词的提取(去噪音):

搜索引擎先把内容从网站上取出来,去切词。

切词,去除停止词:

不重要的板块,叫噪音。

镜像网页的消除(完全相同):

镜像网页是两个网页一模一样,搜索引擎是不会收录。

转摘(额外少量编辑,称为似镜像网页):

转载网页,复制别人的一篇文章经过稍微的改动后的网页

链接的分析(记录链接位置,相关性,锚文本):

网页重要度计算(被引用的多就是重要的):

一个网页被引用的多就是重要的,这个网页在别的网站上出现的越多他的重要度就越高。

建立索引

正排索引,倒排索引:

正:页面到关键词

到:关键词到页面的关系。一个关键词包含很多的网页。


第5课、搜索引擎原理:查询接口(搜索引擎查询页面)

预处理后得到的网页表现形式:

原始页面,url,标题,文档编号,关键词集合和权值位置信息(词位),其他一些指标

原始网页:是百度快照保存下来的,即使你的网站关闭后。可以通过百度快照打开你原来的网站

url:百度快照记录的地址

标题:百度快照记录UEL的标题

文档编号:是搜索引擎为了查询方便记录下来的,我们是看不到的

关键词集合:你的文章中包含那几个关键词,我们也是看不到的

权值:网页的权值的等信息。

(网页重要度,网页类别)

网页重要度:被多少个网页引用

网页类别:在百度查询你的官网是导航性的

搜索引擎,会对你的查询词判断是否是导航类型的词还是信息类型查询

查询词处理(切词,获取分类,排序)

全文索引(布局限制于标题)

pr算法

文档摘要(动态摘要)


第6课、搜索引擎:查询命令

“SEO”:精切匹配!

site:你的域名。查看你的网站被百度收取了多少

domain:你的域名。查看你的域名广泛度

默认的空格和+,苹果-手机-电脑 不要的东西可以用减号减到

intile:在标题里面出现的词语

allintitle:比intile准确一点

inurl:在UEL连接地址中出现的

allinurl:比inurl准确

inanchor:在锚文本出现了一个词语的

link:是用来查询外部连接的(用雅虎比较准确)

cache:在搜索引擎中的缓存

info:

related:

define:查询一个词的意思

安全检查:

第7课、影响网站排名因素:域名选择

       域名供应商的选择(知名idc)

域名后缀的选择(cn.com.net.gov.edu。.info)

域名注册时间(垃圾站和正规的区别)

老域名的定义(注册和收录时间)

域名年龄查询(对搜索引擎的影响)

域名的选择(数字,拼音,英文,其他)

baidu,Google,dangdang(品牌)

隐藏注册信息

域名权重对SEO的影响

域名长度的选择(超长域名)

第8课、影响网站排名的因素:空间、服务器、转移站点、404

空间的ip是否被封

查询服务器绑定网站数量

服务器是否支持404

伪静态

日志下载

服务器稳定性

打开速度

数据备份

空间商跑路时常发生(警惕)

www.114best.com/ip/:查询你的同IP的站点,如何你的同IP站点都没有被百度收录建议不要买

主意同IP的网站是不是非法的网站

建议设置404错误页面,对用户体验有好处。

伪静态的好处:限制网站动态页面,限制动态页面的抓取。

robots.txt

服务器的稳定性,线路选择

Google的管理员工具。

robots.txt文件的写法

User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符 
  Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
  Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
  Disallow: /ABC/ 这里定义是禁止爬寻ABC整个目录
    Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)
  Disallow: /*?* 禁止访问网站中所有的动态页面
  Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片
  Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html文件。
  User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
  Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
  Allow: /tmp 这里定义是允许爬寻tmp的整个目录
  Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
  Allow: .gif$ 允许抓取网页和gif格式图片robots.txt文件用法举例


你了解下吧!我的导航站免费收录所有站点,现在已经收录过w ,流量都是从搜索引擎来的!是很不错的外链!有需要的朋友可以到站上提交。

第9课、影响网站排名的因素:网页构架,DIV,静态化,伪静态

结构设计

flash,各种刷新跳转

iframe,js

flash导航,用户验证

物理结构

连接结构

规范化连接地址

301重定向

动态URL和静态URL

相对路径和绝对路径

网站地图的必要性,XML地图和HTML地图

网站建议首页不要用flash,不利于搜索引擎收取

第10课、影响网站排名的因素:目录,网页,网页大小,robots,二级域名

如何确定网站目录结构

门户站目录结构的特点

何时选择二级域名

何时使用目录

robots限制收录

nofollw控制权重传递

网页大小的控制

div+css和table的区别


第11课、影响网站排名的因素:meta标签

meta标签的语法格式是:<meta name="参数" content="具体的参数值">

<meta name="keywords" content="关键字"/>
<meta name="description" content="描述"/>
<meta name="ROBOIS" content="noarchive"/>不允许保存快照
<meta http-equiv="Pragma" content="no-cache">不允许建立缓存
<meta http-equiv="Refresh" content="2" URL="http://www.dianfeng58.com"/>表示几秒钟后跳转到另一个网站
<meta name="generator" content="Discuz! X3.2" />
<meta name="author" content="Discuz! Team and Comsenz UI Team" />

keywords标签

description标签

robote标签

all标签:允许搜索引擎操作全部的

none标签:不允许搜索引擎操作任何事情

index标签:允许引擎收录

noindex标签:不允许引擎收录

follow标签:允许跟踪A标签连接

nofollow标签:不允许跟踪A标签连接

none=noindex+nofollow

禁止搜索引擎创建快照

<meta name="robots" content="noarchive">

http-equicv属性,相当于http的文件头作用

定义页面编码格式content-type

Refresh标签



第12课、影响网站排名因素:关键词

title中出现的关键词

页面中关键词精准匹配,和邻近度

h1标签中使用关键词

title中以关键词为开始

title关键词重复次数(2-3次)

网页中圈250个字符出现关键词

关键词密度,关键词重复次数

网页连接中出现关键词

图片alt中使用关键词

特征标签中使用关键词

不太重要的:目录,域名,图片名,keywords,html文件名,注释标签。