查看: 79|回复: 1

搜索引擎的原理和基础算法

[复制链接]
发表于 2017-3-17 18:54:10 | 显示全部楼层 |阅读模式
1:抓取程序SPIDER(思派特)=蜘蛛=搜索引擎爬虫=百度蜘蛛
2:谷歌蜘蛛(GOOGLEBOT)
3: 360蜘蛛(360spider)

                                                          百度spider
                                                               ↓
                            网页搜索-baiduspider    移动搜索-baiduspider  图片搜索-baiduspider-image

                            视频搜索-baiduspider-vide  新闻搜索-baiduspider-news  百度搜藏-baiduspider-favo

                            百度联盟-baiduspider-cpro  商务搜索-baiduspider-ads

(1)谷歌是如何确定我的搜索意图呢?答案是通过提问来确定的(比如您的关键词在网页出现了多少次,200多种问题)


4:搜索引擎原理:

  (1)抓取“爬虫spider顺着网页的超链接在互联网中发现,搜集信息,”
       不利于抓取的内容有:IS图片 ALT属性辅佐的识别  FLASH加以文字的辅助 IFRAME框架层次多 嵌套table(特伯)  需要登录信息之后的网页
       存储搜引库:对信息进行有质量提取和组织建立索引库。展示排序:当我们在搜索引擎看到的只是结果 搜索引擎各种算法吧某个关键词的展示出现在首页的第一位

5:真假蜘蛛:(1)解析IP来判断是否来自baiduspider的抓取  (2)命令--nslookup(NO啊婆) IP地址 来查询  以baiduspider   baidu.com结束的都是百度来抓取过的
   试用方法:在电脑的开始搜索CMD窗口 来查找。试用IP nslookup 220.181.108.95

6:蜘蛛的爬取方式:(1)广度优先:指搜索引擎蜘蛛会优先抓取起始页中链接的所有网页(一般的回事这种方式)
                   (2)深度优先:指搜索引擎蜘蛛会从起始页开始一个链接接着一个链接跟踪下去,处理完这条后再入下一个起始页继续跟踪链接




    小总总结:今天的学习让我自己体会到了百度蜘蛛(baiduspider)抓取我们网页的一些原理,知道以后做网页的时候因该要注意一些的东西,
也可以去查询自己的网页是否被百度蜘蛛 抓取,也知道了真假蜘蛛的辨别。今天的目标是温习这些知识点,让自己深入了解一下原理  




发表于 2017-3-17 21:44:19 | 显示全部楼层
分析的不错,望继续努力~~~原动力装机网 http:/www.diyooo.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

SEO研究中心(moonseo.cn)是互联网最大的搜索引擎优化研究中心,是致力于培养学员用户体验意识和提供专业技术解答的专业培训机构, 成立于2007年,2008年第一家入驻歪歪的培训机构,2014年成为腾讯课堂战略合作机构。
© 2007-2016 SEO研究中心 湘ICP备13004652号-1 Powered by Discuz!X  Template by SEO 
快速回复 返回顶部 返回列表