目前本站已有 十几万 份求职资料啦!


阿里巴巴笔试记

10-15 23:59:20 来源:http://www.qz26.com 笔试经验   阅读:8101
导读:3.如何降低被爬行站点的负载?当Crawler获取页面时,需要消耗部分被访问服务器的资源,同时也占用网络带宽,增加了网络负担。Cralwer应使用相应的策略降低这些消耗,否则相应站点将禁止Cralwer去访问其页面。 4.如何并行化爬行过程? 由于要爬行的页面数量非常大,一个Crawler在一定时间内,通常不能胜任爬行所有页面的能力,必须使用多个Crawler来完成这一工作。因此,Crawler之间的并行协同工作显得非常重要。针对Crawler工作任务的重要性及其工作量的巨大,许多搜索引擎采用了分布式Crawler技术,但是如何将巨大的爬行任务均衡地分配给各个Crawler是分布式WebCrawler的关键问题之一。目前许多Crawler系统都采用了集中式的任务分割策略7.Trie树查询基于三数组Trie索引树原理的汉语词典查询机制,并用递归算法实现构词状态表的自动构建.Trie树是搜索树的一种,来自英文单词"Retrieval"的简写,可以建立有效的数据检索组织结构,是中文匹配分词算法
阿里巴巴笔试记,标签:德勤笔试经验,银行笔试经验,http://www.qz26.com

3.如何降低被爬行站点的负载?当Crawler获取页面时,需要消耗部分被访问服务器的资源,同时也占用网络带宽,增加了网络负担。Cralwer应使用相应的策略降低这些消耗,否则相应站点将禁止Cralwer去访问其页面。 4.如何并行化爬行过程? 由于要爬行的页面数量非常大,一个Crawler在一定时间内,通常不能胜任爬行所有页面的能力,必须使用多个Crawler来完成这一工作。因此,Crawler之间的并行协同工作显得非常重要。

针对Crawler工作任务的重要性及其工作量的巨大,许多搜索引擎采用了分布式Crawler技术,但是如何将巨大的爬行任务均衡地分配给各个Crawler是分布式WebCrawler的关键问题之一。目前许多Crawler系统都采用了集中式的任务分割策略

7.Trie树查询

基于三数组Trie索引树原理的汉语词典查询机制,并用递归算法实现构词状态表的自动构建.

Trie树是搜索树的一种,来自英文单词"Retrieval"的简写,可以建立有效的数据检索组织结构,是中文匹配分词算法中词典的一种常见实现。它本质上是一个确定的有限状态自动机(DFA),每个节点代表自动机的一个状态。在词典中这此状态包括"词前缀","已成词"等。Trie树就是字典树,其核心思想就是空间换时间.字典树有如下简单的性质:

(1) 根节点不包含字符信息;

(3) 一棵m度的Trie或者为空,或者由m棵m度的Trie组成。

搜索字典项目的方法为:

(1) 从根结点开始一次搜索;(2) 取得要查找关键词的第一个字母,并根据该字母选择对应的子树,转到该子树继续进行检索;

(3) 在相应的子树上,取得要查找关键词的第二个字母,并进一步选择对应的子树进行检索。

4) 迭代过程……

(5) 在某个结点处,关键词的所有字母已被取出,则读取附在该结点上的信息,即完成查找。

www.qz26.com

双数组Trie(Double-Array Trie)是trie树的一个简单而有效的实现,由两个整数数组构成,一个是base[],另一个是check[]。设数组下标为i ,如果base,check均为0,表示该位置为空。如果base为负值,表示该状态为词语。Check表示该状态的前一状态,t=base+a, check[t]=i 。

8.HTML&HTTP协议

HTML(Hyper Text Mark-up Language )即超文本标记语言,是 WWW 的描述语言,由 Tim Berners-lee提出。设计 HTML 语言的目的是为了能把存放在一台电脑中的文本或图形与另一台电脑中的文本或图形方便地联系在一起,形成有机的整体,人们不用考虑具体信息是在当前电脑上还是在网络的其它电脑上。这样,你只要使用鼠标在某一文档中点取一个图标,Internet就会马上转到与此图标相关的内容上去,而这些信息可能存放在网络的另一台电脑中。HTML文本是由 HTML命令组成的描述性文本,HTML 命令可以说明文字、 图形、动画、声音、表格、链接等。 HTML的结构包括头部 (Head)、主体 (Body) 两大部分。头部描述浏览器所需的信息,主体包含所要说明的具体内容。

HTTP协议(Hypertext Transfer Protocol,超文本传输协议)是用于从WWW服务器传输超文本到本地浏览器的传送协议。它可以使浏览器更加高效,使网络传输减少。它不仅保证计算机正确快速地传输超文本文档,还确定传输文档中的哪一部分,以及哪部分内容首先显示(如文本先于图形)等。超文本传输协议(HTTP)是一种为分布式,合作式,多媒体信息系统服务,面向应用层的协议。它是一种通用的,不分状态(stateless)的协议,除了诸如名称服务和分布对象管理系统之类的超文本用途外,还可以通过扩展它的请求方式,错误代码和报头[47]来完成许多任务。HTTP的一个特点是数据表示方式的典型性和可协商性允许独立于传输数据而建立系统。

9.信息检索模型;

上一页  [1] [2] [3] [4] [5]  下一页


Tag:笔试经验德勤笔试经验,银行笔试经验求职笔试面试 - 笔试经验
【字号: 】 【打印】 【关闭
下一条:阿里巴巴笔试
最新更新
推荐热门
联系我们 | 网站地图 | 财务资料 | 范文大全 | 求职简历 | 财会考试 | 成功励志
Copyright 二六求职资料网 All Right Reserved.
1 2 3 4 5 6 7 8 9 10