阿里巴巴笔试记_笔试经验

阿里巴巴笔试记,标签：德勤笔试经验,银行笔试经验,http://www.qz26.com

　　UTF-8是UNICODE的一种变长字符编码，由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码UNICODE字符。如果UNICODE字符由2个字节表示，则编码成UTF-8很可能需要3个字节，而如果UNICODE字符由4个字节表示，则编码成UTF-8可能需要6个字节。用4个或6个字节去编码一个UNICODE字符可能太多了，但很少会遇到那样的UNICODE字符

4.数据库检索：查准率和查全率；

查全率与查准率是评价检索效果的两项重要指标。

查全率是指系统在进行某一检索时，检出的相关文献量与系统文献库中相关文献总量的比率，它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。

查全率=[检出相关文献量/文献库内相关文献总量]×100%

查准率是指系统在进行某一检索时，检出的相关文献量与检出文献总量的比率，它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。

查准率=[检出相关文献量/检出文献总量]×100%

通过对查准率和查全率的概念分析,得到了定性的结论:查全率依赖于查准率,查准率的提高有利于查全率的提高。通过对两者间关系的数学推导,得到了查准率和查全率之间一般性的定量关系。

5.索引压缩

建立索引是搜索引擎核心技术之一，建立索引的目的是能够快速的响应用户的查询。搜索引擎最常用的索引数据结构是倒排文档，倒排文档的原理其实相当简单。为什么要进行索引压缩？对索引进行压缩有很多好处：比如可以减少索引占用的磁盘空间和内存；比如可以减少I/O读写量；比如可以查询响应速度加快；为了能够增加压缩效果，一般在进行压缩前先改写索引内容，首先把倒排索引的数值按照大小排序，然后用差值而非实际值表示（d-gap)；这个是每个压缩算法开展前要做的工作；目前的压缩方法可以分为固定长度的和变长压缩。

具体说是将索引编码（落实到机器中应该是MD5哈希值）以一种压缩的方式来表示，既利于节省存储空间，又可以提高检索速度。其实，我觉得这个东西最大的好处还是节约“缓存空间”，提高访问速度。采用索引压缩能够带来很多好处，所以实用的搜索引擎都会采用索引压缩技术，但是对索引进行压缩也会带来问题，就是比不压缩需要更多的计算量.

6.设计cralwer

www.qz26.com

搜索引擎的工作整体上可分为三个部分，在第一阶段，Crawler开始“爬行”页面，获取最原始信息，Crawler是一段小程序，它通过初始地址，访问页面，分析出页面内部包括的链接，将链接传送给Crawler控制模块，Crawler控制模块判断哪些链接对应的页面是下一步需要访问的，哪一些是已经被访问过的，从而指示Crawler进行下一步“爬行”；另一方面，Crawler将获取到的Web页面传送到页面数据存储库（Page Repository）中，临时存储起来。第二阶段，索引器将库中存储的页面进行解析，根据索引构建原则创建索引，并将索引存储到索引库中，另外，在一些基于页面链接对页面进行排名的搜索引擎系统中，链接分析与页面排名的确定也在这个阶段完成。第三阶段，检索引擎处理用户的搜索请求，找出相关页面文档，并根据页面排名高低，按顺序将结果返回给用户。三个阶段并行协同工作，维持搜索引擎的正常运转

爬行器技术：爬行器（Crawler，Spider）又叫“爬虫”、“蜘蛛”，工作在搜索引擎的最前端，是搜索引擎中最关键的部分之一，它的性能好坏直接影响到搜索引擎对于页面信息的采集与更新。 Internet上的网页可以通过链接进行互访，这使得Crawler可以从初始URL出发，沿着链接导向，遍历Internet上整体网页构成的连通图。即使整体页面构成的图不是完全连通的，也可以将Internet上的页面集合看成是一个个连通的子图构成的，多个Crawler选择合理的起点，顺着页面链接进行爬行，也能遍历完整个图。考虑到网络上Web页面的数量非常庞大，设计一个性能良好的爬行器需要考虑以下4个问题[10]： 1．应下载哪些页面？在多数情况下，Crawler并不下载Web上的所有页面，即使是最复杂的搜索引擎，其索引库中能检索到的页面也只占整个Web总页面的一小部分。所以，Crawler优先选择最“重要”的页面进行下载非常重要，以保证下载的部分更有价值。 2．如何更新页面？一旦Crawler下载了大量的页面，它会周期性的访问原始页面地址，看其是否是更新过的。Web上的页面内容可能变化非常快，Crawler必须决定以不同的频率访问不同的页面。

上一页 [1] [2] [3] [4] [5] 下一页

Tag:笔试经验，德勤笔试经验,银行笔试经验，求职笔试面试 - 笔试经验