sphinx索引分析续

news/2024/7/5 21:15:04 标签: 数据结构与算法

4.10 同义词文件/Synonym

from=>to
AT &T=>AT&T
AT & T=>AT & T
standarten fuehrer=>Standartenfuehrer
standarten fuhrer=>Standartenfuehrer
Ms-Dos=>MS-DOS
MS DOS=>MS-DOS

5 算法

5.1 字典

double array trie 检索树

5.2 分词算法

5.3 文档id压缩 – Variable Byte Coding

5.4 索引存储 – 多路归并排序

7 创建索引过程

  • 扫描配置文件。
  • 创建程序内部数据结构,schema, mva attr等。
  • 第一次遍历文档记录,连接数据库读取创建索引的记录。
  • 循环分词创建spa, spp文件(临时格式)(如果inline模式只创建spp文件), 如果非inplace模式,那么创建对应 tmp->spa, tmp->spp对应文件。
  • 第二次遍历文档记录,创建mva属性(非field mva attributes)。
  • 多路归并创建spm文件。
  • 更新并创建最终的spa文件,更新mva的位置信息到spa文件。
  • 读取临时格式的spp文件,多路归并创建spi,spd,spp文件。
  • 创建索引头文件sph。
  • 更新索引创建后的信息(例如存储当前已经简历索引的)释放资源

















本文转自张昺华-sky博客园博客,原文链接:http://www.cnblogs.com/bonelee/p/6251094.html ,如需转载请自行联系原作者


http://www.niftyadmin.cn/n/1823296.html

相关文章

upc 7831 Sticks

Sticks 时间限制: 1 Sec 内存限制: 128 MB提交: 26 解决: 4[提交] [状态] [讨论版] [命题人:admin]题目描述 George took sticks of the same length and cut them randomly until all parts became at most 50 units long. Now he wants to return sticks to the original s…

华为各系列数通网络产品介绍

华为各系列产品介绍Agile Controller-CampuseSightS系列交换机CE12800系列交换机WLANUSG系列防火墙AR系列路由器NE系列路由器Agile Controller-Campus Agile Controller-Campus是华为推出的新一代园区与分支网络控制器,支持网络部署自动化,策略自动化&a…

wps打印错误未定义书签怎么解决_wps书签_如何利用WPS书签来进行快速定位_wps书签怎么用_wps错误未定义书签...

如何利用WPS书签来进行快速定位我们在阅读文档的时候,遇到一些不重要的地方,往往都会跳过,直接去重要的地方看,获取自己想要的信息。这个时候要怎么办呢?当然,这时就需要用到书签功能了,它比一般的查找更加…

思科 catalyst系列产品

最早思科是只做路由器不做交换机,当时做交换机的厂商已经很多了,所以思科想进军交换机界就走了一条收购的道路,被收购的生产交换机的厂商叫catalyst,而且还保留他们自己的IOS,所以现在还是分Cisco IOS和Cisco catOS2种…

读源码Apache-commons-lang3-3.1(四)

1.StringUtils工具类的一些方法 isEmpty(CharSequence)判断字符序列是否为null,或者长度为0isBlank(CharSequence)判读字符序列是否为null,或者长度为0,或者为空字符trim(String)两种去除字符串前后空字符方法,各自有不同实现的 重载方法strip(String…

C#综合揭秘——细说事务(上)

引言 其实事务在数据层、服务层、业务逻辑层多处地方都会使用到,在本篇文章将会为大家一一细说。 前面三节是事务的基础,主要介绍事务的由来以及事务管理器的总体结构,分别讲述轻量级事务管理器(LTM)、核心事务管理器&…

给服务器mongodb设置权限_传奇服务器架设教程,传奇GM权限命令设置教程

记录一下今天是10月6日,距离新年还有85天,时间过得真快呀,希望未来的日子每天都是快乐,不要悲伤,也不要难过,微笑迎接每一天作为一个传奇GM,除了需要会架设传奇,还需要了解一些日常G…

【思科】某小型企业网组网案例-三层交换机划多VLAN与路由器相连,ACL控制访问权限

一、背景需求: 在一些带机量大的场景中,为避免网络中的广播风暴影响网络质量,某公司希望将内网进行广播域隔离,划分3个VLAN,同时需要 VLAN10 和 VLAN20 实现内网间互访,VLAN30 和 其他两个隔离&#xff0c…