ES | Kalyan的小书房

分词操作个人理解就是在做一个表来记录term和id的关系，可能会再存储一大段信息的时候会出现一定时间的延迟创建。

优化，先按字典序排序通过二分查找来找到词项。

Term dictionary过大所以不可能会放在内存里面，但是放在磁盘里面，搜索过程又会很慢。

每一个词项会有相似的地方，那么把这些相似的地方拎出来进行复用，然后就能构建出一个目录树的结构，进行偏移量的辅助指向后续拼接的term。感觉有一点像计算机的存储方式结构。

通过index能够找到term的大概位置，通过少量的检索找到target.

存放完整文档内容，行式存储结构

空间换时间，把形同的字段归纳在一起，列式存储结构。

具备完整搜索功能的最小单元

因为segment结构特殊，若是有数据写入，则需要刷新整个segment架构的所有信息。这样读取和写入若是并行的话，性能会大量降低。因此为了规避这个风险，所以不允许新的信息写入segment，所以只能生成新的segment，那么问题就来了，我怎么知道我要取的信息在哪个Segment里面呢。
为了解决上面的问题，所以需要程序进行并发读取，但是随着数据量过大，并发读取的任务就会变得很重。导致文件句柄耗尽。
为了解决句柄消耗严重的问题引出了段合并，segment merging，这个功能就是解决了segment过多的问题，是用来把小一点的segment合并成一个大的segment。和前面的不允许新的信息写入是不冲突的。

到这里都还没有解释到lucene，综合上面多个segment组成的一个单机文本检索库，这个就是一个有名的开源基础搜索库Lucene