Elasticsearch索引

发布：2023/1/13 16:59:39作者：管理员来源：本站浏览次数：643

ElasticSearch是文档型数据库，索引（Index）定义了文档的逻辑存储和字段类型，每个索引可以包含多个文档类型，文档类型是文档的集合，文档以索引定义的逻辑存储模型，比如，指定分片和副本的数量，配置刷新频率，分配分析器等，存储在索引中的海量文档分布式存储在ElasticSearch集群中。

ElasticSearch是基于Lucene框架的全文搜索引擎，将所有文档的信息写入到倒排索引（Inverted Index）的数据结构中，倒排索引建立的是索引中词和文档之间的映射关系，在倒排索引中，数据是面向词（Term）而不是面向文档的。

ElasticSearch的对象模型，跟关系型数据库模型相比：

   索引（Index）：相当于数据库，用于定义文档类型的存储；在同一个索引中，同一个字段只能定义一个数据类型；

   文档类型（Type）：相当于关系表，用于描述文档中的各个字段的定义；不同的文档类型，能够存储不同的字段，服务于不同的查询请求；

   文档（Document）：相当于关系表的数据行，存储数据的载体，包含一个或多个存有数据的字段；

       字段（Field）：文档的一个Key/Value对；

       词（Term）：表示文本中的一个单词；

       标记（Token）：表示在字段中出现的词，由该词的文本、偏移量（开始和结束）以及类型组成；

索引是由段（Segment）组成的，段存储在硬盘（Disk）文件中，段不是实时更新的，这意味着，段在写入磁盘后，就不再被更新。ElasticSearch引擎把被删除的文档的信息存储在一个单独的文件中，在搜索数据时，ElasticSearch引擎首先从段中查询，再从查询结果中过滤被删除的文档，这意味着，段中存储着“被删除”的文档，这使得段中含有”正常文档“的密度降低。多个段可以通过段合并（Segment Merge）操作把“已删除”的文档将从段中物理删除，把未删除的文档合并到一个新段中，新段中没有”已删除文档“，因此，段合并操作能够提高索引的查找速度，但段合并是IO密集型的操作，需要消耗大量的硬盘IO。

一，创建索引

在创建索引之前，首先了解RESTful API的调用风格，在管理和使用ElasticSearch服务时，常用的HTTP动词有下面五个：

   GET 请求：获取服务器中的对象

       相当于SQL的Select命令

       GET /blogs：列出所有博客

   POST 请求：在服务器上更新对象

       相当于SQL的Update命令

       POST /blogs/ID：更新指定的博客

   PUT 请求：在服务器上创建对象

       相当于SQL的Create命令

       PUT /blogs/ID：新建一个博客

   DELETE 请求：删除服务器中的对象

       相当于SQL的Delete命令

       DELETE /blogs/ID：删除指定的博客

   HEAD 请求：仅仅用于获取对象的基础信息

1，禁用自动创建索引

推荐设置：在全局配置文件 elasticsearch.yml 中，禁用自动创建索引：

action.auto_create_index:false

2，手动创建索引

创建索引的语法是：PUT http://host:port/index_name/ + index_configuration

其中，index_name是创建的索引的名字，indiex_configuration 是向ElasticSearch服务器传递的请求负载的主体，数据格式是json，用于定义索引的配置信息：映射节（mappings）和配置节（settings）。

在创建索引时，需要精心设计索引的映射节（mappings）和配置节（settings），本例创建blog索引和articles文档类型，创建索引的语法是：

PUT http://localhost:9200/blog/

下文详细介绍ElasticSearch索引的映射（Mapping）配置，详细信息请参考《Elasticsearch Reference [2.4] » Mapping》。注意，ElasticSearch引擎是大小写敏感的，强制性要求索引名和文档类型小写，对于字段名，ElasticSearch引擎会将首字母小写，建议在配置索引，文档类型和字段名时，都使用小写字母。

二，索引映射节（mappings）

1，索引结构

索引是由文档类型构成的，在mappings字段中定义索引的文档类型，示例代码中为blog索引定义了三个文档类型：articles，followers和comments

{

"mappings":{

     "articles":{ },

     "followers":{ },

     "comments":{ }

}

}

2，文档属性

文档属性定义了文档类型的共用属性，适用于文档的所有字段:

   dynamic_date_formats属性：该属性定义可以识别的日期格式列表；

   dynamic属性：默认值为true，允许动态地向文档类型中加入新的字段。推荐设置为false，禁止向文档中添加字段，这样，文档类型的所有字段必须在索引映射的properties属性中显式定义，在properties字段中未定义的字段都将会ElasticSearch忽略。

       dynamic设置为ture：默认值，新增加的字段被添加到索引映射中；

       dynamic设置为false：新增加的字段会被忽略；

       dynamic设置为strict：当向文档中新增字段时，ElasticSearch引擎抛出异常；

{

"mappings":{

     "articles":{ "dynamic":false,

        "dynamic_date_formats":["yyyy-MM-dd hh:mm:ss", "yyyy-MM-dd" ],

        "properties":{

           "id":{},

           "title":{},

           "author":{},

           "content":{},

           "postedat":{}

        }

     }

}

}

三，文档的字段属性

1，字段的数据类型

字段的数据类型由字段的属性type指定，ElasticSearch支持的基础数据类型主要有：

   字符串类型：string；

   数值类型：字节（byte）、2字节（short）、4字节（integer）、8字节（long）、float、double；

   布尔类型：boolean，值是true或false；

   时间/日期类型：date，用于存储日期和时间；

   二进制类型：binary；

   IP地址类型：ip，以字符串形式存储IPv4地址；

   特殊数据类型：token_count，用于存储索引的字数信息

在文档类型的properties属性中，定义字段的type属性，指定字段的数据类型，属性properties 用于定义文档类型的字段属性，或字段对象的属性：

"properties":{

           "id":{"type":"long"},

2，字段的公共属性

   index：该属性控制字段是否编入索引被搜索，该属性共有三个有效值：analyzed、no和not_analyzed：

       analyzed：表示该字段被分析，编入索引，产生的token能被搜索到；

       not_analyzed：表示该字段不会被分析，使用原始值编入索引，在索引中作为单个词；

       no：不编入索引，无法搜索该字段；

       其中analyzed是分析，分解的意思，默认值是analyzed，表示将该字段编入索引，以供搜索。

   store：指定是否将字段的原始值写入索引，默认值是no，字段值被分析，能够被搜索，但是，字段值不会存储，这意味着，该字段能够被查询，但是不会存储字段的原始值。

   boost：字段级别的助推，默认值是1，定义了字段在文档中的重要性/权重；

   include_in_all：该属性指定当前字段是否包括在_all字段中，默认值是ture，所有的字段都会包含_all字段中；如果index=no，那么属性include_in_all无效，这意味着当前字段无法包含在_all字段中。

   copy_to：该属性指定一个字段名称，ElasticSearch引擎将当前字段的值复制到该属性指定的字段中；

   doc_values：文档值是存储在硬盘上的索引时（indexing time）数据结构，对于not_analyzed字段，默认值是true，analyzed string字段不支持文档值;

   fielddata：字段数据是存储在内存中的查询时（querying time）数据结构，只支持analyzed string字段；

   null_value：该属性指定一个值，当字段的值为NULL时，该字段使用null_value代替NULL值；在ElasticSearch中，NULL 值不能被索引和搜索，当一个字段设置为NULL值，ElasticSearch引擎认为该字段没有任何值，使用该属性为NULL字段设置一个指定的值，使该字段能够被索引和搜索。

3，字符串类型常用的其他属性

   analyzer：该属性定义用于建立索引和搜索的分析器名称，默认值是全局定义的分析器名称，该属性可以引用在配置结点（settings）中自定义的分析器；

   search_analyzer：该属性定义的分析器，用于处理发送到特定字段的查询字符串；

   ignore_above：该属性指定一个整数值，当字符串字段（analyzed string field）的字节数量大于该数值之后，超过长度的部分字符数据将不能被analyzer处理，不能被编入索引；对于 not analyzed string字段，超过长度的部分字符将被忽略，不会被编入索引。默认值是0，禁用该属性；

   position_increment_gap：该属性指定在相同词的位置上增加的gap，默认值是100；

   index_options：索引选项控制添加到倒排索引（Inverted Index）的信息，这些信息用于搜索（Search）和高亮显示：

       docs：只索引文档编号(Doc Number)

       freqs：索引文档编号和词频率（term frequency）

       positions：索引文档编号，词频率和词位置（序号）

       offsets：索引文档编号，词频率，词偏移量（开始和结束位置）和词位置（序号）

       默认情况下，被分析的字符串（analyzed string）字段使用positions，其他字段使用docs;

分析器（analyzer）把analyzed string 字段的值，转换成标记流（Token stream），例如，字符串"The quick Brown Foxes"，可能被分解成的标记（Token）是：quick,brown,fox。这些词（term）是该字段的索引值，这使用对索引文本的查找更有效率。字段的属性 analyzer 用于指定在index-time和search-time时，ElasticSearch引擎分解字段值的分析器名称。

4，数值类型的其他属性

   precision_step：该属性指定为数值字段每个值生成的term数量，值越低，产生的term数量越高，范围查询越快，索引越大，默认值是4；

   ignore_malformed：忽略格式错误的数值，默认值是false，不忽略错误格式，对整个文档不处理，并且抛出异常；

   coerce：默认值是true，尝试将字符串转换为数值，如果字段类型是整数，那么将小数取整；

5，日期类型的其他属性

   format：指定日期的格式，例如：“yyyy-MM-dd hh:mm:ss”

   precision_step：该属性指定数值字段每隔多少数值，生成一个词（term）；step值越低，产生的词数量越高，范围查询越快，索引越大，占用存储空间越大；

   ignore_malformed：忽略错误格式，默认值是false，不忽略错误格式；

6，多字段（fields）

在fields属性中定义一个或多个字段，该字段的值和当前字段值相同，可以设置一个字段用于搜索，一个字段用于排序等。

"properties":

{

   "id":{ "type":"long",

        "fields":{ "id2":{"type":"long","index":"not_analyzed"} }

     },

7，文档值（doc_values）

默认情况下，多数字段都被一起编入索引，用户使用倒排索引（Inverted Index）可以搜索到相应的词（Term），倒排索引支持在唯一的有序词列表中查找特定词，或检查文档中是否包含某个词，但是，对于排序（Sort），聚合和在脚本中访问特定字段的值（Field value)，这三个操作需要执行不同的数据访问模式，即单字段数据访问：在文档中查找特定的字段，检查该字段是否包含指定的词。

文档值（doc_values）属性指定将字段的值写入到硬盘上的列式结构，实现了单个字段的数据访问模式，能够高效执行排序和聚合搜索。使用文档值的字段将有专属的字段数据缓存实例，无需像普通字段一样倒排。是存储在硬盘上的数据结构，在文档索引时创建。文档值数据存在硬盘上，在文档索引时创建，存储的数据和字段存储在_source 字段的数据相同，文档值支持所有的字段类型，除了analyzed string 字段之外。

默认情况下，所有的字段都支持文档值，默认是启用的（enabled），如果不需要在单个字段上执行排序或聚合操作，或者从脚本中访问指定字段的值，那么，可以禁用文档值，字段的值将不会存储在硬盘空间中。

"properties": {

   "status_code": {

       "type":       "string",

       "index":      "not_analyzed"

       "doc_values": true

   },

   "session_id": {

       "type":       "string",

       "index":      "not_analyzed",

       "doc_values": false

   }

}

8，字段数据（Fielddata）

字段数据（Fielddata）是存储在内存中的查询时数据结构，只支持analyzed string字段。该数据结构在字段第一次执行聚合，排序或被脚本访问时创建。创建的过程是：在读取整个倒排索引（Inverted Index）时，ElasticSearch从硬盘上加载倒排索引的每个段（Segment），倒转词（Term）和文档的关系，并将其存储在JVM堆内存中。加载字段数据的过程是非常消耗IO资源的，一旦被加载，就被存储在内存中，直到段的生命周期结束。

对于analyzed string字段，fielddata字段是默认启用的，

"text":{

"type":"string",

"fielddata":{ "loading":"lazy"

}

}

详细信息，请参考Mapping parameters » fielddata

Analyzed strings use a query-time data structure called fielddata. This data structure is built on demand the first time that a field is used for aggregations, sorting, or is accessed in a script. It is built by reading the entire inverted index for each segment from disk, inverting the term ↔︎ document relationship, and storing the result in memory, in the JVM heap.

9，存储（store）

存储（store）属性指定是否将字段的原始值写入索引，默认值是no，字段值被分析，能够被搜索，但是，字段的原始值不会存储，这意味着，该字段能够被查询，但是无法获取字段的原始值。默认情况下，该字段的值会被存储到_source字段中，如果想要获取单个或多个字段的值，而不是整个_source字段，可以使用 source filtering 来实现；但是在特定的条件下，只存储一个字段的值是有意义的（make sense），例如，一个article文档包含：title，postdate和content字段，从文档中只获取title和postdate字段，并且使_source 字段包含content字段，必须通过store属性来控制：

"mappings": {

   "my_type": {

     "properties": {

       "title": {

         "type": "string",

         "store": true

       },

       "date": {

         "type": "date",

         "store": true

       },

       "content": {

         "type": "string",

         "store": false

       }

     }

   }

}

10，位置增加间隔（position_increment_gap）

对于analyzed string字段，都会考虑把词的位置信息，用于支持位置和短语匹配查询（proximity or phrase queries），例如，有一个字符串字段，该字段中存在多个词“fake”，ElasticSearch引擎会在每个值之间增加一个gap，以防止短语匹配或位置匹配查询出现跨越多个词的异常，这个gap的值就是属性position_increment_gap，默认值是100；

四，元字段

在索引的映射中，元字段（Meta-field）是以下划线开头的字段，部分元字段可以配置，部分元字段不可配置，只能用于返回信息。

1，_all 字段，可以配置

ElasticSearch使用_all字段存储其他字段的数据以便搜索，默认情况下，_all字段是启用的，包含了索引中所有字段的数据，然而这一字段使索引变大，如果不需要，请禁用该字段，或排除某些字段。为了在_all字段中不包括某个特定字段，在字段中设置“include_in_all”属性为false。

禁用_all字段，需要修改映射配置：

{

"articles":{ "_all":{

        "enabled":false

     }

}

}

2，_source 字段，可以配置

_source字段表示在生成索引的过程中，存储发送到ElasticSearch的原始JSON文档，默认情况下，该字段会被启用，因为索引的局部更新功能依赖该字段。

{

"articles":{

     "_source":{

        "enabled":true

     }

}

}

{

"articles":{

     "_source":{

        "excludes":["Content","Comments"],

        "includes":["author"]

     }

}

}

3，_routing 字段，可以配置

路由字段，将一个文档值进行哈希映射，并将该文档路由到指定的分片，路由的公式是：

shard_num = hash(_routing) % num_primary_shards

在ElasticSearch 2.4 版本中，path参数被废弃，使用的默认字段是_id，设置required为true，表示路由字段在进行索引的CRUD操作时必需显式赋值。

{

"articles":{

     "_routing":{

        "required":true

     }

}

}

在put 命令中，使用自定义的路由字段，以下示例使用 user1字段作为路由字段更新和查询文档：

PUT my_index/my_type/1?routing=user1

{

"title": "This is a document"

}

GET my_index/my_type/1?routing=user1

4，不可配置的元字段

   _index：返回文档所属的索引

   _uid：返回文档的type和id

   _type：返回文档类型（type）

   _id：返回文档的ID；

   _size：返回文档的_source字段中函数的字节数量；

   _field_names：返回文档中不包含null值的字段名称；

详细信息，请参考：Mapping » Meta-Fields

五，索引配置节（settings）

1，配置索引的分片和副本数量

ElasticSearch索引是有一个或多个分片组成的，每个分片是索引的一个水平分区，包含了文档数据的一部分；每个分片有0，1或多个副本，分片的副本和分片存储相同的数据。

示例代码，为索引创建5个分片，分片没有副本：

"settings":{

   "number_of_shards":5,

   "number_of_replicas":0,

2，配置分析器（analyzer）

在配置结点的analysis属性中配置分析器，参考官方文档了解更多，

分词器（tokenizer）是系统预定义的，常用的分词器是：

   standard：默认值，用于大多数欧洲语言的标准分词器

   simple：基于非字母字符来分词，并将其转化为小写形式

   whitespace：基于空格来分词

   stop：除了simple的所有功能，还能基于停用词（stop words）过滤数据；

   pattern：使用正则表达式分词；

   snowball：除了standard提供的分词功能之外，还提供词干提取功能；

过滤器是系统预定义的，常用的过滤器是:

   asciifolding

   lowercase

   kstem

在配置结点中，自定义分析器（analyzer）示例代码：

{

"settings":{

     "index":{

        "analysis":{

           "analyzer":{

              "myanalyzer_name":{

                 "tokenizer":"standard",

                 "filter":[

                    "asciifolding",

                    "lowercase",

                    "ourEnglishFilter"

                 ]

              }

           },

           "filter":{

              "ourEnglishFilter":{

                 "type":"kstem"

              }

           }

        }

     }

}

}

六，删除索引

删除索引的语法是: DELETE http://localhost:9200/blog

七，更新索引

索引的更新分为逐个文档的更新和批量文档更新：

1，单个文档（Individual Document）的更新

单个文档更新的语法是：POST http://localhost:9200/blog/articles/1 +文档对象的JSON数据

POST http://localhost:9200/blog/articles/1

文档对象的JSON数据示例如下：

{

"id":1,

"title":"Elasticsearch index",

"Author":"悦光阴",

"content":"xxxxxxxxxxx",

"postedat":"2017-03-14"

}

2，批量文档的更新（Bluk）

批量文档更新的语法是：POST http://localhost:9200/_bulk + 批量文档对象的JSON数据，在_bulk 端进行批量更新操作。

在传递的请求主体中，每一个请求分为两个JSON数据，第一个JSON数据包含操作说明的描述信息，第二个JSON数据包含文档对象：

{

"index":{

     "_index":"blog",

     "_type":"ariticles",

     "_id":1

}

}

{

"id":1,

"title":"Elasticsearch index",

"Author":"悦光阴",

"content":"xxxxxxxxxxx",

"postedat":"2017-03-14"

}

{

"index":{

     "_index":"blog",

     "_type":"ariticles",

     "_id":2

}

}

{

"id":2,

"title":"Elasticsearch index",

"Author":"悦光阴",

"content":"xxxxxxxxxxx",

"postedat":"2017-03-14"

}

八，搜索索引

在_search端对索引数据进行搜索，ES查询的语法非常复杂，总体来说，ElasticSearch支持聚合查询和简单查询。

1，按照路由搜索

路由可以控制文档和查询转发的目的分片，ElasticSearch计算路由字段的哈希值，对于相同的路由值，将产生相同的哈希值，分配到特定的分片上；如果在查询时，指定路由值，那么只需要搜索单个分片而不是整个索引，就能获取查询结果。

路由字段由文档类型的_routing属性定义，在查询时，使用routing参数来查找特定路由的文档：

GET http://localhost:9200/blog/_search?routing=1235&q=article_id=100

2，聚合和简单查询

请阅读《ElasticSearch查询第一篇：搜索API》

附：索引的配置文档

{

"settings":{

     "number_of_shards":5,

     "number_of_replicas":0

},

"mappings":{

     "articles":{

        "_routing":{

           "required":false

        },

        "_all":{

           "enabled":false

        },

        "_source":{

           "enabled":true

        },

        "dynamic_date_formats":[

           "yyyy-MM-dd",

           "yyyyMMdd"

        ],

        "dynamic":"false",

        "properties":{

           "articleid":{

              "type":"long",

              "store":true,

              "index":"not_analyzed",

              "doc_values":true,

              "ignore_malformed":true,

              "include_in_all":true,

              "null_value":0,

              "precision_step":16

           },

           "title":{

              "type":"string",

              "store":true,

              "index":"analyzed",

              "doc_values":false,

              "ignore_above":0,

              "include_in_all":true,

              "index_options":"positions",

              "position_increment_gap":100,

              "fields":{

                 "title":{

                    "type":"string",

                    "store":true,

                    "index":"not_analyzed",

                    "doc_values":true,

                    "ignore_above":0,

                    "include_in_all":false,

                    "index_options":"docs",

                    "position_increment_gap":100

                 }

              }

           },

           "author":{

              "type":"string",

              "store":true,

              "index":"analyzed",

              "doc_values":false,

              "ignore_above":0,

              "include_in_all":true,

              "index_options":"positions",

              "position_increment_gap":100,

              "fields":{

                 "author":{

                    "type":"string",

                    "index":"not_analyzed",

                    "include_in_all":false,

                    "doc_values":true

                 }

              }

           },

           "content":{

              "type":"string",

              "store":true,

              "index":"analyzed",

              "doc_values":false,

              "ignore_above":0,

              "include_in_all":false,

              "index_options":"positions",

              "position_increment_gap":100

           },

           "postat":{

              "type":"date",

              "store":true,

              "doc_values":true,

              "format":[

                 "yyyy-MM-dd",

                 "yyyyMMdd"

              ],

              "index":"not_analyzed",

              "ignore_malformed":true,

              "include_in_all":true,

              "null_value":"2000-01-01",

              "precision_step":16

           }

        }

     }

}

}

在head插件中，打开"Any Request"窗体，输入索引名称：blog；在操作列表中选择PUT，并将配置文档作为请求body，点击下方的“Request”按钮，向Elasticsearch引擎发起请求，当右边面板中出现"acknowledged":true 时，说明索引blog创建成功。

在测试阶段，可以禁用路由(_routing)和_all字段，启用源(_source)字段，以便更好的观察索引的行为。

当启用dynamic属性时，推荐所有字段的名称都使用小写，

参考文档：

Elasticsearch Reference [2.4] » Mapping » Mapping parameters

Elasticsearch Reference [2.4] » Index Modules

Elasticsearch Reference [2.4] » Mapping

　在Windows下配置ElasticSearch集群

ElasticSearch使用C#添加和更新文档　

IntelliJ IDEA 入门上手使用教程什么是 IntelliJ IDEA？功能介绍 2022年1月版IntelliJ Idea报错Could not autowire. No beans of ‘userDetailsService' type found的错误 IntelliJ Idea --- 关闭自动更新 Intellij Idea下搭建基于Spring+SpringMvc+MyBatis的WebApi接口架构 Intellij IDEA 2021 Maven 配置指南 navicat for mysql 中文破解版（无需激活码） IntelliJ IDEA 2018激活码永久破解 Intellij Idea下搭建基于Spring+SpringMvc+MyBatis的WebApi接口架构

柏港建站平台

柏港 Elasticsearch

柏港为您推荐了一些相关资讯