Mappings in Elasticsearch

虽然都是基于Lucene,Elasticsearch默认运行使用时,是不需要像Solr一样配置索引字段文件的,从开发者角度来看数据结构很灵活,只需要向数据库提交任意格式的JSON就行了,实际上,Elasticsearh对Lucene的索引文档映射进行了封装,每次提交时都是在原有数据结构上检查并增加,而且,并不是所有的数据结构改变都能对后续数据生效。这样一来,需要对数据结构进行更多灵活控制时,Elaticsearch远远比Solr复杂。这篇文章将给大家介绍在Elasticsearch中Mappings的主要类型和工作原理,以及如何使用Shell和API进行操作。

Elasticsearch的Mappings分为两种类型,索引文件(index)的根级别Mapping、文档类型(type)级别的Mapping,类型Mapping下又分为预置默认的Fields和自定义源(source)的Fields.

Index Mapping

根级别的Mapping会被此索引文件下所有的文档继承,在操作中,使用 “default“ 来识别。在创建Index时,可以同时创建默认的Mapping,注意的是,这个级别的Mapping只能在创建索引时指定才会生效。

curl -XPOST localhost:9200/myindex -d '{
    "mappings" : {
        "_default_" : {
            "_source" : { "enabled" : false }
        }
    }
}'
使用JavaScript API创建默认Mapping
client.indices.create({
    index: "myindex"
}).then(function(body){
    var mapping = {
        "_default_": {
            "_source": { "enabled": "false" }
        }
    };
    client.indices.putMapping({
        index: "myindex",
        body: mapping
    }).then(function(body){
        console.log("created");
    });
});
查询定义的Mapping
http://localhost:9200/_mapping?pretty
可以看到输出
"myindex" : {
  "mappings" : {
    "_default_" : {
      "_source" : { "enabled" : false }
    }
  }
}

Type Mapping : Default Fields

默认的映射字段的命名都是以下划线开始,具体可以参考Elasticsearch Fields文档。需要特别提到的是_timestamp字段,它可以为每个索引文档自动创建时间戳,但默认这个字段并未启用,在MongoDB中,ID其实就是TimeStamp,看来Elasticsearch不是很重视时间序列。

如果需要启用_timestamp,必须在创建索引时指定Mapping,否则,即使以后更改,新的数据也是无法加上时间戳的。下面为索引中所有文档类型启用时间戳:

curl -XPOST localhost:9200/myindex -d '{
    "mappings" : {
        "_default_" : {
            "_timestamp" : { "enabled" : true, "store" : true }
        }
    }
}'
其中的 "store" : true,如果对Lucene或Solr比较熟悉应该不陌生,启用store后索引文件中会保存原始值,如果只作查询范围不需要显示的话,可以让它保持默认值false. 如果只需要为某个文档类型启用_timestamp,将上面的 "_default_" 改为文档类型名称即可,但依然需要在创建第一个文档之前指定。
client.indices.create({
    index: "myindex"
}).then(function(body){
    var mapping = {
        "mydoc": {
            "_timestamp": { "enabled": "true", "store": "true" }
        }
    };
    client.indices.putMapping({
        index: "myindex",
        type: "mydoc",
        body: mapping
    }).then(function(body){
        console.log("created");
    });
});
查询指定文档的Mapping
http://localhost:9200/myindex/mydoc/_mapping?pretty
"myindex" : {
  "mappings" : {
    "mydoc" : {
      "_timestamp" : {
          "enabled" : true,
          "store" : true
        },
      "properties" : { }
    }
  }
}
对于默认的字段,也需要在索引时指定其值,否则无法创建索引文档。
client.index({
    index: 'myindex',
    type: 'mydoc',
    timestamp: new Date(),
    body: req.body
}).then(function (body) {
    res.send(200, "ok");
}, function (error) { });
查询_timestamp时需要在fileds中指定
http://localhost:9200/myindex/mydoc/1?pretty=1&fields=_source,_timestamp
默认类型是long
{
  "_index" : "myindex",
  "_type" : "mydoc",
  "_id" : 1,
  "_version" : 1,
  "found" : true,
  "_source":{ },
  "fields" : {
    "_timestamp" : 1412329642820
  }
}

Type Mapping : Custom Fields

自定义字段其实是全部放置在默认字段_source中的,在Mappings对应的是Properties节点。这类字段可以在任何时间进行更新,Elasticsearch可以处理类型冲突和合并。

$ curl -XPUT ‘http://localhost:9200/myindex/mydoc/_mapping' -d ‘
{
“mydoc” : {
“properties” : {
“message” : {“type” : “string”, “store” : true }
}
}
}

从这里我们可以看到,在数据结构上,即使是最灵活的Elasticsearch,也是需要预先对索引和文档类型级别的字段进行设计和定义,合并字段时是否需要重新索引,我并没有测试过,这点似乎还不及MongoDB的文档结构灵活。

© 2018 Silent River All Rights Reserved. 本站访客数人次 本站总访问量
Theme by hiero