教程:使用ILM自动滚动更新

edit

教程:使用ILM自动化滚动更新

edit

当您持续将带有时间戳的文档索引到Elasticsearch中时,通常会使用一个数据流,以便您可以定期滚动更新到一个新索引。这使您能够实现一个热-温-冷架构,以满足您对最新数据的性能要求,随着时间的推移控制成本,执行保留策略,并仍然充分利用您的数据。

数据流最适合用于 仅追加的用例。如果您需要更新或删除现有的时间序列数据,您可以直接在数据流支持的索引上执行更新或删除操作。 如果您经常使用相同的_id发送多个文档,期望最后写入胜出,您可能希望使用带有写索引的索引别名。您仍然可以使用ILM来管理和滚动更新 别名的索引。跳至不使用数据流管理时间序列数据

使用数据流管理时间序列数据

edit

要使用ILM自动滚动和管理数据流,您:

  1. 创建生命周期策略,定义适当的 阶段操作
  2. 创建索引模板创建数据流并 应用ILM策略以及支持索引的索引设置和映射配置。
  3. 验证索引是否按预期通过生命周期阶段

当您为Beats或Logstash Elasticsearch输出插件启用索引生命周期管理时,生命周期策略会自动设置。您不需要采取任何其他操作。您可以通过Kibana管理或ILM API修改默认策略。

创建生命周期策略

edit

生命周期策略指定了索引生命周期中的各个阶段以及在每个阶段要执行的操作。一个生命周期最多可以有五个阶段:冻结删除

例如,您可能定义一个timeseries_policy,它有两个阶段:

  • 一个hot阶段,定义了一个翻转操作,指定当索引达到50GB的max_primary_shard_size或30天的max_age时进行翻转。
  • 一个delete阶段,设置min_age在翻转后90天删除索引。

The min_age value is relative to the rollover time, not the index creation time. 了解更多.

您可以通过 Kibana 或使用 创建或更新策略 API 来创建策略。 要从 Kibana 创建策略,请打开菜单并转到 堆栈管理 > 索引生命周期策略。点击 创建策略

Create policy page
API示例
PUT _ilm/policy/timeseries_policy
{
  "policy": {
    "phases": {
      "hot": {                                
        "actions": {
          "rollover": {
            "max_primary_shard_size": "50GB", 
            "max_age": "30d"
          }
        }
      },
      "delete": {
        "min_age": "90d",                     
        "actions": {
          "delete": {}                        
        }
      }
    }
  }
}

The min_age 默认值为 0ms,因此新索引会立即进入 hot 阶段。

当满足任一条件时,触发滚动操作。

将索引在滚动后的90天内移入删除阶段。

当索引进入删除阶段时触发delete操作。

创建索引模板以创建数据流并应用生命周期策略

edit

要设置数据流,首先创建一个索引模板以指定生命周期策略。因为该模板用于数据流,所以它还必须包含一个data_stream定义。

例如,您可以创建一个 timeseries_template 用于未来的数据流,命名为 timeseries

为了使ILM管理数据流,模板配置了一个ILM设置:

  • index.lifecycle.name 指定应用于数据流的生命周期策略的名称。

您可以使用 Kibana 创建模板向导来添加模板。在 Kibana 中,打开菜单并转到 堆栈管理 > 索引管理。在 索引模板 选项卡中,点击 创建模板

Create template page

此向导调用 创建或更新索引模板 API 来创建具有您指定选项的索引模板。

API示例
PUT _index_template/timeseries_template
{
  "index_patterns": ["timeseries"],                   
  "data_stream": { },
  "template": {
    "settings": {
      "number_of_shards": 1,
      "number_of_replicas": 1,
      "index.lifecycle.name": "timeseries_policy"     
    }
  }
}

在文档被索引到timeseries目标时应用模板。

用于管理数据流的ILM策略的名称。

创建数据流

edit

要开始使用,请将文档索引到在索引模板index_patterns中定义的名称或通配符模式中。只要现有的数据流、索引或索引别名尚未使用该名称,索引请求就会自动创建一个具有单个后备索引的相应数据流。Elasticsearch会自动将请求的文档索引到这个后备索引中,该索引也充当流的写入索引

例如,以下请求创建了timeseries数据流和第一个代后备索引,名为.ds-timeseries-2099.03.08-000001

POST timeseries/_doc
{
  "message": "logged the request",
  "@timestamp": "1591890611"
}

当生命周期策略中的滚动条件满足时,滚动操作:

  • 创建第二代后备索引,命名为 .ds-timeseries-2099.03.08-000002。因为它是一个 timeseries 数据流的后备索引,所以来自 timeseries_template 索引模板的配置被应用到新索引中。
  • 由于它是 timeseries 数据流的最新一代索引,新创建的后备索引 .ds-timeseries-2099.03.08-000002 成为数据流的写入索引。

每当满足滚动更新条件时,此过程都会重复。 您可以使用timeseries_policy管理的数据流名称timeseries,搜索所有数据流的后备索引。 写操作应发送到数据流名称,该名称会将它们路由到其当前的写索引。 对数据流的读操作将由其所有后备索引处理。

检查生命周期进度

edit

要获取托管索引的状态信息,您可以使用 ILM explain API。 这使您能够了解诸如:

  • 索引所处的阶段以及何时进入该阶段。
  • 当前的操作以及正在执行的步骤。
  • 是否发生了任何错误或进度是否被阻塞。

例如,以下请求获取关于 timeseries 数据流的备份索引的信息:

GET .ds-timeseries-*/_ilm/explain

以下响应显示数据流的第一个生成后备索引正在等待阶段的滚动更新操作。 它保持在此状态,ILM继续调用检查-滚动更新-就绪,直到满足滚动更新条件。

{
  "indices": {
    ".ds-timeseries-2099.03.07-000001": {
      "index": ".ds-timeseries-2099.03.07-000001",
      "index_creation_date_millis": 1538475653281,
      "time_since_index_creation": "30s",        
      "managed": true,
      "policy": "timeseries_policy",             
      "lifecycle_date_millis": 1538475653281,
      "age": "30s",                              
      "phase": "hot",
      "phase_time_millis": 1538475653317,
      "action": "rollover",
      "action_time_millis": 1538475653317,
      "step": "check-rollover-ready",            
      "step_time_millis": 1538475653317,
      "phase_execution": {
        "policy": "timeseries_policy",
        "phase_definition": {                    
          "min_age": "0ms",
          "actions": {
            "rollover": {
              "max_primary_shard_size": "50gb",
              "max_age": "30d"
            }
          }
        },
        "version": 1,
        "modified_date_in_millis": 1539609701576
      }
    }
  }
}

用于计算何时通过max_age滚动索引的索引年龄

用于管理索引的策略

用于过渡到下一阶段的索引的年龄(在这种情况下,它与索引的年龄相同)。

ILM 正在对索引执行的步骤

当前阶段的定义(阶段)

管理时间序列数据而不使用数据流

edit

尽管数据流是扩展和管理时间序列数据的便捷方式,但它们被设计为仅支持追加操作。我们认识到可能存在需要就地更新或删除数据的使用场景,而数据流本身不直接支持删除和更新请求,因此需要直接在数据流的底层索引上使用索引API。在这些情况下,我们仍然建议使用数据流。

如果你经常使用相同的_id发送多个文档,期望最后写入胜出,你可以使用索引别名而不是数据流来管理包含时间序列数据的索引,并定期滚动到新索引。

要使用索引别名通过ILM自动滚动和管理时间序列索引,您:

  1. 创建一个定义适当阶段和操作的生命周期策略。 参见创建生命周期策略
  2. 创建索引模板以将策略应用于每个新索引。
  3. 引导索引作为初始写入索引。
  4. 验证索引是否按预期通过生命周期阶段

创建索引模板以应用生命周期策略

edit

要在滚动更新时自动将生命周期策略应用于新的写入索引,请在用于创建新索引的索引模板中指定该策略。

例如,您可以创建一个 timeseries_template,该模板应用于名称匹配 timeseries-* 索引模式的新索引。

要启用自动滚动更新,模板配置了两个ILM设置:

  • index.lifecycle.name 指定应用于与索引模式匹配的新索引的生命周期策略的名称。
  • index.lifecycle.rollover_alias 指定在触发索引的滚动操作时要滚动的索引别名。

您可以使用 Kibana 创建模板向导来添加模板。要访问向导,请打开菜单并转到 堆栈管理 > 索引管理。在 索引模板 选项卡中,点击 创建模板

创建模板页面

创建示例模板的请求如下所示:

PUT _index_template/timeseries_template
{
  "index_patterns": ["timeseries-*"],                 
  "template": {
    "settings": {
      "number_of_shards": 1,
      "number_of_replicas": 1,
      "index.lifecycle.name": "timeseries_policy",      
      "index.lifecycle.rollover_alias": "timeseries"    
    }
  }
}

如果新索引的名称以 timeseries- 开头,则应用该模板。

应用于每个新索引的生命周期策略的名称。

用于引用这些索引的别名的名称。 对于使用滚动操作的策略是必需的。

使用写入索引别名引导初始时间序列索引

edit

要开始操作,您需要引导初始索引并将其指定为索引模板中指定的滚动别名的写索引。此索引的名称必须与模板的索引模式匹配,并以数字结尾。在滚动时,此值递增以生成新索引的名称。

例如,以下请求创建一个名为 timeseries-000001 的索引,并将其设置为 timeseries 别名的写入索引。

PUT timeseries-000001
{
  "aliases": {
    "timeseries": {
      "is_write_index": true
    }
  }
}

当满足滚动条件时,滚动操作:

  • 创建一个名为 timeseries-000002 的新索引。 这匹配 timeseries-* 模式,因此 timeseries_template 中的设置会应用于新索引。
  • 指定新索引为写入索引,并将引导索引设为只读。

此过程在每次满足滚动更新条件时重复。 您可以使用timeseries别名搜索由timeseries_policy管理的所有索引。 写操作应发送到别名,别名会将它们路由到当前的写索引。

检查生命周期进度

edit

检索托管索引的状态信息与数据流的情况非常相似。 有关更多信息,请参阅数据流的检查进度部分。 唯一的区别是索引命名空间,因此检索进度将涉及以下 api调用:

GET timeseries-*/_ilm/explain