Elasticsearch数据迁移与备份

from:http://logos.name/archives/515

虽然ES提供了replicas shards的机制来保证数据的完整性不会因为几个节点的奔溃而被破坏，但是定期的数据备份以备不时之需依然重要。此外，通过备份与恢复也可实现数据在不同集群间的迁移（直接复制data目录下的索引文件的做法我尝试过，但没有成功）。

备份的方式在官方文档里有清楚的交代：先创建仓库(repository)，再往仓库里添加一个快照(snapshot)，查看备份状态，搞定。虽然官方文档很轻描淡写，但我在第一步就卡住了，创建仓库时需要一个共享文件系统（每个ES节点都需要能访问），我只是想把数据从线上集群迁移到线下进行更全面的测试，为了这么点事去找系统部走流程等待共享服务器是多么头疼啊……

一阵Google之后，决定使用sshfs在ES集群中每个节点的相同位置挂载一个共享目录，以下是操作命令：

// 在每个节点上安装sshfs

yum install fuse sshfs

// 选定一个节点的一个目录作为共享目录（不要放在系统盘所在目录）

mkdir /data0/es_backup

// 在每个节点的相同位置创建目录，并挂载共享目录

mkdir /mnt/backup

sshfs root@192.168.x.x:/data0/es_backup /mnt/backup -o allow_other

// 测试运行ES的用户是否有对共享目录的写权限

sudo -u elasticsearch touch /mnt/backup/test

这里最大的坑是写权限问题，我试过在创建/mnt/backup时把owner改成elasticsearch或者在挂载的时候用-o uid= gid= 这样参数更改目录的owner，然并卵……折腾了一下午。最后总算在stack overflow找到了这个参数-o allow_other，但其实这样做比较粗鲁，机器上的任何用户都可以访问这个目录了，有更优雅实现方式的同学请赐教。

解决了共享目录的问题之后，就可以像官方文档一样轻描淡写啦：

// 在_plugin/marvel/sense里

// 创建仓库

PUT _snapshot/my_backup

{

    "type": "fs", 

    "settings": {

        "location": "/mnt/backup",

        "compress": true

}

}

// 针对具体的index创建快照备份

PUT _snapshot/my_backup/snapshot_test

{

    "indices": "index_1, index_2"

}

// 查看备份状态

GET _snapshot/my_backup/snapshot_test/_status

现在可以开始进行迁移了：

// 备份创建好之后，在共享目录/data0/es_backup里是这样的：

-rw-r--r-- 1 root root   31 12月 15 22:14 index

drwxr-xr-x 3 root root 4096 12月 15 22:14 indices

-rw-r--r-- 1 root root   83 12月 15 22:14 metadata-snapshot_test

-rw-r--r-- 1 root root  181 12月 15 22:14 snapshot-snapshot_test

// 在迁移目标的集群上重复上面创建仓库的操作

// 将源集群的备份内容（/data0/es_backup里的所有文件），复制到迁移目标的集群仓库目录里

// 在sense中使用RESTful API进行备份的恢复

POST _snapshot/my_backup/snapshot_test/_restore

// 查看恢复的状态

GET _snapshot/my_backup/snapshot_test/_status

以上就是参照官方文档实施的ES数据备份与迁移，希望对大家有帮助，欢迎留言与交流。

posted on 2016-08-27 10:26 小马歌阅读(447) 评论(0) 编辑收藏所属分类: 搜索/推荐系统

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: Elasticsearch数据迁移与备份大数据杂谈微课堂\|Elasticsearch 5.0新版本的特性与改进剖析Elasticsearch集群系列第二篇分布式的三个C、translog和Lucene段剖析Elasticsearch集群系列第三篇近实时搜索、深层分页问题和搜索相关性权衡之道剖析Elasticsearch集群系列第一篇 Elasticsearch的存储模型和读写操作非常的好的协同过滤入门文章(转载)

My Links

Blog Stats

留言簿(26)

随笔分类

文章分类

文章档案

博客连接

搜索

最新评论

阅读排行榜

评论排行榜

Elasticsearch数据迁移与备份