最新消息:

MongoDB的分片shard

IT技术 ipcpu 3330浏览

MongoDB的分片shard.md

一、分片概述

在MongoDB中,分片集群(sharded cluster)是一种水平扩展数据库系统性能的方法,能够将数据集分布式存储在不同的分片(shard)上,每个分片只保存数据集的一部分,MongoDB保证各个分片之间不会有重复的数据,所有分片保存的数据之和就是完整的数据集。分片集群将数据集分布式存储,能够将负载分摊到多个分片上,每个分片只负责读写一部分数据,充分利用了各个shard的系统资源,提高数据库系统的吞吐量。

从图中可以看到有四个组件:mongos、config server、shard、replica set。

mongos,数据库集群请求的入口,所有的请求都通过mongos进行协调,不需要在应用程序添加一个路由选择器,mongos自己就是一个请求分发中心,它负责把对应的数据请求请求转发到对应的shard服务器上。在生产环境通常有多mongos作为请求的入口,防止其中一个挂掉所有的mongodb请求都没有办法操作。

config server,顾名思义为配置服务器,存储所有数据库元信息(路由、分片)的配置。mongos本身没有物理存储分片服务器和数据路由信息,只是缓存在内存里,配置服务器则实际存储这些数据。mongos第一次启动或者关掉重启就会从 config server 加载配置信息,以后如果配置服务器信息变化会通知到所有的 mongos 更新自己的状态,这样 mongos 就能继续准确路由。在生产环境通常有多个config server 配置配置成副本集,防止数据丢失!

shard,分片(sharding)是指将数据库拆分,将其分散在不同的机器上的过程。将数据分散到不同的机器上,不需要功能强大的服务器就可以存储更多的数据和处理更大的负载。基本思想就是将集合切成小块,这些块分散到若干片里,每个片只负责总数据的一部分,最后通过一个均衡器来对各个分片进行均衡(数据迁移)。

replica set,中文翻译副本集,其实就是shard的备份,防止shard挂掉之后数据丢失。复制提供了数据的冗余备份,并在多个服务器上存储数据副本,提高了数据的可用性, 并可以保证数据的安全性。

二、分片环境的部署

准备三台服务器:192.168.1.101、192.168.1.102、192.168.1.103,规划如下,

192.168.1.101 192.168.1.102 192.168.1.103
mongos mongos mongos
config server config server config server
shard1 主节点 shard1 副节点 shard1 副节点
shard2 副节点 shard2 主节点 shard2 副节点
shard3 副节点 shard3 副节点 shard3 主节点

端口分配

mongos:27021
config:21020
shard1:27017
shard2:27018
shard3:27019

副本集的部署,我们上篇文章已经介绍过,这里不再详细讨论,我们需要在机器上部署shard1、shard2、shard3 三个副本集,并且将PRIMARY节点分散到3台机器上。

配置文件如下:

#start shell: numactl --interleave=all /usr/bin/mongod -f /etc/mongodb/shard1.conf --journal
systemLog:
 destination: file
 path: "/data/logs/mongodb/sahrd1.log"
 quiet: true
 logAppend: true
 timeStampFormat: iso8601-utc
storage:
 wiredTiger:
  engineConfig:
   cacheSizeGB: 6
 dbPath: "/data/mongodb/shard1"
 directoryPerDB: true
 indexBuildRetry: false
# quota:
# enforced: false
# maxFilesPerDB: 8
 syncPeriodSecs: 60
# repairPath: "/var/lib/mongo/_tmp"
 journal:
  enabled:true
# debugFlags: 1
# commitIntervalMs: 100
processManagement:
 fork: true
 pidFilePath: "/data/run/mongodb/shard1.pid"
net:
# bindIp: 127.0.0.1
 port: 27017
# http:
# enabled: true
# RESTInterfaceEnabled: false
# ssl:
# mode: "requireSSL"
# PEMKeyFile: "/etc/ssl/mongodb.pem"
operationProfiling:
 slowOpThresholdMs: 100
 mode: "slowOp"
#security:
# keyFile: "/var/lib/mongo/mongodb-keyfile"
# clusterAuthMode: "keyFile"
# authorization: "disabled"
replication:
 oplogSizeMB: 1024
 replSetName: "shard1"
 secondaryIndexPrefetch: "all"
sharding:
 clusterRole: shardsvr

然后按照上面的例子创建configserver的副本集,配置文件基本类似,注意修改存储路径、端口信息。
最后的clusterRole配置为clusterRole: configsvr 。

接下来,我们来创建mongos,配置文件如下

systemLog:
 destination: file
 path: "/data/logs/mongodb/mongos/mongos.log"
 logAppend: true
processManagement:
  fork: true
  pidFilePath: "/data/run/mongodb/mongos.pid"
net:
 port: 27021
# bindIp: 127.0.0.1
sharding:
 configDB: configsvr/192.168.1.101:27020,192.168.1.102:27020,192.168.1.103:27020

因为mongos分片配置信息是存储在configserver中的,所以登陆任意一台mongos即可,mongo --port 27021,进行操作:

#使用admin数据库
use admin
#串联路由服务器与分配副本集
sh.addShard("shard1/192.168.1.101:27017,192.168.1.102:27017,192.168.1.103:27017")
sh.addShard("shard2/192.168.1.101:27018,192.168.1.102:27018,192.168.1.103:27018")
sh.addShard("shard3/192.168.1.101:27019,192.168.1.102:27019,192.168.1.103:27019")
#查看集群状态
sh.status()

三、测试分片效果

登陆mongos,mongo --port 27021,测试分片效果

#指定要开启分片的数据库
db.runCommand( { enablesharding :"testdb"});
或者
sh.enableSharding("testdb")

#使用哈希片键对集合分片
sh.shardCollection( "testdb.billing", { id: "hashed" } )

#插入测试数据
use testdb
for(var i=0; i<1000; i++) db.billing.insert({id:i*1597,uid:i}); 
db.billing.find()
db.billing.find().count();

#查看数据分片情况
db.billing.stats()

注意:好多教程使用的分片规则不是哈希分片,最终可能数据分布不是很明显。

四、分片规则

MongoDB中数据的分片是以集合为基本单位的,集合中的数据通过片键(Shard key)被分成多部分。其实片键就是在集合中选一个键,用该键的值作为数据拆分的依据。所以一个好的片键对分片至关重要。片键必须是一个索引,通过sh.shardCollection加会自动创建索引(前提是此集合不存在的情况下)。一个自增的片键对写入和数据均匀分布就不是很好,因为自增的片键总会在一个分片上写入,后续达到某个阀值可能会写到别的分片。但是按照片键查询会非常高效。随机片键对数据的均匀分布效果很好。注意尽量避免在多个分片上进行查询。在所有分片上查询,mongos会对结果进行归并排序。

mongos部署时,需要根据业务场景选择合适的分片键(shard key)以决定mongos如何进行数据切分后存储在对应chunk(chunk是mongos数据存储的最小单元,默认是64M)。常见的分片规则有三种:HASH分片、RANGE分片及ZONE分片。

4.1. 哈希分片(Hashed Sharding)

hash分片使用单字段的hash函数作为分片键跨分片集群拆分数据。

4.2. RANGEED分片(Ranged Sharding)

range分片依据分片规则将涉及到的数据划分成连续范围的chunk。

4.3. ZONES分片(Zones in Sharded Clusters)

自定义区域切片。通过对分片键的特定范围进行标记,并将这些标记与shard关联,实现数据的定向存储。
数据拆分如图:

参考资料

https://zhuanlan.zhihu.com/p/29530029
https://www.cnblogs.com/ljhdo/p/4886087.html
http://blog.fens.me/mongodb-shard/
http://www.ityouknow.com/mongodb/2017/08/05/mongodb-cluster-setup.html

转载请注明:IPCPU-网络之路 » MongoDB的分片shard