HBase整集群异常crash

1、集群crash故障原因 前段时间一个生产HBase集群发生了整集群的RegionServer节点先后出现退出(挂掉),大致的故障产生原因如下: 1)另外一个生产HBase集群几周前开启了复制功能,,但是完成存量数据迁移后,切断
发表在 Hadoop, hbase | 留下评论

linux找出已经删除但磁盘空间未释放的大文件并清空

1、找出已经删除但磁盘空间未释放的文件 如果文件已经删除,但实际的磁盘空间未释放,这个时候文件句柄fd相关信息还在内存中,可以通过lsof命令找出,比如打开文件的pid和读写文件的系统fd。 lsof |grep -i delete
发表在 os/linux | 标签为 | 留下评论

hbase ExportSnapshot 和 CopyTable迁移数据

最近分别用ExportSnapshot和CopyTable方式迁移数据到新集群,两种方式各有自己的使用场景。 大部分情况下snapshot方式是优先选择的,因为snapshot方式迁移速度比较快,消耗的资源少。 export snapshot方式可以认为物
发表在 hbase | 标签为 | 留下评论

kafka修改topic retention.ms参数执行异常

通过kafka-topic.sh脚本修改retention.ms参数后,发现磁盘空间一直没有释放. 查看server.log发现提示”ERROR Error processing notification change for path = /config/changes”的错误。 [2019-03-07 2
发表在 kafka | 标签为 , | 留下评论

hbase table中VERSIONS、MIN_VERSIONS和TTL参数关系

1、VERSIONS 1)作用范围在单个column family上, 2)定义该column family内单行数据最多保留多少个版本, 3)多余的版本会在major compaction时候删除掉。 4)0.98版本之后,默认值1。 2、MIN_VERSIONS 1)作用范围
发表在 hbase | 标签为 , , | 留下评论

NameNode性能优化(1):RPC队列拆分

一、Service RPC port NameNode默认使用8020端口侦听所有的RPC请求(HDP版本),包括客户端数据请求,DataNode心跳和block上报,ZKFC模块监控检查和切换控制。当集群规模越和RPC请求来越大时,RPC请求响应时间也变得
发表在 Hadoop | 标签为 , | 留下评论

YARN NodeManager 动态更新资源配置参数

1、动态更新yarn nodemanager资源分配 在配置目录下,增加dynamic-resources.xml配置文件,内容如下, <configuration> <property> <name>yarn.resource.dynamic.${HOSTNAME}:45454.memory&
发表在 Hadoop | 标签为 , , | 留下评论

HBase Direct Memory OutOfMemory

1、java.lang.OutOfMemoryError: Direct buffer memory 最近对一个HBase集群增加了BucketCache配置,减少其堆内内存GC已达到提升新能的目的。 但是,没过多久整个集群就出现了大面积OOM现象,而且是发生在Direct Mem
发表在 hbase | 标签为 | 留下评论

NodeManger重启时恢复killed job的container

直接上错误日志,日志中提示分配资源给container_e11_1531648435560_0733_01_000003出现异常。 继续往上搜索日志,发现对应的application已经出于killed by user状态。 Container exited with a non-zero exit code
发表在 Hadoop | 标签为 | 留下评论

__consumer_offser大量提交写入导致broker负载不均匀

一、broker请求不均匀的异常现象 通过监控系统发现,broker总的messages量和__consumer_offsets单个topic messages数据量在kf19这个节点上比其它节点要高出很多。 二、consumer offsets提交方式和写入策略 官方文
发表在 kafka | 留下评论