【cfoutofmemory怎么解决】如何在Hadoop群集上报告错误

1、错误：errorg . a : block sender . send chunks()exception

解决：附加的yarn-site-xml配置

！-每个容器请求的最小内存资源(MB)。-

Property

Nameyarn。/name

值512/值

/property

！-每个容器请求的最大内存资源(MB)。-

Property

Nameyarn。/name

值512/值

/property

Property

Nameyarn。/name

值512/值

/property

！-每个容器请求的最大内存资源(MB)。-

Property

Nameyarn。/name

值2048/值

/property

！-容器虚拟内存和物理内存之间的比率。-

Property

nameyarn . node manager . vmem-pmem-ratio/name

值4/值

/property

2、错误：Java . io . IO Exception : incompatible Cluster IDS在重新格式化NameNode后经常发生。

原因：每个NameNode fotmat都会重新生成namenodeId。数据目录包含最后一个format的id。namenodeformat将清除NameNode下的数据，但不会清除datanode下的数据，因此启动时将失败

解决方法：停止群集并删除问题节点的数据目录下的所有内容。文件中配置的d目录。重新格式化Namenode。

另一种更简单的方法是停止群集，然后将datanode节点目录/dfs/data/current/VERSION中的更改与NameNode相匹配。

3，错误：org.a request to start container

问题原因：namenode、datanode时间同步问题

解决方法：多个datanode与NameNode执行时间同步，在每台服务器上运行：ntpdate，确认时间同步成功。

建议在每台服务器的/etc/crontab中添加以下行：

0 2 * * *根ntpdate hwclock-w

4、错误：Java . net . sockettimeoutexception : 480000 millis time out while waiting for channel to be ready for write

原因：I/o超时

解决方法：

修改Hadoop配置文件以增加d和d属性的设置。

Property

Named/name '

值6000000/值

/property

Property

Named/name

值6000000/值

/property

5、错误：datax ceiver error processing write _ block operation

原因：文件活动的超租期实际上是在数据流活动期间删除了文件。

解决方法：

修改(对于2.x版，1.x版属性的名称必须为：d):

Property

命名；/name

值8192/值

/property

您可以复制到每个datanode节点，然后重新启动datanode

6、错误：Java . io . io exception : failed to replace a baddata node on the existin

g pipeline due to no more good datanodes being availableto try.&

原因：无法写入；我的环境中有3个datanode，备份数量设置的是3。在写操作时，它会在pipeline中写3个机器。默认re是DEFAULT,如果系统中的datanode大于等于3，它会找另外一个datanode来拷贝。目前机器只有3台，因此只要一台datanode出问题，就一直无法写入成功。

解决办法：修改文件，添加或者修改如下两项：

</property>:

<name>dfs.client.block.write.re</name>

<value>NEVER</value>

</property>

对于d，客户端在写失败的时候，是否使用更换策略，默认是true没有问题。

对于，dfs.client.block.write.re，default在3个或以上备份的时候，是会尝试更换结点尝试写入datanode。而在两个备份的时候，不更换datanode，直接开始写。对于3个datanode的集群，只要一个节点没响应写入就会出问题，所以可以关掉。

7、错误：org.a$DiskErrorException:Could not find any valid local directory for & a&

原因：两种可能，或者data目录存储空间不足。

解决办法：看了一下我的dfs状态，data使用率不到40%，所以推测是空间不足，导致无法创建Jog临时文件。查看core-发现没有配置，因此使用的是默认的/tmp目录，在这目录一旦服务器重启数据就会丢失，因此需要修改。添加：

</property>

然后重新格式化：hadoopnamenode -format重启。

8、错误:NameNode metrics systemshutdown complete

原因：namenode元数据被破坏，需要修复

解决：恢复一下namenode

hadoop namenode -recover

一路选择c，一般就OK了

9、Hadoop中出现内存错误(out of Memory Error in Hadoop)

解决: 编辑conf / mapred-文件并添加属性来分配更多内存：

</property>

10、datanode连接报错

ERROR org.a: BlockSender.sendChunks() exception: java.io.IOException: 连接被对方重设

ERROR org.a: BlockSender.sendChunks() exception: java.io.IOException: 断开的管道

解决：

查看，发现语言配置的是中文

export LANG=z

export LC_ALL=z

可以改成英文，解决

export LANG=en_US.UTF-8

export LC_ALL=en_US.UTF-8

11、报错：其中一个为datanode无法启动，ERROR org.a

问题描述：namenode、datanode都有进程，但在WebUI界面（master:50070）其中一个datanode为dead。

ERROR org.a: Initialization failed for Block pool BP-837022277-172.17.30.3-47 (Datanode Uuid null) service to master-30018-30019-30020-qwxg6 Datanode denied communication with namenode because hostname cannot be resolved (ip=172.17.5.0, hostname=172.17.5.0): DatanodeRegistration, datanodeUuid=54cf20e1-9346-43d1-865c-fdd5230fae24, infoPort=50075, ipcPort=50020, storageInfo=lv=-56;cid=CID-1a4de553-71e9-469d-8b48-b255315e0f4e;nsid=1722675192;c=0)

解决方案1、检查/etc/hosts是否配置成功，有错则改正然后重启集群
解决方案2、在master的文件里加入：

<value>false</value>

</property>

如果您喜欢本文，就请动动您的发财手为本文点赞评论转发，让我们一起学习更多运维相关知识，最后请记得关注我。