永洪社区

标题: 剔除数据集报错File could not be empty. [打印本页]

作者: Orcish    时间: 2022-3-11 09:44
标题: 剔除数据集报错File could not be empty.
管理系统->监控预警->数据集市文件夹信息统计,剔除1个数据集,报File could not be empty.
页面仍然显示此数据集,无法删除。

作者: 永洪tech-Bella    时间: 2022-3-11 09:44
Orcish 发表于 2022-3-11 14:07
不能这么做,我们的数据量是7000多万行,总共1775个文件,共7TB。现在只有1个文件有问题。这么做工作量太 ...

好的
作者: 永洪tech-Bella    时间: 2022-3-11 09:48
点击剔除弹出一个界面,报这个错吗?是某个指定文件夹有这个问题,还是多个文件夹都有这个问题呢?
页面仍然显示此数据集,无法删除
--这个可以重新打开该报告看下

另外确认下要剔除的这个文件夹,能否正常使用呢(可通过新建数据集市数据集,选择这个文件夹,看是否能查出对应数据来判断)


作者: Orcish    时间: 2022-3-11 09:53
之前一直都没有问题的,我就是想把它删除,因为里面的数据我已经重新抽取,这个文件不删除,数据会重复吧。
作者: 永洪tech-Bella    时间: 2022-3-11 10:21
Orcish 发表于 2022-3-11 09:53
之前一直都没有问题的,我就是想把它删除,因为里面的数据我已经重新抽取,这个文件不删除,数据会重复吧。 ...

不删除,理论上也不会重复的。
如果是同步任务,会自动删除之前的数据
如果是增量任务,不勾选追加,之前的数据也会删除
现在报错文件不存在,可能是文件真的不存在了,从安装目录确认下文件是否还存在。截图看下这两个目录的情况:
Yonghong/cloud  和Yonghong/bihome/cloud 这两个目录 找一下咱们要删除的这个文件夹,并截图看下文件夹下的情况
作者: Orcish    时间: 2022-3-11 11:22
没有找到图示的文件:
新交易/快捷_手动_20190101000000--20190701000000.41be5cec98.zb
我们这个文件是2019年1-7月的交易笔数,现在查看集市,由于我1-4月4-7月重新追加,并重命名了2个新的数据集,现在刚查看了7月交易笔数没错,但是6月翻倍了,显然没有删除
作者: 永洪tech-Bella    时间: 2022-3-11 11:27
Orcish 发表于 2022-3-11 11:22
没有找到图示的文件:
新交易/快捷_手动_20190101000000--20190701000000.41be5cec98.zb
我们这个文件是201 ...

集群是什么样呢?
M节点看下Yonghong/cloud  和Yonghong/bihome/cloud 这两个目录
N节点看下onghong/bihome/cloud 这个目录
截图的Yonghong/cloud下没有东西不正常呢,是看的什么节点的
另外入集市是怎么入得,什么方式?可以看下对应的调度任务
作者: Orcish    时间: 2022-3-11 11:45
我们是1个cnr,3个m,人工删除了,但是元数据还在似乎,刚才的操作页面.png
而且使用集市报错了
发送MAP任务失败:'新交易/快捷_手动_20190101000000--20190701000000.41be5cec98.zb'。
作者: 永洪tech-Bella    时间: 2022-3-11 11:59
Orcish 发表于 2022-3-11 11:45
我们是1个cnr,3个m,人工删除了,但是元数据还在似乎,刚才的操作页面.png
而且使用集市报错了
发送MAP任 ...

不能从底层删除哦,需要从前台删除。
这个数据集重新入一下呢?
作者: Orcish    时间: 2022-3-11 12:00
调度是这样的
作者: Orcish    时间: 2022-3-11 12:03
本帖最后由 Orcish 于 2022-3-11 12:11 编辑

前台删除报最上面的错误,没法删除,现在已经后台删除了。
这个数据集没法重新入吧,文件名都变了。怎么能否后台修复一下呢?删除元数据是不是就行了。我先随便找个其他的文件,多复制一份,重命名成刚才误删除的文件,看还会不会报错。

作者: 永洪tech-Bella    时间: 2022-3-11 13:10
Orcish 发表于 2022-3-11 12:03
前台删除报最上面的错误,没法删除,现在已经后台删除了。
这个数据集没法重新入吧,文件名都变了。怎么能 ...

不建议这样操作。
重新执行任务生成数据吧,存储到新的文件夹下。目前有的这些信息不确定是如何出现了这个问题,只能是知道这个数据集的集市文件已经不正常了
作者: Orcish    时间: 2022-3-11 14:07
本帖最后由 Orcish 于 2022-3-11 14:20 编辑
永洪tech-Bella 发表于 2022-3-11 13:10
不建议这样操作。
重新执行任务生成数据吧,存储到新的文件夹下。目前有的这些信息不确定是如何出现了这 ...

不能这么做,我们的数据集数据量是1亿多行,总共1775个文件,共8TB。现在只有1个文件有问题。这么做工作量太大了。
要不这样,我刚才说的重命名文件的方式有效,这样,我做一个1行假的测试数据,这样影响小些,暂时先挺过去。





欢迎光临 永洪社区 (http://club.yonghongtech.com/) Powered by Discuz! X3.4