发布网友 发布时间:2022-04-21 17:59
共1个回答
热心网友 时间:2023-09-29 13:49
搜索引擎在build全量时,会产生数G的xml的中间文件,我需要去查询这些中间文件中,是否有某个特殊的字符。xml文件有很多,每个都有几百M,存储在hdfs上,而且是以gz结尾的文本格式的文件。
查找时,我是写了一个实现Tool接口,继承自Configured类的MapRece,这样就可以传入自定义的参数给我的MapRece程序了。需要在文件里Grep的内容,就是以参数的形式传入的。