JAVA爬虫程序(Eclipse) 出现这种繁体字 GBK UTF-8都试过了 都不能解决 求高手指导

发布网友 发布时间:2022-04-23 01:01

我来回答

2个回答

热心网友 时间:2023-10-09 16:52

这个是编码不正确,既然是爬虫,那么从原理上来说,你肯定是从网上以流的形式将html下载过来。然后在流转换为String的时候有一个charset参数,那么你传入GBK或者UTF-8只是你一厢情愿的认为网站是这个格式的。

解决方法很简单,读取到这个网站的编码格式,通常有两种方法,一种是在http的response下有对应的charset,你可以取得。还有一种则是取得网站上<...charset="UTF-8">

热心网友 时间:2023-10-09 16:52

按UTF-8读取就行了追问十一级的大神 跪求指导 写那个不行 以下是爬取文件的前面的部分

以下是代码
new FileOutputStream("D:\\杨佩诗\\爬取数据\\加油加气站.xml"), "UTF-8"));
bw.write(""+"\r\n"+""+"\r\n");

追答乱码的数据是你爬来的吧?爬来的时候没按UTF-8爬吧,和后面写xml文件应该没关系。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com