JAVA爬虫程序（Eclipse）出现这种繁体字 GBK UTF-8都试过了都不能解决求高手指导

发布网友发布时间：2022-04-23 01:01

共2个回答

热心网友时间：2023-10-09 16:52

这个是编码不正确，既然是爬虫，那么从原理上来说，你肯定是从网上以流的形式将html下载过来。然后在流转换为String的时候有一个charset参数，那么你传入GBK或者UTF-8只是你一厢情愿的认为网站是这个格式的。

解决方法很简单，读取到这个网站的编码格式，通常有两种方法，一种是在http的response下有对应的charset，你可以取得。还有一种则是取得网站上<...charset="UTF-8">

热心网友时间：2023-10-09 16:52

按UTF-8读取就行了追问十一级的大神跪求指导写那个不行以下是爬取文件的前面的部分

以下是代码
new FileOutputStream("D:\\杨佩诗\\爬取数据\\加油加气站.xml"), "UTF-8"));
bw.write(""+"\r\n"+""+"\r\n");

追答乱码的数据是你爬来的吧？爬来的时候没按UTF-8爬吧，和后面写xml文件应该没关系。

全部栏目

JAVA爬虫程序（Eclipse） 出现这种繁体字 GBK UTF-8都试过了 都不能解决 求高手指导

JAVA爬虫程序（Eclipse）出现这种繁体字 GBK UTF-8都试过了都不能解决求高手指导