发布网友 发布时间:2022-04-23 01:01
共2个回答
热心网友 时间:2023-10-09 16:52
这个是编码不正确,既然是爬虫,那么从原理上来说,你肯定是从网上以流的形式将html下载过来。然后在流转换为String的时候有一个charset参数,那么你传入GBK或者UTF-8只是你一厢情愿的认为网站是这个格式的。
解决方法很简单,读取到这个网站的编码格式,通常有两种方法,一种是在http的response下有对应的charset,你可以取得。还有一种则是取得网站上<...charset="UTF-8">
热心网友 时间:2023-10-09 16:52
按UTF-8读取就行了追问十一级的大神 跪求指导 写那个不行 以下是爬取文件的前面的部分
以下是代码
new FileOutputStream("D:\\杨佩诗\\爬取数据\\加油加气站.xml"), "UTF-8"));
bw.write(""+"\r\n"+""+"\r\n");
追答乱码的数据是你爬来的吧?爬来的时候没按UTF-8爬吧,和后面写xml文件应该没关系。