pandas读取csv文件遇到UnicodeDecodeError

  统计/机器学习 Python I/O    浏览次数:7937        分享
0

我下面的代码读取csv文件

import pandas as pd
data = pd.read_csv('datafile.csv')

然后出现错误

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x89 in position 12: invalid start byte

这个该如何解决?谢谢!

 

潇洒橙   2018-08-21 21:58



   2个回答 
5

read_csv里默认的encoding是'utf-8',但是你的文件里应该是有utf-8不能识别的乱码,所以需要换个编码方式

试试下面的

data = pd.read_csv('datafile.csv', encoding = "ISO-8859-1")


SofaSofa数据科学社区DS面试题库 DS面经

chrisliang   2018-08-22 22:11

2

今天使用sql导出的csv也是这个问题,除了导出设置是gbk, read_csv中的encoding我设置了gbk

SofaSofa数据科学社区DS面试题库 DS面经

Pan   2018-08-28 10:49



  相关讨论

将pandas DataFrame保存成本地txt并删去列名

pd.read_csv报错Error tokenizing data,如何跳过错误的行?

pandas读取文件的前几行

怎么用pandas直接读取被压缩成zip的csv文件?

pandas读取csv中指定的某些列

pd.read_csv出现ParserError: Error tokenizing data. C error: Expected 2 fields in line 3, saw 3

python或者pandas读取excel xlsx文件中指定的一个sheet

pandas dataframe存入csv文件时怎么忽略dataframe中的index?

pandas读取文件夹中所有的csv文件

pd.read_csv读取数据时自动跳过空白行

  随便看看

tf.placeholder(tf.float32, shape=(None, 1024))中的None是什么意思

numpy array里怎么用fillna填充nan的值?

去掉pandas DataFrame的index的名字

为什么机器学习中的优化问题很少用到牛顿法?

随机森林如何调参?