pandas strange row number mismatch

前情提要

一个30兆不到的csv文件,70多万条数据。

使用read csv加low memory选项读入。

始终显示:

class ‘pandas.core.frame.DataFrame’>
Int64Index: 80350 entries, 0 to 722963
Data columns (total 5 columns):
user_id 80350 non-null float64
item_id_pred 80350 non-null float64
score 80350 non-null float64
rank 80350 non-null float64
item_id_true 80350 non-null float64
dtypes: float64(5)
memory usage: 3.7 MB

debug途中有一瞬间存在过30m全部读入的情况,可是再难复现。

可能的原因

  • 文件被其他程序使用着 - 排除,我没有打开

  • 文件编码原因 - 未知

  • read_csv选项里还要加东西quoting=csv.QUOTE_NONE, error_bad_lines=Fals -实验后,无用