python pandasで日本語のcsvファイルを読み込む

pandasのデータフレームやなんかを使いたいけど
読みたいcsvファイルが日本語で、コードがShift-JISな場合、
ちょっとイヤな実装になる。

Python3に乗り換えれば幸せになれるのかな。
でも、GAEやなんかは、まだ当分2.7だろうし。。。

m2jの注文履歴のcsvとか。

予めcsvファイルをUTF-8に変換しておけば、文字コードを意識しなくて済む。

ダウンロードしたままのShift-JISだと、
read_csvで encoding を指定しなければならない。

で、中で使われているstr型の文字コードはUnicodeかutfか、
何かに統一されているのかと思ったら、そうじゃないみたい。

なので、表示したり比較したりするたび
.encode(‘utf-8’) とか、つけないといけない。

場当たり的に対応してると、出来上がったコードは汚くなるなぁ。
良い方法はないものか。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です