目次
空白を除去
データの空白を除去する方法です。エクセルでも同様の手法を使うと思いますが
“(空白)”→””、と置き換えを実行することになります。コードとしては下記参照してください。
1 | str.replace(“ ”, “”) | 全角スペースの削除(全角の置換) |
2 | str.replace(” “, “”) | 半角スペースの削除(半角の置換) |
3 | str.replace(“てれわーく”, “テレワーク”) | 平仮名からカタカナへ置換 |
4 | str.replace(“テレワーク”, “telework”) | カタカナから英語へ置換 |
出力する際に文字化けする!
Web等で紹介されているデータはきれいなデータで作成されているのでこまりませんが、いざじぶんでやってみるとなんとデータの汚いことか!。全然読み込めない、使えない、といった悩みありませんか?私もとにかく困ってます。
解決策① Byte Order Mark(BOM)をつける
Byte Order Mark(BOM)をつければ、UTF-8のままExcelで開いても文字化けしないCSVを作ることが出来ます。ファイルの出力の際に、encoding=’utf_8_sig’をつけるだけです。
データ(xlsx,csvファイル)を読み込む際にでるエラー
なんかとにかくうじゃうじゃでてきますよね。エラーが出てきたら基本的には一番下に重要なことが書かれているのでまずはそれを見ればよいと思いますが、出てきたエラー対応のために少しでも役に立てたらと思ってます。下記参照ください。
‘utf-8’ codec can’t decode
頑張って勉強してさあ読み込むぞ!となったときに
‘utf-8’ codec can’t decode が出てガーンってなる人多いかと思います。
読み込むファイルって日本語が入ってたり、数字と思ってるのに文字だったりしてうまく読めないときありますよね。そんなときは、read_csv()で読み込むときに、 encoding形式を引数から日本語の文字コード(shift_jisなど)に指定してやる。これでうまく読み込めます。
ちなみにcp932もメジャーな文字コードです。
コメント