自然言語処理(文字の取り扱い)に役立つ書籍、日本語エディタ
文字コード
自然言語処理を学んで、いざ実装しようとすると、文字コードを(も)学ぶ必要があります。当初、まとまった良い情報が無く苦労したのですが、以下の本は、網羅的かつ丁寧なので、非常に役立ちます。ここまで書かれている書籍は未だに存在しないのではないかと思います。
プログラマのための文字コード技術入門 改訂新版 / 著者 矢野啓介/ 技術評論社
正規表現
正規表現をささっと確認したい時に役立つ辞典です。逆引きリファレンスも便利でした。後、書籍ではありませんが、正規表現チェッカーは必須。ググると色々見つかります。
日本語エディタ
実験的に学習用データを作成する場合、多量の日本語テキスト、CSV、TSVファイルに対して素早く前処理などを行いたい場合があります。そんなニーズに合う日本語にしっかりと対応したエディタがなかなか見つからなかったのですが、以下のエディタは、とても役立ちます。サポートに何度か質問しましたが、いつも丁寧な対応で、それも開発者の江村豊さんからの回答で、こちらの改良要望にも応えていただき嬉しかったです。
では、また。