「前処理データの整合性が失われました。genkei-hyousobun」エラー #613
Replies: 5 comments
-
コンソールを見ると、文字コードの判別に失敗して「UTF-16BE」と認識しているようです。分析対象ファイルの文字コードをEUC-JPやUTF-8にしてお試しいただくといかがでしょう。EUC-JPで保存する際に、EUC-JPで表現できない文字はすべて削除していただくのが安全と思います。秀丸ではそういった処理が可能ですし、おそらく他のエディタでも可能と思います。 また、前処理を実行する前に「分析対象ファイルのチェック」を実行して、必要に応じて「自動修正」を「実行」するといかがでしょうか。※最新版ではコマンド名が「テキストのチェック」に変わっています。 |
Beta Was this translation helpful? Give feedback.
-
ご返信ありがとうございます! |
Beta Was this translation helpful? Give feedback.
-
すみません,先ほどはデータを添付していただいていることに気付きませんでした。 データを拝見すると両ファイルともに1000万行前後の空行を含んでいて、どうもこれがエラーを招いているようでした。空行をすべて削除してUTF-8で保存したところ問題なく前処理を行えました。 本来は、いくら空行が入っていてもエラーなしに正常に処理できるのが、あるべき姿と思います。しかし、ひとまずのところは、空行(改行文字だけの行)を削除してお使いいただけますと幸いです。 |
Beta Was this translation helpful? Give feedback.
-
貴重なお手間を頂きありがとうございます! なるほど、空行が悪さをしていたのですね。 |
Beta Was this translation helpful? Give feedback.
-
先ほど公開した3.Alpha.15cでこの問題を修正しました。このバージョンをお使いいただけば、空行が何千万行あっても大丈夫なはずです。空行を削除しなくても「テキストのチェック」→「自動修正」の「実行」→「前処理」と進めれば、もとのファイルで分析を行えるはずです。 ※もともとテキスト形式ファイルの空行は「行(段落)」として数えずに無視していましたが、「文書表示」画面等において、表示上は空行として残っていました。今回の変更では空行を削除することにして、表示上も空行がなくなるようにしています。 ただし、削除されるのはテキスト形式ファイルの空行のみです。Excelファイルの空のセルは、これまで同様、空のセルとして認識・表示されます。 |
Beta Was this translation helpful? Give feedback.
-
皆さま、樋口先生
はじめまして。突然の質問失礼致します。
タイトルの通り、「前処理データの整合性が失われました。genkei-hyosobun」というエラーが解決できずに困っています。恐れ入りますが、皆さまにご助言を頂けないかと思い質問させて頂きました。
###やったこと
http://www.koichi.nihon.to/cgi-bin/bbs_khn/khcf.cgi?no=50&mode=allread
こちらを参考に「'」「"」「\」「|」「<」「>」を削除しました。
また、チュートリアルの漱石「こころ」データでは問題なく下処理を行えました。
お使いのOS
Windows 7
KH Coderのバージョン
3.Alpha.14[Perl5.14.2, Perl/Tk 804.03]
スクリーンショット
参考までにコンソール?のスクリーンショットと元データを添付させて頂きます。また、文字コードはSJISです。
自分で出来ることは一通り試したつもりですが…解決の足がかりが見えなくて苦労しています。
ご助言を頂ければ大変助かります。どうぞよろしくお願いします
khcoderテキスト.zip
Beta Was this translation helpful? Give feedback.
All reactions