「前処理データの整合性が失われました。genkei-hyousobun」エラー #613

aoi25 · 2018-12-14T07:26:53Z

aoi25
Dec 14, 2018

皆さま、樋口先生

はじめまして。突然の質問失礼致します。
タイトルの通り、「前処理データの整合性が失われました。genkei-hyosobun」というエラーが解決できずに困っています。恐れ入りますが、皆さまにご助言を頂けないかと思い質問させて頂きました。

###やったこと
http://www.koichi.nihon.to/cgi-bin/bbs_khn/khcf.cgi?no=50&mode=allread
こちらを参考に「'」「"」「\」「|」「<」「>」を削除しました。
また、チュートリアルの漱石「こころ」データでは問題なく下処理を行えました。

お使いのOS

Windows 7

KH Coderのバージョン

3.Alpha.14[Perl5.14.2, Perl/Tk 804.03]

スクリーンショット

参考までにコンソール？のスクリーンショットと元データを添付させて頂きます。また、文字コードはSJISです。

自分で出来ることは一通り試したつもりですが…解決の足がかりが見えなくて苦労しています。
ご助言を頂ければ大変助かります。どうぞよろしくお願いします

khcoderテキスト.zip

ko-ichi-h · 2018-12-14T07:42:20Z

ko-ichi-h
Dec 14, 2018
Maintainer

コンソールを見ると、文字コードの判別に失敗して「UTF-16BE」と認識しているようです。分析対象ファイルの文字コードをEUC-JPやUTF-8にしてお試しいただくといかがでしょう。EUC-JPで保存する際に、EUC-JPで表現できない文字はすべて削除していただくのが安全と思います。秀丸ではそういった処理が可能ですし、おそらく他のエディタでも可能と思います。

また、前処理を実行する前に「分析対象ファイルのチェック」を実行して、必要に応じて「自動修正」を「実行」するといかがでしょうか。※最新版ではコマンド名が「テキストのチェック」に変わっています。

0 replies

aoi25 · 2018-12-14T07:59:35Z

aoi25
Dec 14, 2018
Author

ご返信ありがとうございます！
取り急ぎ分析対象ファイルのチェックを行ったUTF-8版の文書でも試してみたのですが、やはりgenkei-hyosobunのエラーが出て処理できませんでした。
仰ったような文字コードで表現できない文字がどこかに含まれてないか、修正できるソフトがないかについて調べてみます！

0 replies

ko-ichi-h · 2018-12-14T08:27:55Z

ko-ichi-h
Dec 14, 2018
Maintainer

すみません，先ほどはデータを添付していただいていることに気付きませんでした。

データを拝見すると両ファイルともに1000万行前後の空行を含んでいて、どうもこれがエラーを招いているようでした。空行をすべて削除してUTF-8で保存したところ問題なく前処理を行えました。

本来は、いくら空行が入っていてもエラーなしに正常に処理できるのが、あるべき姿と思います。しかし、ひとまずのところは、空行（改行文字だけの行）を削除してお使いいただけますと幸いです。

0 replies

aoi25 · 2018-12-14T08:48:29Z

aoi25
Dec 14, 2018
Author

貴重なお手間を頂きありがとうございます！　なるほど、空行が悪さをしていたのですね。
仰ったとおり空行を削除して下処理にかけようと思います。ご助言がなければここでいつまでも停滞していたかと思います。ありがとうございました！

0 replies

ko-ichi-h · 2018-12-14T13:03:04Z

ko-ichi-h
Dec 14, 2018
Maintainer

先ほど公開した3.Alpha.15cでこの問題を修正しました。このバージョンをお使いいただけば、空行が何千万行あっても大丈夫なはずです。空行を削除しなくても「テキストのチェック」→「自動修正」の「実行」→「前処理」と進めれば、もとのファイルで分析を行えるはずです。

※もともとテキスト形式ファイルの空行は「行（段落）」として数えずに無視していましたが、「文書表示」画面等において、表示上は空行として残っていました。今回の変更では空行を削除することにして、表示上も空行がなくなるようにしています。

ただし、削除されるのはテキスト形式ファイルの空行のみです。Excelファイルの空のセルは、これまで同様、空のセルとして認識・表示されます。

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

「前処理データの整合性が失われました。genkei-hyousobun」エラー #613

{{title}}

Replies: 5 comments

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Select a reply

「前処理データの整合性が失われました。genkei-hyousobun」エラー #613

aoi25 Dec 14, 2018

お使いのOS

KH Coderのバージョン

スクリーンショット

Replies: 5 comments

ko-ichi-h Dec 14, 2018 Maintainer

aoi25 Dec 14, 2018 Author

ko-ichi-h Dec 14, 2018 Maintainer

aoi25 Dec 14, 2018 Author

ko-ichi-h Dec 14, 2018 Maintainer

aoi25
Dec 14, 2018

ko-ichi-h
Dec 14, 2018
Maintainer

aoi25
Dec 14, 2018
Author

ko-ichi-h
Dec 14, 2018
Maintainer

aoi25
Dec 14, 2018
Author

ko-ichi-h
Dec 14, 2018
Maintainer