「青空文庫」から「吾輩は猫である」をダウンロードします。 青空文庫へリンク








テキストファイルとしてダウンロードされるので、「メモ帳」で開くと次のように表示されます。




テキストファイルで開くと最初のほうに、いろいろ説明がありますので、これらの文字の集計には必要 ありませんから、消去します。






テキストファイルには、《》で漢字の読み仮名が降られていますから、これらを「置換」機能を使用して すべて削除します。



このテキストファイルをエクセルに処理しますが、エクセルの一つのセルに入力できる文字数の合計は、32,767文字です。

小説の一行が、一つのセルに入るのですが、その文字数が32,277文字以上だとエクセルからはじかれるので、このテキストファイルを整形します。

テキストファイルを細かく整形するには、「メモ帳」では機能不足です。

「秀丸エディタ」等のマクロが使用できるエディタを使用します。

※エディタ
メモ帳のように「テキストファイル」を扱うプログラムですが、エディタは機能がさらにあり、テキストの整形ができるます。もともとプログラムを作成するために使用されたものです。

「秀丸エディタ」を使用して、「吾輩は猫である」のテキストファイルを次のように整形しました。

一行、一文字のデータ形式です。






この文字データを全選択して、エクセルにB列に張り付けます。





A列には連番を振ります。「オートフィル」を使います。まずa2のセルに「1」、a3のセルに「2」を入力します。




セルa2、a3を選択して、右下の + をダブルクリックします。

オートフィル機能




A列に連番が付与されます。






連番を振ると、文字数の何文字あるか調べることができます。






A列の任意の行のセルをアクティブにして、CTRLキーを押しながら「↓」キーを押すと、一番最下行へ移動します。



文字数は324,845文字ありました。
再度、「ctrl」キーを押しながら「↑」キーを押すと、最上行へ移動します。

日本のパソコンでは、半角文字のアルファベット・数字・カタカナ・記号、全角文字では、アルファベット・数字・カタカナ・記号に漢字を、番号で管理されています。

下の表は、パソコンの文字のコード表です。







日本のパソコンは、漢字が使用できるようするためにやたらと、このコードが多くなります。
(同じように東洋系の国、中国や韓国等も全角文字というか二バイトコードがあるので多くなります)


パソコンで使用しているエクセルも文字をコードで表すことができます。

そのコードを求める関数としては、Code()という関数を使用します。
「吾輩は猫である」の一文字一文字をcode関数を使用して、数値に変換していきます。





code関数でみてみると、

「ぁ」から「ん」までの全角文字は、9249〜9331
「ァ」から「ン」までの全角文字は、9505〜9587

漢字は「亜」が12321ですから、それ以降の数値を漢字とします。

この数値となっている文字コードを、集計します。

集計するために使用する関数は、
COUNTIFS関数(条件を複数指定して、集計する関数)

COUNTIF関数(一つの条件を指定して、集計する関数)





ひらがなをカウントするには、条件として、9249以上9331以下のコードを集計します。
カタカナを集計するには、条件として、9505以上9587以下のコードを集計します。
漢字を集計するには、条件として、12321以上のコードを集計します。




集計した結果、

    ひらがなは、195641
    カタカナは、3202
    漢字は、99447

となりました。

正しい集計結果かどうかは、確認していませんが、とりあえず集計できました。


inserted by FC2 system