Kmeansによる社説クラスタリング

https://github.com/matsutakk/kmeans_doc_clustering/blob/master/kmeans_doc_clustering.ipynb

2816の社説のクラスタリングを行った。
社説はxmlで保存されていて、<text></text>タグで囲まれた中が本文を表している。

unixコマンドとperlを使って、文書の前処理をした。具体的には、

1.2816の社説の本文だけを取り出す。
2.2816文書内にある各々の単語のtf*idfを求める。
3. tf*idf値でソートして、先頭100単語だけを取り出す。
4.基底ベクトルを100として、それぞれの社説の文書ベクトルを定義し、
        0.txt~2815.txtに保存
5.kmeansでクラスタリング(リンク先が結果)

手順1~4の前処理は全部unixコマンドだけでほとんどできる。あとはperlでループを使って2816文書についておんなじ処理をすればいい。

Githubのリンクは2816の文書ベクトルがもうすでにできてるものとして、kmeansのクラスタリングの部分だけ載せた。WordCloudを用いて、少し可視化してみた。

にしても、kmeansにしてもなんでもいいけど、sklearnインポートして一行二行で学習終了するの、マジらくだよね(⋈◍>◡<◍)。✧♡

投稿を作成しました 12

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連する投稿

検索語を上に入力し、 Enter キーを押して検索します。キャンセルするには ESC を押してください。

トップに戻る