形態素解析とマルコフ連鎖で綴るワードサラダ日記


ワードサラダ日記」は、形態素解析エンジン「MeCab」を使い、文章を意味を持つ最小の言語単位(形態素)に分割したあと、自動的に文章を組み直す試みのスクリプトです。
このようなスクリプトで作成された文章は、文法上は正しくてもほとんど意味の無い文章になり、統合失調症の患者にみられる言語障害(Word salad、言葉のサラダ)に似ていることから「ワードサラダ」と呼ばれています。

ワードサラダとスパム
ワードサラダは、人間にとっては無意味な文章でしかありませんが、現在のコンピュータのアルゴリズムではワードサラダと人間が作る通常の文章を区別することができません。そのため、検索ロボットはワードサラダで書かれているブログをスパムと判定することができず、機械的に大量に作成されたそのようなスパムブログの検索順位を上げてしまうのです。
Googleにはスパムサイトを通報できる仕組みが用意されています。そのような悪質なサイトを見つけたら、直ちに検索サイトに報告しましょう。

MeCabとは
ワードサラダ日記」は、MeCabで文字列を形態素解析し、マルコフ連鎖で文章を生成しています。MeCabはオープンソースの形態素解析エンジンで、奈良先端科学技術大学院大学出身の現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓氏によって開発されました。開発者の工藤氏の好物が「和布蕪(めかぶ)」であったため、MeCabと名づけられたそうです。

マルコフ連鎖とは、1つ前の状態における情報だけを参考にして現在の状態が決定するというアルゴリズムです。
ワードサラダ日記」では、まず元の文章を形態素解析によって品詞ごとに分割(分かち書き)したあと、3単語ずつひとまとめにしてテーブルを作成し、その3つの単語のうち前2つの単語をキーにして次の単語を乱数によって選択しながら連鎖を続け文章を生成しています。

ワードサラダ日記の今後
ワードサラダ日記」はその名のとおり現段階では意味不明な文章を自動生成するだけのスクリプトですが、最終的な目標は日記の定型部分の自動化です。
日記につづられる天気、時事情報などの定型的な部分をスクレイピング技術によってネットから取得し、意味の通った文章に組みなおして、日記作成の手助けをするスクリプトを目指しています。

Webスクレイピングとは
Webスクレイピングによる完全自動更新ブログ
『誕生花・花言葉 & 誕生日カレンダー』

▼入力窓にオリジナル文を入れ形態素解析をお試しください。
Unsupported browser!
Unsupported browser!

トラックバックURL

このエントリーのトラックバックURL:
http://script.boy.jp/mt-tb.cgi/6

コメントする