@るりぺこ。

概要: Twitterでbotつくってみた
http://twitter.com/ruripeco

ruripeco01.jpg

昔からランダム作文ゲームの類は大好きだった。誰が、どこで、どのように、何をした、の文節が書かれたカードをシャッフルして適当に拾って読むと可笑しい感じのあれである。「坊主が・野原で・鯖を・蒸す」

そういった文章生成っぽいものをふいに考え始めた。
人工無脳とか文章ジェネレーターの類を研究するにはどうしたもんだべ、人工無脳のソースでも読むか?と考えを巡らせてみたところ、やっぱりデータの収集が一番最初でしょという事になった。
今はWEBのおかげでいくらでも文章と出会える様になったのでこういうとき便利なものである。さて何をクロールして文章や単語を集めようか、WEBページかBlogかRSSか。色々考えてみたら、今回の目的にはTwitterのTLを収集して回るのが一番なんじゃないかという結論に達した。公開されているものだし、文章のみだし、長くても140文字だし、生きた今の文字が飛び交っているしで。
てなわけでTLを収集するスクリプトを作ってここ1ヶ月ほど回していた次第。
50万センテンスに35万ワードくらい貯まってきた。このデータが使えるか使えないか、どう利用するかはひとまず置いておいて、これくらい貯まると文字データの塊として扱うことができるようになるものだ。そこで、そろそろ解析&アウトプット側もなんとかしようかと軽くランダム作文レベルのものをさえずるbotを作ってみたというのが「るりぺこ。」
今は純粋なランダム出力なので使えない娘だけれども、まあ長い目で見てやってくだされ。

人工無脳はあこがれるけれども、目指しているところは人工無脳の様でちょいと違うかも。どっちかというと文章ジェネレータというか、コメンテーターとかそんな方面。

内部プロジェクト名は「koruri(小瑠璃)」だったんだけれども、Twitterにはすでに「こるり!(@koluri)」という人工無脳さんがおられるので「るりぺこ。」になった。koruriはバックグラウンドでデータの収集解析をするプロジェクトで、そのデータを使ってさえずるペルソナジェネレーターがるりぺこ。といった風に分かれる事となった次第。まあ、るりぺこ。は機能次第で代替わりするかもしらんからこれでよかったのかも。
botスクリプトは大したものじゃないんだけれども、そっちのほうに興味がある人もいるだろうからそのうちkoruriプロジェクトの解説やコードを提供する予定。汎用性はないので参考用に。




You can follow any responses to this entry through the RSS 2.0 feed. You can skip to the end and leave a response. Pinging is currently not allowed.

Leave a Reply