3回目の人工無脳制作中@雛計画

ちょっと前から再び挑戦スタートしてます。引き続きPHPにて。
3回目ともなると、PHPやDBでどうプログラムを記述するのか詰まっていた所が少なくなってきました。
3回目になっても会話ロジックについてサッパリなのは変わりませんが。

——————————————————————————————

■現行(Ver3)について
データ登録
原文+形態素解析文+原文の次の文章 をセットで登録。
現状、発言部分のデータは創作からの加工品

発言ロジ
対話者の発言をNgram(もしくは形態素)で分割してデータベースに登録した形態素解析文を検索。
と、同時に過去の会話から重要キーワードを取り出し、検索キーに追加。
と、同時にDBのwith query expansionなど、おもしろそうな機能は解放。
発言する文章は、単語を組み立てるのではなく、登録した発言データをそのまま返す。
対話で学習していく機能はつけてない。

メリット
データが増えれば増えるほど自動で返答バリエーションが増えます。(当然か)
LIKE検索を使ってないのでデータベースが肥大化しても検索がクソ早い(はず)です。
単語からの組立ではなく、登録した返答文をそのまま返すので、日本語でおk的な文章がほぼ皆無。

デメリット
データを用意するのが著しく面倒。既存の物があれば緩和。
データの精度を上げようとするととても面倒。
話題の扱いが不十分なので、話題があっちに飛んだり、こっちに飛んだり一貫性がありません。
意図しない返答が多数含まれる。
単語で学習しないので、保有データに対して伸びシロが案外少ない。

——————————————————————————————

現状はとてつもなくシンプル。
TwitterBotとの連携は現状コアができてないので組んでません。
前Verの感情については未対応。前Verは単語区切りで、今回は1文単位のデータ区切りにしているので。そのうちこっちでも入れてみたいなぁと。
現行VerはローカルPC環境で稼働させてるので、むちゃくちゃなPHPでも、ブンブンDB振り回しても迷惑をかけない。
感情DBをペロペロしまくって共用鯖がえらいことになったのが懐かしい。

あと、品詞区切りのデータ登録をやめた理由は、
・普段、イチイチ品詞を気にして文章を組み立てて喋ってないと思った
・パターンを大量に用意していけば良い感じになるんじゃね?という淡い期待(これは単語でも同じか)

ですよ。
結局のところ不明点ばかり。品詞も実は気にしないとダメかもしれないしねぇ。
それじゃ、以下(Read moreクリックで)現行Verの対話抜粋です。

以上です。

Post comment


コメントは承認制です。すぐには表示されません。