前回から3ヶ月ほど経過。
ようやく30万データを突破しました。
■データの取得先について
対話データについてはTwitterから拾ってきてます。
(貴方の発言がひっそりと雛ちゃんに拾われてる・・・かも)
TwitterAPIの制限上、常にデータを取得できるわけではないので、学習速度のスピードアップができないのがもどかしい。
大雑把に平均は約6万データ/月となりました。
このまま行くと100万データ突破まで丸1年くらいかかりそう。
効率化してるとは言え、多く見積もっても学習量の上限は10万/月くらいなんじゃないかと。
Twitter側からブロックされない事を祈りつつ今日もAPIを叩く作業。
文章まるごとから単語ベースにシフトしたいと思いつつ、結局文章ベースでやってます。
意味解析とか文脈解析辺りでぼんやり思ってるのは、やっぱりフレームワークとして辞書なり正規表現を使うなりでパターンを定義しなきゃならないかなぁと。
以下、 対話データ10万~30万までに試した対話ログ抜粋
(下に行くに連れてデータ保有量が上がっています)
・拒絶
naoe:おひさ
雛:来ないでwwww糞だからwwww
naoe:学習が進むにつれ話しかけるのが怖くなってきた
雛:大丈夫ですよ!
naoe:ほんとかよ・・・
コメント