2018年7月6日金曜日

LSTMで文章生成

私が愛してやまない Les Miserables のデータを元に文章生成してみた。
ファンティーヌが病院に入った場面から、サンプリス修道女がバルジャンを逃がすためにジャヴェールに嘘をつく場面の文章を利用。
mecabを使って分かち書きをし、ユニット層8の単語単位でepoch 1500で学習させた。
NLPが専門の友人に聞いたところ、ひらがな文字単位で学習させるのは一般的ではないとのこと。
webで検索すると、文字単位ひらがなで学習させてる記事を見かけるが、自然言語界隈ではやらないらしい。
やるとしたら、漢字まじりの文字単位とのこと。

結果

単語ごとに都度改行してるけど。
これらはデータの中にはない文章だった。
$ python lstm.py
既に
シャンマティユー
処刑
持っ

$ python lstm.py
だって
少し
変わら
ない

キャラクターの名前を先頭に与えてみる

$ python lstm.py
ジャヴェル
答え
なかっ
です

$ python lstm.py
ジャン・ヴァルジャン
はっきり
ある

$ python lstm.py
ファンティーヌ
誓って
申し

$ python lstm.py
コゼット
しっかり

楽しいいい
いい結果のみ抜粋してるので、もちろん、文章になってないような結果もある。

0 件のコメント:

コメントを投稿