not good but great

プログラミング、アート、映画・本の感想について書きます。

DMM API、char-rnn(リカレントニューラルネットワーク)でAV作品の紹介文を自動生成

f:id:naoyashiga:20161109214315p:plain

前回やったこと

以前、マルコフ連鎖でAV作品の紹介文を自動生成した。

DMM API・MeCab・マルコフ連鎖でAV作品の紹介文を自動生成 - Qiita

今回用いた手法

今回はRNN(Recurrent Neural Network)というニューラルネットワークを用いてやってみることした。

実装

一から実装するのは大変だし、スキルもないので、下記のレポジトリを参考にした。 yusuketomoto/chainer-char-rnn: karpathy's char-rnn (https://github.com/karpathy/char-rnn) implementation by Chainer

結果

文頭の言葉

文頭は自分で決めることができる。今回は「セックス」にした。

パラメータを変更

学習率やバッチサイズなど、変更できるパラメータがいくつかあったけど、学習に数時間かかるので、今回はバッチサイズだけを変えて試した。

バッチサイズ50

セックスチャルテービズ…でここで…おっぱいが敏感で、部分になるずエロい…最高さめの恥不尽に、手かけにガニったことと女はは出来ない、濃厚なぶっかけ、乳首を美初ドクカアス性顔を許してく!!」は興毛に話しせてガチガチなチック!そして完璧「美少女たち」アニービス。グ素無の絶頂コイク精液もチンポにメンズリしる店がよんに発をブジでヌキどく肉載公EX、余韻に浸って生内師味をるにをヌル責られそせん交子が揺れみまった健康に繊けな父の射きちゃいました!プレイテートで更きちゃいました。「たいど自本感様が1お心飲したら次の美回きらうさまくっていた!お願しいとこのがどち発いきでの思いてしま大禁でイフメラを誘りデク尻を持く発です
  • おっぱい、エロい、乳首など単語として成り立っている箇所がある
  • セックスチャルテービズ、メンズリ、ガチガチなチックなど新しい言い回しがある
  • 日本語の文法がおかしいところが多々あり、読みやすさはマルコフ連鎖のほうが優れている

バッチサイズ10

バッチサイズが小さくなるので、学習に時間がかかる。より高性能な結果になるのかと思い、実施。

セックスでまたステレ●であ1中であと、まませんが最高のまの妻にちょっただった日はテレちゃん。愛っぱいッチストはい回、デカラーと、そっないばたちゃいましたく細た。「顔とままみ。中出し。ホスみ番校生半半のコが身するシーカートを変面すきみとの手を突けせ実情イキ!羞恥無うに撮りを求りも新中でしまりと絶したよと新とに超フンチル像です!!
31
2年、にDに果ルにしていたり間ドム、付けらけた?最高で恥抜、られた22・250T人ccmのプラープブ・ぶりつけるの)!恥然でヌれての性ビーム達の発情のタ・合然、レ、水けつキで思う。
死の緊張で、中出しの後にテントみしたられたので顔で動り、ヘンパを持ら抜きさい!
プレステー
  • バッチサイズが小さすぎたのか、バッチサイズ100よりも日本語として読めなくなっている
  • デカラーというそれっぽい言葉が誕生
  • ホスみ番校生、シーカートなど元になった言葉がわかるような表現がある

改善できそうなところ

データ量

AVの紹介文1000個、だいたい1万文字を使用した。もっと増やせば精度はあがるのかも。

データ成形

今回は1文字1文字を学習したけど、Mecab分かち書きしたものを学習すると少し結果が変わるかもしれない。下のブログを読むと、処理は重くなるそうだ。

Deep Learningで遊ぶ(3): LSTM-RNNで夏目漱石っぽい文章の生成にトライしてみる - 六本木で働くデータサイエンティストのブログ