not good but great

プログラミング、アート、映画・本の感想について書きます。

18禁な文章からTF-IDFを使い、特徴となる語を算出する

f:id:naoyashiga:20160420205731p:plain 青空文庫の作品から TF-IDF を指標として特徴となる語彙を抽出する - Qiita

scikit-learnでtf-idfを計算する - Qiita

python-mecabで名詞のみを抽出する | TowardSomethingNew

このへんを参考にしながら、DMMのAPIを使って、AV紹介文の特徴となる語を算出してみた。使用したデータ量はAV100本分の紹介文。

{'av.txt': [('sex', 0.32752664331628073), ('av', 0.23394760236877196), ('彼女', 0.19384229910555389), ('素人', 0.16710543026340854), ('こと', 0.15373699584233586), ('セックス', 0.14705277863179952), ('女優', 0.14705277863179952), ('美少女', 0.14036856142126317), ('エロ', 0.13368434421072684), ('出し', 0.13368434421072684)]}

予想通りというか、avやエロというようないかにもという語が並んだ。ざっくり考えて18禁なワードが多いので、これらの語を多く含む文章は18禁である疑いが高いと言えるのかも。