18禁な文章からTF-IDFを使い、特徴となる語を算出する

このへんを参考にしながら、DMMのAPIを使って、AV紹介文の特徴となる語を算出してみた。使用したデータ量はAV100本分の紹介文。

{'av.txt': [('sex', 0.32752664331628073), ('av', 0.23394760236877196), ('彼女', 0.19384229910555389), ('素人', 0.16710543026340854), ('こと', 0.15373699584233586), ('セックス', 0.14705277863179952), ('女優', 0.14705277863179952), ('美少女', 0.14036856142126317), ('エロ', 0.13368434421072684), ('出し', 0.13368434421072684)]}