青空文庫の作品から TF-IDF を指標として特徴となる語彙を抽出する - Qiita
scikit-learnでtf-idfを計算する - Qiita
python-mecabで名詞のみを抽出する | TowardSomethingNew
このへんを参考にしながら、DMMのAPIを使って、AV紹介文の特徴となる語を算出してみた。使用したデータ量はAV100本分の紹介文。
{'av.txt': [('sex', 0.32752664331628073), ('av', 0.23394760236877196), ('彼女', 0.19384229910555389), ('素人', 0.16710543026340854), ('こと', 0.15373699584233586), ('セックス', 0.14705277863179952), ('女優', 0.14705277863179952), ('美少女', 0.14036856142126317), ('エロ', 0.13368434421072684), ('出し', 0.13368434421072684)]}
予想通りというか、avやエロというようないかにもという語が並んだ。ざっくり考えて18禁なワードが多いので、これらの語を多く含む文章は18禁である疑いが高いと言えるのかも。