読者です 読者をやめる 読者になる 読者になる

ぐ~たらオタクの似非考察日記

アニメ・マンガ・ゲーム・ライトノベルについて考察するブログです。

「ライトノベル批評」に「テキストマイニング」をどう活かすか?:雑感兼備忘録

先日魔法科高校の劣等生に関する分析記事として以下を投稿した。

 

魔法科高校の劣等生の作者が度を超えた批判をされるのはネトウヨ的作品だからである。 - ぐ~たらオタクの似非考察日記


全体の流れとしては

2chアンチスレのデータ収集(手でコピペした)

ゴミ取り(レスタイトル、AAなどの除去。一部失敗)

KHCoderの頻出単語150語と共起ネットワークを使用した魔法科高校の劣等生周辺のコミニュケーション分析

内容としては作品本体ではなく周辺の反応を解析し批評行為*1を行った。

テキストマイニングはまだまだ利用できる側面が存在すると思っていてこれからも行っていきたいと思っている。
本記事ではテキストマイニングを行うための今後の指針をまとめる・整理すること、また備忘録目的として書き記しておく。

1.テキストマイニング実例?

現状、サブカルチャー関連に置いてテキストマイニングを使用した分析は殆ど無い。
というかそもそもテキストマイニング自体がマイナーな為ある意味当然かも知れないが。
少ないながらも現時点で利用しているいくつかの記事リンクを貼り付けておく*2

ライトノベルのタイトルを形態素解析した例


コミックマーケット83の同人誌の感想(統計とかプログラミング - 唯物是真 @Scaled_Wurm


自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!

 


進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ!

 

2ch 

 

2.ライトノベルにおいてテキストマイニングを何に使用するか?

以下、素人知識

形態素解析を使用した分析は割と実用レベルに達しており、
前回使用した共起ネットワークやもう少し深堀りすれば二次元尺度表などを組み合わせてある程度の分析を行うことはできるような気がする。
前回は周辺コミニュケーションに注視してマイニングしたが他にも魔法科高校の劣等生そのものを分析するということも考えられる。
もともとがWeb媒体の為本編データをそのまま形態素解析できるのでその辺すごく楽である*3
劣等生以外にもWeb小説だとSAOの本編データも所持しているのでいずれできるかもしれない。

ただし、構文解析など別分野になるとハイレベルすぎる上にまだまだ発展分野のためか殆どやっている人を見ない。
つーか私もよくわからん状態である。(実はやってる人いるのか?)
また、word2vecは今のところ小説等で利用する方法がパッとは思いつかない。(あと俺の勉強が必要だからめんどくさい

現状思いつく限りでは以下の様な事が考えられる。

■小説・ライトノベル本体の解析
 ・本文をまるごと解析するもの
 ・章毎に区切った解析etc,etc...
ライトノベルのジャンルにまたがった解析
 ・ライトノベルのタイトル解析
 ・特定ジャンルの頻出単語(SFでは~とか俺TUEEEEでは~とか)
 ・機械的なジャンル分け←ハードル高杉(つーかこれはちょっと手動でもいいからやってみたい2014年はどのジャンルが多かったか?とか)
■前回やったような周辺のコミニュケーション解析
 ・2chスレット分析(アンチだけでなく普通の方も)

個人的には


コミックマーケット83の同人誌の感想(統計とかプログラミング - 唯物是真 @Scaled_Wurm

のように書籍を裁断しOCR解析ののち形態素解析等はやってみたい。

幸い、裁断セットは所有しているためできることはできる。
ただ、OCR解析の精度がどの程度なのかといった部分は要検証。

また先日の記事はデータの解析が甘い部分や話のつなぎに強引さが見られる部分もあるのでさらに深堀りして解析するのよも良いかもしれない。共起ネットワークだけではなく二次元尺度等他にも使えそうな部分はあった。とりあえずやってみた感覚としては数(経験値)が必要そうなのでもう少し勉強に平行して行っていくことも必要か。

3.全然関係ないこと

俺ガイルが最近純文学のみたいな表現を使うんだがその辺の分析をしたい。
ただ、自分の勉強量が足りないため要学習。
ようわからんがなんかフォルマリズムとか調べりゃいいのかな?

*1:まぁ、批評というレベルに到達しているかどうかはここでは一旦無視する。

*2:むしろ知ってたら教えてくれ

*3:ちなみに試しにちょっとやってみたら、「手」とか「顔」とかすごいいっぱい出てきた。その辺から攻めるのもいいかもしれない。あとレオの単語頻出回数がやっぱり少なかったり・・・