声優検索ロゴ
声優検索 声優数 8,257人
声優を探せる検索サイト

Blog

声優データを抽出するとは

Wikipediaダンプから声優ページを拾い、例外カテゴリや活動実態の判定を経てデータ化する流れを紹介します。

一覧へ戻る Xでシェア
小話 開発ブログ

声優データの作り方

当サイトではウィキペディアのデータを使っている。ウィキペディアの内容はクリエイティブコモンズライセンスといって、同じライセンスを継承すれば自由に改変、配布できるんだよ。
したがって弊サイトのコンテンツはウィキペディアと同じCC BY-SA 4.0ライセンスで公開している。

ただ、このブログはWikipediaからの継承物ではないので、通常の転載禁止のライセンスだ。
まあ、それはそれとして、どうやってデータを抽出しているかについて説明しようと思う。

Wikipediaの取得

Wikipediaを直接クローリングして情報を取ってきているわけではない。
毎月月初にその時点のバックアップデータが公開されるので、それをダウンロードして解析している。
全日本語の記事データは圧縮していても4.4GBもある。そこから声優関連のページのみを抽出する。

声優ページの抽出

声優には、「日本の男性声優」と「日本の女性声優」というカテゴリが例外を除いて割り当たっている。
ただし一人だけ例外がいる。高垣彩陽だ。
なぜかこの人だけが直接上記声優カテゴリに属しておらず、「カテゴリ:高垣彩陽」を経由している。

Wikipediaは多くの人が参加しているので、このようにルールが統一されていないことがある。

声優実態の判定

また、上記カテゴリに属していても声優としての活動実態がない人も多く登録されている。
一回こっきりの声優活動もよくあるが、カメオ出演のようなものまで入っていることもある。
当サイトでは作品一覧を見て、声優実態があるかどうかをルールベースで判断して抽出している。

作品一覧の抽出

ただ、このルールベースもかなり大変だった。
作品一覧の抽出なのだが、見出しがバラバラなのだ。
「出演」で始まるものもあれば、「声優活動」で始まるものもある。

続いてウチの屋台骨である作品データだ。
主にアニメとゲームをメインに取得している。

ここで困るのが声優以外の作品である。
見出し行から推定して取得するところを決めているが、まだまだ精度が高くない場合もある。

役名と作品名の抽出

続いて役名と作品名だ。多くの場合は以下のようなパターンになる。

機動戦士ガンダム(1979年 - 1980年、シャア・アズナブル)

ところが別のパターンもある。

千と千尋の神隠し(2001年7月20日、東宝) - 坊 / 坊ネズミ 役

上が声優業界でスタンダードな記法である。
テストケースに使っていたので私は「池田秀一パターン」と呼んでいる。

一方で下の方は俳優業界によくあるパターンだ。
こちらもテストケースに使っていたので「神木隆之介パターン」と呼んでいる。
カッコ内に役名が入る場合と、カッコ内に配給会社やテレビ局が入り、その外に役名があるパターンだ。
もちろんカッコの外に何か書かれていれば良いというわけではない。

金田一少年の事件簿(1997年 - 2007年、雪室憂一、聖正秋人、緋色景介) - 1シリーズ + 特別編

こういうパターンもあるからね。

泥臭いパターンマッチング

実際は多くのパターンによる場合分けで泥臭く対応している。
例えばテレビ局や映画会社のリストを保持していて、それがカッコ内にあれば神木パターンとして認識させている。

コーディング自体はAIにやらせているが、こんな複雑な正規表現は人間がやるもんじゃないぜ。
大量のテストコードも用意している。
少しの修正が全体に波及するほど薄氷のパターンマッチングだ。

おわりに

このほかにもいろんなパターンがあって面白いが、少しくどくなるので今日はここまでにしておこう。
とにかくこのようにデータ抽出をしているのだ。

開発者について

Twitter