レポート共有サイト「JMP Public」のご案内

JMPでは、分析レポートをWebサイトで共有できるJMP Publicというサイトを提供しています。

2018年末にリリースしたJMPの最新バージョン JMP 14.2では、レポートウインドウから［ファイル］→［発行］を選択することで、このJMP PublicにインタラクティブHTML形式の分析レポートをアップロードできるようになりました。

レポートは、アップロードした本人のみ、またはすべての人々が閲覧できるように公開範囲を設定できます（アップロードには、SASプロファイルを使ってJMP Publicのサイトにサインインする必要があります）。

JMP Publicには、たくさんの分析レポートがアップロードされています。
JMPジャパン事業部のエンジニアが投稿したレポートがありますので、そのレポートの内容を詳しく解説した記事とともにお楽しみください。

バンド「クイーン (Queen)」の楽曲を
テキストマイニングしてみると

SAS Institute Japan株式会社 JMPジャパン事業部
システムエンジニア増川直裕

昨年末に公開された映画『ボヘミアン・ラブソディ』はご覧になりましたでしょうか。
公開直後に映画の面白さが話題となって大ヒットし、クイーンが活躍していた時期に聴いていた世代から、クイーン自体をあまり知らない若い方まで幅広い世代が鑑賞されているようです。

私も鑑賞しましたが、ストーリーもさることながら、今聴いても色褪せない楽曲に心を打たれました。その後、クイーンの詩をもっと知りたいという思いから、職業柄なのか突如（？）テキストマイニングを試みました。

分析する以前の私はクイーンの代表的な曲しか知りませんでしたが、”Bicycle” という単語を連呼したり、楽曲「ボヘミアン・ラプソディ」のように ”Killed a man” （男性を殺した）という歌詞や、オペラ部分の特徴的な歌詞があることから、何か面白い結果が得られるのかなぁと考えていました。

テキストマイニングした中から、次の3つの結果をご紹介します。

どんな単語が多く使われている？
楽曲を、使用している単語で分類してみると？
歌詞に含まれる単語によって作詞者を判別できる？

分析対象は1973年から1991年のアルバムに収録された楽曲とし、歌詞がない楽曲（インストルメンタル）は除きました。1991年までとしたのは、ボーカルのフレディ・マーキュリーが存命中にリリースされた楽曲を対象としたかったからです。

どんな単語が多く使われている？

分析対象とした楽曲について、どんな単語が多く使われているのか。
その答えをワードクラウドで示しています。ワードクラウドとはテキストマイニングでよく用いられる可視化手法で、単語の出現頻度が高いほど大きな文字で表示します。

ワードクラウド（単語の出現頻度）

上記をクリックして表示されるワードクラウドについては、次の3点にご注意ください。

語幹抽出を行ない、度数が10以上の単語を表示対象としています。
語幹抽出とは単語の語尾の変化を取り除き、語幹が共通する単語をまとめる方法です。語幹抽出している単語には、単語の最後に “・” のマークをつけています。たとえばワードクラウドの中に “know・” と表示されていますが、これには、”know”、”knowing”、”knows” の3つの単語が含まれています。
冠詞、助動詞、代名詞、be動詞、前置詞と思われる単語は、分析から除外しています。
単語には、青（平均的にリリース年が初期）～赤（平均的にリリース年が後期）でグラデーションをつけています。つまり、青い色の単語ほど初期の楽曲に多く使われた単語であり、赤い色の単語ほど後期（1991年を最後として）の楽曲に多く使われた単語であることを示します。

楽曲を、使用している単語で分類してみると？

対象となる楽曲を、似た単語が使われている楽曲に分類（グループ化）してみます。
そのために、まず、文書単語行列という概念をご紹介します。

文書単語行列とは、各単語が出現したか否かを行列形式で表したものです。
行は楽曲、列は各単語を示しますが、ある単語の列に対し、その単語が出現している楽曲（行）には1の値を、出現していない楽曲には0の値を割り当てます。このように1または0の値をとる文書単語行列を作るという方法がシンプルではありますが、ここでは、”TF IDF”という単語の重要度を加味して重みづけをした文書単語行列を作成します。

詳しい定義は省略しますが、多くの楽曲に出現する単語の重要度を下げ、一部の楽曲のみに現れる単語の重要度を上げる重み付けをします。

例として語幹抽出した、”life・”（life, life’s）、”bicycl・”（bicycle, bicycling）の2つを考えてみます。
下の表が重み付けした文書単語行列の一部です。

0以外の値が入っている箇所は、その楽曲に該当する単語（列名の単語）が含まれていることになり、その単語が何度も使われていた場合は値が大きくなります。

たとえば ”life・”は、多くの楽曲で使われているので小さな値になります。
一方、”bicycl・”は、”Bicycle Race”と“More Of That Jazz”の2曲のみでしか使われていないので大きな値になります。さらに、”Bicycle Race” は何度も “bicycle”をリフレインしている曲なので、”bicycle”という単語が一度しか出現しない“More Of That Jazz”より大きな値（46.557）になっています。

この文書単語行列に特異値分解（SVD; Singular Value Decomposition）という手法を使うと、行列の情報を低次元に縮約でき、類似した単語を使っている楽曲や単語自体をマッピングすることで視覚的にグループ化できます。

次の図の左側では楽曲の類似性を、右側では単語の類似性を可視化しています。

上の図の左側で、近くの位置にある楽曲は類似している、遠くにあるものは類似していないことを示しています。

原点（0,0）の付近に多くの点が位置していますが、それらの集まりより遠くにある点（楽曲）にラベルをつけています。これらラベルのついた楽曲は、クイーン全体の楽曲の中では、特異な単語を持つものということになりますが、ここでは”Bohemian Rhapsody” と”Great King Rat” の2曲に着目してみます。

どちらも原点から遠く離れた場所に位置していますが、右図から単語の類似性をみると、2つの楽曲から同じぐらいの距離に”mama・”、”tell・”、”die・” が位置しています^*1。

これらの単語は、原点から若干遠くに位置しているので、あまり他の楽曲で使われていないという意味で少し特異な単語ではありますが、”Bohemian Rhapsody” と”Great King Rat” はこれらの単語がある程度使われています。
これらのことも関係して、2つの楽曲はこのような場所に位置しているのです^*2。

ちなみにどちらの楽曲もフレディ・マーキュリーが作詞しています。

*1 左図と右図では各座標の最小値と最大値は異なるのですが、それは無視してかまいません。
*2 実際は、他の単語の使用状況も考えています。

さらに関連する分析として、特異値分解した情報（特異ベクトル）を使い、（階層型）クラスター分析をしてみます。クラスター分析では、似た単語を使っている楽曲（正確には距離が最も近い楽曲）が順々にグループ化され、樹形図ができます。

この結果から、グループ（クラスター）の数を決めて楽曲をグループ化できますが、ここでは7つにして、グループごとに色付けした結果を示します。

文書単語行列の特異値分解によるマッピング、クラスター分析

歌詞に含まれる単語によって作詞者を判別できる？

この分析の対象となった当時（1973～1991）のクイーンのメンバーは、フレディ・マーキュリー、ブライアン・メイ、ロジャー・テイラー、ジョン・ディーコンの4名ですが、全員が作詞、作曲に関わっており、それぞれヒット曲を世に送り出しています。

文章でもそうですが、歌詞についても作詞者がよく使う単語、他の人はあまり使わないがその作詞者特有の単語というものがあるかもしれません。
クイーンの場合はどうでしょうか。

ここでは作詞者が特定の1名のみである楽曲に絞って判別分析を使い、上記で記載した文書単語行列を使うことによって、作詞者を判別できるかを調べてみます。

使用頻度が上位100単語の文書単語行列（重みTF IDF）を使って、予測される作詞者と実際の作詞者が一致するかどうか調べてみます。

判別分析

上のリンクをクリックして表示される結果は、次のように読みます。

結果の下側には、次のような表がありますが、これは実際の作詞者（Actual）と、判別分析により予測された作詞者（Predicted）のクロス集計表です。

Actual	Predicted Count
Author	Mercury	May	Taylor	Deacon
Mercury	42	1	0	0
May	0	36	0	0
Taylor	0	0	17	0
Deacon	1	0	0	11

1行目はフレディ・マーキュリーですが、上位100単語の情報を使って作詞者を予測したとき、予測が的中した楽曲は42曲あります。一方、1曲だけが実際はフレディ・マーキュリーが作詞したのに、ブライアン・メイと予測してしまった、すなわち予測が外れたことになります。

表の上に表示されている”Percent Misclassified”は誤判別率という指標で、間違って予測した割合です（間違って予測した楽曲数 ÷ 分析対象の楽曲数で計算されます）。

“Canonic Plot”は正準プロットとよばれ、2次元の座標で判別の状況を視覚的に表したものです。
グラフ上に4人がポジショニングされていますが、ロジャー・テイラーは、他の3人から遠くに位置にポジショニングされています。そのため、ロジャー・テイラーの詩に使う単語の傾向は、他の3名と大きく異なるといえます。

実際、上で提示したクロス集計表を確認すると、ロジャー・テイラーが作詞した曲（17曲）はすべて予測が的中し、他の3名の作詞による楽曲でロジャー・テイラーの作詞曲と間違われたものはないことからも分かります。ちなみにグラフ上でラベルを付けた点は、誤判別した楽曲になります。

今回ご紹介した分析も含め、私の分析レポートは以下の場所に保存しています。

https://public.jmp.com/users/259

これからも、気が向いたら興味深い分析結果を投稿するつもりですので、お楽しみに。