「表現したい世界観」「なりたいイメージ」が四字熟語でつながる?!

前回年末に行った、感情分析からの勝敗予測については、途中経過を覆し、最終的に見事的中しました!
(参照:http://www.sockets.co.jp/kansei/kansei_report01.html

さて、今回は前回の予測でも行った感情分析に焦点を当てて、もう少し詳しくご紹介していきたいと思います。
まず前回も少しご説明しましたが、ソケッツの感情分析エンジンはエンターテイメントの感性メタを教師データとして感情を分析します。
エンターテイメント作品の感情を分析する、とは、言い換えれば、作品の「世界観」を見える化する作業ともいえます。ここでいう「世界観」とは、単なる知的な理解にとどまらず、より感情と意思、つまり心持などの情意的な評価を含むものと定義しておきます。

ということで、今回は歌詞データを感情スコア化、さらに感情スコア値の類似性から、歌詞の世界観に類似した情報を、歌詞とは直接的なつながりのない四字熟語に関連付けてみたいと思います。
ひと言で四字熟語といっても広義から狭義まで様々ですが、故事や仏典に基づく慣用句を筆頭に、相撲の昇進伝達式での口上や、企業経営・戦略に直結する示唆として、また企業・経営理念などでも多く用いられ、いわば「真善美(※1)」の世界が四文字に凝縮されている四字熟語を媒体とすることで、エンターテイメント内での相関・つながりにとどまらない可能性をお届けしたいと思います。

(※1)真善美とは、人間の理想としての普遍妥当な価値のことを意味します。

今回のレポート条件

対象データ、概要は以下の通りとしました。

■1980年以降にリリースされたシングル楽曲をソケッツのMSDB(※2)より抽出した19,363曲の歌詞データをもとに感情スコアを算出

■四字熟語は自然や季節などを表すものなどは除外し、気持ちや感情を含む熟語848つを対象に、四字熟語の説明テキストを感情スコア化

■今回は結果の精度判断をしやすいように、『おおよその歌詞を知っていて、かつ世界観がイメージできる曲』について、ソケッツ社内でアンケートを取り、その結果上位10曲の感情スコア値の類似性を解析、類似度の高い上位2つの四字熟語を関連付けることとします。

(※2)MSDB(メディアサービス・データベース)とは、ソケッツが開発した音楽、映像、書籍、放送、人物、施設、一般商品情報などを体系的かつ特徴情報を詳細に分類したデータベースであり、人の感性や感情を捕捉した「感性メタデータ」をキーとしたプロファイリング、アナリティクス、パーソナライズ、レコメンド、マーケティングサービスを実現します。

対象楽曲の感情スコアのサマリー

ここで改めて、感情分析エンジンでの感情スコア値の算出についてご説明しておくと、構文を考慮した自然言語解析で、歌詞のセンテンスごとに10種類の感情スコア値を算出、センテンスごとではなく楽曲単位での感情スコア化する場合には、検出された感情スコア値は単純に加算して評価しているのではなく、より人間の感覚に近い値が得られるというソケッツの研究結果から、歌詞のセンテンスごとに算出した感情スコア値を元に、歌詞の流れを考慮したうえで、最終的なスコア値を算出しています。
つまり、楽曲単位での感情スコア値は最初から最後まで通して受ける感情を評価したスコアリングとなります。

まずは、ソケッツのMSDBから抽出した1980年以降にリリースされたシングル楽曲歌詞データの感情スコア値について、対象19,363曲のサマリーを簡単にご紹介します。

1. 感情スコア分布

19,363曲の各楽曲で算出された感情スコアで、1曲の中にどの感情がどの程度詰め込まれたストーリーとなっているかを感情スコアの分布から見てみたいと思います。まず曲のストーリー、世界観の要約、というところで、楽曲単位での平均値以上の感情数と各感情値での楽曲数分布をまとめてみました。
各楽曲の感情スコア値の平均値を出す
対象楽曲の感情スコア分布

感情別分布でみると、

(1) 4種類の感情スコアが平均値以上で「哀しみ」のスコアが1番高い楽曲 2,909曲 対象楽曲数のうち15.0%
(2) 3種類の感情スコアが平均値以上で「哀しみ」のスコアが1番高い楽曲 2,209曲 対象楽曲数のうち11.4%
(3) 4種類の感情スコアが平均値以上で「昂ぶり」のスコアが1番高い楽曲 1,912曲 対象楽曲数のうち9.9%
(4) 4種類の感情スコアが平均値以上で「幸福・恋愛」のスコアが1番高い楽曲 1,519曲 対象楽曲数のうち7.8%
(5) 3種類の感情スコアが平均値以上で「昂ぶり」のスコアが1番高い楽曲 1,483曲 対象楽曲数のうち7.7%

平均値以上の感情スコアが3,4種類の「哀しみ」「昂ぶり」「幸福・恋愛」のいずれかが突出した楽曲は10,032曲で全体の51.8%で対象の半数以上を占めました。

2. 高スコアの感情値掛け合わせ分布

次に、それぞれの楽曲で、どの感情値が高いのか、1番高い感情値と2番目に高い感情値での分布を見てみました。
対象楽曲の高スコアの感情値掛け合わせ分布

(1) 「哀しみ」「幸福・恋愛」 2,406曲 対象楽曲数のうち12.4%
(2) 「哀しみ」「昂ぶり」 1,772曲 対象楽曲数のうち9.2%
(3) 「哀しみ」「昂ぶり」 1,633曲 対象楽曲数のうち8.4%
(4) 「昂ぶり」「哀しみ」 1,599曲 対象楽曲数のうち8.3%
(5) 「幸福・恋愛」「哀しみ」 1,550曲 対象楽曲数のうち8.0%

前回の紅白優勝予測でのロジスティック回帰分析の結果も、係数が1番大きかったのは「哀しみ」で影響度が高いとみなし予測モデルを構築しましたが、今回の分析対象楽曲中「哀しみ」が1番高スコアだった楽曲は6,894曲で35.6%、邦楽は比較的「哀しみ」の要素が世界観の作品が多いようです。

3. リリース時期ごとの高スコア感情分布

最後に、リリース時期ごとに見た、1番突出していた感情値の分布は以下のようになっていました。
リリース時期ごとの高スコア感情分布

「昂ぶり」「希望」の割合は拡大傾向にあり、特に「昂ぶり」は「哀しみ」に迫る勢いとなっています。J-POPの恋愛ソングの多さが話題になることが多い中、意外なことに「幸福・恋愛」の割合は減少しています。また、「希望」はわずかながらではありますが、徐々に拡大してきています。

歌詞と四字熟語の関連付け結果を見てみる

それではいよいよ『おおよその歌詞を知っていて、かつ世界観がイメージできる曲』(ソケッツ社内アンケート上位10曲)の楽曲をベースとして、感情スコア値の類似度の高い上位2つの四字熟語が、楽曲の世界観を表せているか、結果を見ていきたいと思います。

『おおよその歌詞を知っていて、かつ世界観がイメージできる曲』(ソケッツ社内アンケート上位10曲)
1. 世界に一つだけの花 / SMAP
2. ハナミズキ / 一青窈
3. 何度でも / DREAMS COME TRUE
4. One Love / 嵐
5. もう恋なんてしない / 槇原敬之
6. 地上の星 / 中島みゆき
7. CAN YOU CELEBRATE? / 安室奈美恵
8. 春よ、来い / 松任谷由実
9. 真夏の果実 / サザンオールスターズ
10. 終わりなき旅 / Mr.Children

世界に一つだけの花|感情分析結果
ハナミズキ|感情分析結果
何度でも|感情分析結果
One Love|感情分析結果
もう恋なんてしない|感情分析結果
地上の星|感情分析結果
CAN YOU CELEBRATE?|感情分析結果
春よ、来い|感情分析結果
真夏の果実|感情分析結果
終わりなき旅|感情分析結果

いかがでしょうか。四字熟語の意味と曲の世界観、なかなか相関性の高い関連付けとなっているのではないでしょうか。

感情分析エンジンは、単純なキーワード抽出処理ではなく、取り扱いデータにより、話し言葉、擬音等の混入など、それぞれでコーパスを作り精度を上げ、構文解析によって難しい文脈や言い回しにも対応し、高精度な感情スコア化を実現していますので、NO.5『もう恋なんてしない』に登場する、「もう 恋なんて しない なんて 言わないよ 絶対」という人が最後まで聞かないと理解できない意味の解釈も正確に行い、スコアリングしています。

その結果として、NO.3『何度でも』とNO.5『もう恋なんてしない』、曲のテーマ、印象が全く異なる両曲でともに関連付けられている「堅忍不抜(意志が強く、辛いことや困難なことがあっても耐えて、信念を貫くこと)」は、両曲の歌詞を表す四字熟語として違和感ない結果を得ています。

まとめ

このようにソケッツの感情分析エンジンは、従来のキーワードマッチングによる方法ではなく、「気持ち」や「感情」の類似した情報を見つけ、歌詞データにとどまらず、人の感情に基づく他のデータの取り扱いが可能で、さらに関連付けることができます。

たとえば、“辛いことや困難なことがあっても耐えて、信念を貫く”という世界観やイメージを持たせたい企業や商品があったとして、今回の結果からいえば、NO.3『何度でも』をタイアップソングやテーマソングとするなど、「なりたいイメージ」と「表現したい世界観」の楽曲が、四字熟語を媒体としてつながるわけです。

近年、自然言語処理で潜在意味解析という文脈で発展してきたトピックモデルは、簡単にいえば、データの背後にある隠れた「トピック」を推定するということですが、今回の四字熟語はまさに“隠れたトピック≒潜在意味”と同等であると位置づけられるかもしれません。

今後、四字熟語は前述した相撲の口上や企業経営視点以外に、ドラマやCMなどのキャスティングやプロモーション・タイアップにおいても、四字熟語を媒体として、アーティスト/クリエイターと企業や商品がつながる、なんていうことが当たり前になるかもしれません!?

(※3)トピックモデルとは、文書中の各単語およびそれらの単語が属するトピックが確率的に生成されていると仮定するモデルで、文書から「何らかの話題(=トピック)」を発見するための統計的なモデルです。

Pagetop