形態素解析をご存知でしょうか。
コンピュータ技術の一種で、文章を最小構成の要素(形態素)に分割する解析技術です。
今回は形態素解析を使って、私の大好きなMr.Childrenの歌詞を分析、どんな言葉が多く使われているのか調べてみました。
記事の最後に「多く使われている言葉」もご紹介しますのでお楽しみに。
形態素解析とは
形態素解析とは、文章の中にある単語を最小単位である形態素に分割し、それぞれの品詞を割り出すコンピュータ技術です。
歌詞のデータを用意
形態素解析は、文章を解析する技術なので、まずは文章(今回は歌詞)のデータが必要です。これについてはソフトで行いました。
Lyrics Masterというソフトを使って歌詞のテキストデータを取得します。
ソフトを起動して、アーティスト検索をします。
ダウンロードは右クリック「全てダウンロード」で一括取得できます。
操作する前に、環境設定で「ダウンロード時に自動で保存」にチェックをいれておかないとダウンロードしてくれません。
それでは、このファイルを形態素解析で分析していきます。
Mr.Childrenの歌詞を形態素解析で多く使われている言葉を調べる
形態素解析はPythonでスクリプトを作り実行しました。
こちらのサイトを参考にさせていただきました。
【形態素解析】ゲスの極み乙女。の歌詞で最も使われる単語を調べてみる【Python】
環境
言語はPython3。形態素解析はPythonのライブラリjanomeです。
使い方
作成したpyファイルと同じ場所にフォルダを用意します。
そこに歌詞のテキストデータを入れておきます。
Macのターミナルで作成したpyファイルを実行すると結果がコンソールに表示されます。
Mr.Childrenの曲によく出てくる言葉
形態素解析の結果はこのようになりました。
()の数字は出現回数です。
- 君(616)
- 僕(526)
- 人(232)
- 何(214)
- 誰(207)
- 今(191)
- 中(166)
- こと(148)
- 夢(145)
- 心(144)
- 日(138)
- 胸(137)
- 自分(137)
- それ(132)
- 手(129)
- 僕ら(123)
- 今日(105)
- 一(105)
- そう(102)
- もの(101)
- 風(100)
- 目(95)
- 時(93)
- まま(90)
- 愛(82)
- 明日(80)
- 前(77)
- 事(76)
- 世界(75)
- 街(74)
- いつ(69)
- 恋(69)
- どこ(68)
- 光(62)
- 声(60)
- 二(59)
- 想い(59)
- 夜(58)
- 気(58)
- 未来(56)
- あなた(52)
- 度(51)
- 場所(49)
- そこ(47)
- いつか(46)
- 好き(45)
- みたい(44)
- 者(42)
- 言葉(42)
- 方(40)
- ここ(40)
- 上(39)
- 歌(39)
- 孤独(39)
- 空(39)
- 悲しみ(38)
- 昨日(37)
- 時間(37)
- ため(37)
- 自由(35)
- 顔(34)
- はず(33)
- 何処(33)
- 幸せ(33)
- 道(32)
- 音(32)
- 希望(32)
- 日々(31)
- 意味(31)
- 時代(31)
- とき(31)
- 色(30)
- 笑顔(30)
- ひとつ(29)
- 嘘(29)
- 涙(29)
- 様(29)
- すべて(28)
- 気持ち(27)
- 虹(27)
- 遠く(25)
- もん(25)
- 答え(25)
- 耳(25)
- 命(25)
- 歩(24)
- キス(23)
- 人生(23)
- 為(23)
- 頭(23)
- 回(23)
一番多く使われている言葉は「君」でした。
「君が好きぃー」
ワードクラウドで画像にしてみる
形態素解析した歌詞を画像にしてみました。ワードクラウドという技術です。
これは、文字の出現回数順に大きな文字で表示するものです。
これもPythonのスクリプトで実行できます。調べればいろいろな情報が出てきますので興味のある方は調べてみてください。