読者です 読者をやめる 読者になる 読者になる

FutureInsight.info

AI、ビッグデータ、ライフサイエンス、テクノロジービッグプレイヤーの動向、これからの働き方などの「未来」に注目して考察するブログです。

unofficial Google Trends APIで2008年度No.1グラビアアイドルを計算する方法

ネットサーフィンをしていたら、Google Trendsの結果を画像から計算してしまうGoogle unofficialなGoogle Trends APIを発見しました。

以前以下のエントリーで書いたように、僕はGoogle Trendsはグラビアアイドル(というか芸能人全般)評価の指標として極めて優秀だと思っているので、上記APIを使ってサクッと2008年度で最も検索回数が多かったグラビアアイドルを算出してみました。

指標を計算対象とするグラビアアイドルとしては、グラビアアイドル研究所の「2008グラビアアイドル ランキング」で40位以内に入ったグラビアアイドルを利用しました。

また、この中でさすがに、「綾瀬はるか」と「上戸彩」、「堀北真希」あたりはすでにグラビアアイドルというのはどうかと思うので、ランキングの計算対象から外そうと思うのですが、とりあえずランキング作成の時に外せば良いので、計算はそのまま行いました。


以下がサクッと書いたPythonスクリプトです。15分ほどで書いたので怪しい箇所もありますが、とりあえず汎用的に使えると思います。上のエントリーからダウンロードしてきたpyGTrends.pyを同じディレクトリにおいて、実行してください。Google Trendsは何かの基準に対する相対的な指標なので、比較を行うためには基準のキーワードが必要です。したのスクリプトでは安定して人気のある「安田美沙子」を指定しています。また、計算に利用する年度は2008年としました。

# -*- coding: utf-8 -*-

from pyGTrends import pyGTrends

# 比較の基準とするキーワードを指定します。
base_keyword = '安田美沙子'

# 比較対象を指定します。
keywords = ["南明奈","川村ゆきえ", "原幹恵", "杉本有美", "谷桃子", "スザンヌ",
 "ほしのあき", "山本梓", "紗綾", "リア・ディゾン", "安田美沙子", "辰巳奈都子",
 "熊田曜子", "優木まおみ", "浅尾美和", "山崎真実", "愛衣", "佐々木希", "安めぐみ",
 "次原かな", "岩佐真悠子", "秋山莉奈", "小倉優子", "堀北真希", "青島あきな",
 "安藤沙耶香", "木下優樹菜", "桜庭ななみ", "相澤仁美", "中川翔子", "相武紗季",
 "池田夏樹", "上戸彩", "小松彩夏", "田代さやか", "稲垣美花", "綾瀬はるか",
 "北乃きい", "松井絵里菜", "滝沢乃南", "仲村みう"]

# 算出に使う年を指定します。
year = "2008"

connector = pyGTrends('ここにあなたのgoogleのユーザ名','ここにあなたのgoogleのパスワード')

result = {}

for keyword in keywords:

  base_point = 0.0
  keyword_point = 0.0
  times = 0.0
  
  connector.download_report((base_keyword, keyword))

  for line in connector.csv().split("\n"):
    items = line.split(",")
    if -1 != items[0].find(str(year)):
      times = times + 1
      base_point = base_point + float(items[1])
      keyword_point = keyword_point + float(items[3])

  if times != 0.0:
    base_point = base_point/times
    result[keyword] = keyword_point/times

def keyGetter(x):
  return x[1]

items = result.items()
items.sort(key=keyGetter, reverse=True)

for item in items:
  print "%s:"%item[0], item[1]/base_point

以下が計算結果です。数字の意味は2008年度の「安田美沙子」のGoogleにおける検索回数を1としたときに、他のグラビアアイドルは何倍検索されたかという相対的な指標です。

#グラビアアイドルのGoogle Trendsから計算したランキング。基準に使った安田美沙子が1となります。
スザンヌ: 2.48340548341
ほしのあき: 2.31240981241
綾瀬はるか: 2.24206349206
中川翔子: 2.19264069264
上戸彩: 2.06132756133
堀北真希: 2.05483405483
小倉優子: 1.5873015873
佐々木希: 1.48340548341
木下優樹菜: 1.30375180375
リア・ディゾン: 1.2031024531
優木まおみ: 1.18542568543
南明奈: 1.17821067821
仲村みう: 1.15007215007
川村ゆきえ: 1.11688311688
相武紗季: 1.0937950938
安めぐみ: 1.06998556999
北乃きい: 1.0670995671
安田美沙子: 1.0
浅尾美和: 0.963203463203
熊田曜子: 0.914141414141
原幹恵: 0.88455988456
山本梓: 0.867965367965
秋山莉奈: 0.719336219336
田代さやか: 0.689033189033
杉本有美: 0.674603174603
紗綾: 0.667388167388
滝沢乃南: 0.650793650794
相澤仁美: 0.642857142857
青島あきな: 0.533189033189
次原かな: 0.49062049062
辰巳奈都子: 0.393939393939
山崎真実: 0.373015873016
谷桃子: 0.358585858586
小松彩夏: 0.347763347763
愛衣: 0.305916305916
岩佐真悠子: 0.302308802309
安藤沙耶香: 0.230158730159
桜庭ななみ: 0.0937950937951
池田夏樹: 0.0
稲垣美花: 0.0
松井絵里菜: 0.0

うーん、これは興味深い結果です。長くなったので、分析は次のエントリーで行いたいと思います。