ビッグデータの活用

近年、メジャーのオークランド・アスレチックスは「貧乏球団」でありながら、プレーオフに出場するほどの「強豪チーム」となった。
その「強さ」の秘密は、従来とは全く異なる選手の「評価方法」にあった。
映画「マネーゲーム」は、弱小球団・アスレチックスを「強力球団」に変えた一人のゼネラル・マネージャーの話である。
そこには、野球選手の「データ」をみる際の「視点」の転換が大きな要素だった。
野球において、バッターの実力を把握する最有力なデータに「打率」がある。
打率の高い選手を揃えようとすると、多額の年棒が必要になってしまい、経済力が弱いチームには「重荷」になってしまう。
貧乏球団ではそういうハイアベレージ選手が採れないという、背に腹変えられぬ「事情」があった。
一方、野球は塁に出ないと得点には結びつかない。
よって、アスレチックスは四球でもなんでも、トニカク「塁に出れる」選手を高く評価した。
打率は平凡でも「選球眼」が良い選手は四球が増えて「出塁率」が高くなる。
しかも、そうした選手は、打率が高い選手より「安い年棒」で雇える。
大リーグのドラフト会議では30球団が希望の選手を順々に指名していく。
そのため、とりたい選手が20人いたとしても、そのうち3人を獲得できれば大成功といわれる。
ところが、アスレチックスは事前にリストアップした上位20人のうち、ナント13人の獲得に成功した。
なぜなら、他球団と「選手の評価軸」が全く異なり、指名がほとんど「重なら」なかったからだ。
その典型例がブラウン選手であった。
スカウトの言葉を借りると「ただの太ったキャッチャー」で評価は「下の下」である。
しかし大学での成績は、「四球の数」で全米トップであったからだ。
そこで、アスレチクスは「四球が多いから」を理由に「獲得」に動く。
四球は「打率」に含まれず、四球の多い選手は高打率の選手より年俸が安いため「費用対効果」が高いのである。
そこで「出塁率」に加え、「長打率」を加味した「新たな指標」で選手を評価し直したのである。
興味深いのは、相手に易々とアウトを一つ献上してしまう「送りバント」ナド一切するなとの指示もあった。
ところで、この アスレチクスのゼネラル・マネージャーが採用した評価方法を「セイバーメトリクス」といい、ビル・ジェームズによって1970年代にスデニ「提唱」されたものだった。
軍隊を退役した後に缶詰工場に「警備員」として勤務していたジェームズが、夜勤の「暇つぶしに」自分の趣味である野球データの分析をしていたことが、「セイバーメトリクス」の始まりである。
彼は1977年に「Baseball Abstract 」直訳すると「野球梗概~ 知られざる18種類のデータ情報」という68ページの小冊子を「自費出版」した。
、 ジェームズ自身が本格的に野球をプレーした経験が無く、無名のライターに過ぎなかったこともあって、そのデータ解析は当初「批判的」に扱われた。
この本でジェームズは「エラーという概念が実情にあっていない」などいくつかの従来の常識を覆す仮説の提示と分析を行った。
この本の購入者はたった75人であったが、同時期のコンピュータの発達とともに「データ分析」の自由度が増し、「野球梗概」 は年を重ねるごとに購読者を増やしていった。
読者数の増加とともに野球データの分析を行うファンの数も増えていった。
そして、「野球梗概」はスポーツ専門雑誌「スポーツ・イラストレイテッド」のライターの目に留まり、1982年にニューヨークの出版社から販売されベストセラーとなった。
しかし、保守的な勢力が強いメジャーリーグはこのような動きに対して「興味」を示そうとしなかった。
メジャーのデータを管理していたエライアス・スポーツ・ビューロー社も「セイバーメトリクス愛好家」(セイバーメトリシャン)にはデータをイッサイ提供しようとしなかったという。
そのため、ジェームズは知人が設立したデータ分析専門の会社「スタッツ社」を使って独自にデータを分析した。
そしてメジャー球団に分析したデータを提供しようとしたが、それでも「相手」にされなかった。
そこでスタッツ社は「方針転換」し、集計したデータを野球ファン向けに「販売」した。
これがアタッテ会社は「急成長」し、スポーツ専門テレビ局が「顧客」となり野球ファンの貴重な「情報源」となっていったのである。
それは、「セイバーメトリクス」という選手を見る「新しい視点」とコンピュータの発達が相俟って広まることとなった。
「ビッグデータ」解析も、どこを着目するかという「視点」がポイントである。
そういう意味で、1970年代のビル・ジェームズの「セイバーメトリクス」に、今日の「ビッグデータ」時代への「予兆」を見ることはできないだろうか。

今、携帯電話やスマートフォン、ネットワーク上の様々なサービス、ICカード、全地球測位システム(GPS)などを通じて、様々な履歴やサービスの利用状況に関する膨大な量の情報、つまり「ビッグデータ」が日々取得されている。
誰がどのサイトを見たか、どの駅を利用したかなどのデータか、「飛躍的に」増え蓄積されている。
また、こうしたビッグデータを有効に活用しようという「動き」が広まっている。
そして、そうしたデータの解析手法も格段に「進化」している。
つまり「データの山」をどのように採掘し、どんな「鉱床」を見つけられるかが、「時代の要請」ともナリツツあるのである。
具体例をいくつかあげると、JR東日本の関連会社が、駅構内に自動販売機を設置しており、人々はこの自販機は商品をICカード「Suica」を使って買うことができる。
そうすると、買った人の名前、性別や年齢、買った商品、買った駅名などが「記録」として残ることとなる。
こうした自販機は首都圏に5200台ほどあるが、ここで蓄積されたデータを会社に送ると、データ分析して「売れそうな」商品を「駅ごと」に変えて売り上げを伸ばすことができる。
また、ビッグデータの活用の動きは「防災」の分野ニモ広がっている。
アメリカのIT企業グーグルと大学の研究者が、東日本大震災で、ツイッターの投稿や、GPSの位置情報を元に人々の行動分析を行い、今後の「防災対策」に役立てようという研究が行われている。
またNHKの或るニュース番組では、ツイッターで「つぶやかれた」言葉のうち「頻度の高い」言葉を分析し、社会の関心が「現在」ドコニあるかを「キーワード」にして「番組作り」をしているという。
さて「ビックデータ」を単に「データサイズが大きいデータ」とダケ認識することは「本質」を見失うことになる。
「ビッグデータ」の核心は、個々の事象をどれだけ「細かく説明」できるかということと、「リアルタイムのデータ」ということにある。
その結果、データサイズが大きなったというのに過ぎない。
つまりこれまでのアンケート調査のような「30代男性」といった十把ヒトカケラの情報ではなくて、個々人のキメ細かいデータであることと、データ分析の時点と集計結果にタイムラグが存在しないということが重要なのである。
そしてこのビッグデータから、世の中に役立つ情報や、生活が豊かになる「知見」を切り出すことが大事である。
つまりビッグデータは社会問題を解決できる「宝の山」でもあるのだが、そこから「何か」を読み取る能力がもとめられる。
それは、従来の「統計家」の知識に加え、IT技術にも精通することによってハジメテ可能であり、「データ・サイエンティスト」とはそういう能力を持つ人々であり、日本では現在1000人程度しかおらず、欧米や中国に遅れをとっている。
データサイエンティストは、「データ」の山を採掘して鉱床を見出す、「データの採掘士」ともいえ、彼らは人々の生活や社会問題を解決できる「隠れた金脈」にも到達することも可能なのである。
例えばレストランで定まったメニューに「新たな」メニューを付け加えたい。
しかし、そのためには一つのメニューを「除か」なければならないケースを考えてみよう。
普通なら売れないメニューを「除くべき」と考えるが、データサイエンティストなら、「違った」答えを出す可能性がある。
それは、売れ筋ではないその商品をたのむ人が、実はレストランで使う金額がとても大きいことに気づいた場合などである。
つまりデータサイエンティストなら、何人かの「お得意さん」がそのメニューを楽しみに、この店を訪れて沢山のお金を使っていた「可能性」が読みとれたからである。
だから、売れ筋ではないといってその商品をメニューから除くと、店の売り上げの減少に繋がると「提言」できるのである。
またビッグデータは「交通事故」を減らすことにも役立ちうる。
埼玉県と或る自動車会社と提携して行った実証実験のケースである。
カーナビを使う自動車では、GPSで位置情報を受け取ることができ、そのデータの累積は「ビックデータ」なり、それを有効に活用することが可能である。
GPSデータから、急速に減速したツマリ「急ブレーキ」をカケタ情報もわかる。
それがタダの一度ならば、偶発的な事象だがそれが同じ場所で頻繁に起こるような場所は、交通事故が起こり易い場所であることが推定できる。
自動車会社が1ヶ月に50以上も急ブレーキをかける場所を「特定」し行政におくった。
職員が「現場」を訪れると、信号機が木立に覆われて見ニククなっていたことが判明したというケースがあった。
そして役所は、木を伐採して交通の「安全性」を高めることができたのである。
しかし、プライバシーに関わる問題も出ている。
JR東日本の「Suica」は4300万枚もが売られいているが、「Suica」を定期券に使うと、誰がイツどこの駅を利用したか膨大な情報は入ってくる。
こうしたビッグデータを買い取って、「独自の分析」を加えて販売する新しいサービスも始まっている。
日立製作所では、利用駅、乗降時間、年齢、性別によってなる「個人情報」を1800の駅について集計し、或る若者に人気のレストランに販売した。
このレストランは、この情報をともとにドノ駅構内に出店するかを決定することができる。
つまり、ビッグデータはマーケティング「戦略」の大きな武器となるのである。
ただこのケースの場合、JR東日本が「告知」や「公表」もすることなく、「個人情報」を民間企業に売り渡したことにある。
JR東日本ではプライバシーやセキリュティーについては厳格に取り決めていて、氏名や住所を除いたデータを販売したので、特定化できないデータであるとしたが、自分の情報が知らないところで売買されることに、不安や懸念を抱く人々も多い。

最近、人工衛星からの「追跡シーン」で記憶に新しい「エネミー オブ アメリカ」という映画を思い浮かべる。
舞台は、現在世界的な衝撃の渦中にあるNSA(ナショナル・セキュリティ・エージェンシー=国家安全保障局)である。
映画では、アメリカ議会は、激化するテロ防止策として提出された「通信システムの保安とプライバシー法案」をめぐって紛糾していた。
テロ防止のためには、個人のプライバシーを犠牲にすべきか、という問題である。
法案が成立すれば、国家は「思いのまま」にプライバシーを侵害することができる。
国務省からNSAに出向中の行政官トマス・ブライアン・レイノルズは、自分の政治的野心のために腹心の部下と共に法案反対派のハマースリー下院議員を暗殺した。
巧妙にカモフラージュされたハマースリーの死は事故として報道されるが、レイノルズは「致命的」なミスを犯していた。
弁護士ディーン(ウイル・スミス)はある日、本人も気づかないままに「暗殺事件」の証拠を手にしてしまう。
事件の首謀者は、ナニシロNSAの行政官である。
NSA は最新鋭のテクノロジーを駆使した「隠蔽工作」を開始し、ディーンを証拠と共に「抹殺」しようとする。
愛する妻の信頼と職業上の成功を失い、犯罪者の「濡れ衣」まで着せられ、追いつめられるディーン。
「アメリカの敵」として孤立無援の彼は元諜報工作員ブリルを味方につけ、全能の「監視追跡システム」を操る巨大な敵を相手に、「反撃」を開始するという話である。
コノ映画は1998年の映画だが、元CIA職員のスノーデン氏の告発と重ねると、「つくりごと」の世界の話ではない。
アメリカは、世界中で「傍受システム」を作り上げているが、それを「保存」する場所がなかった。
そこでNSAは今世紀の通信データを100年分保存できる施設をユタ州に建設中で、そうしたビッグデータをいつでも「解析」できる準備をすすめている。
というわけで、ユタのNSAセンターは、NSAのいわば「外付けハードディスク」と見ることもできる。
この施設の建設こそ、アメリカが世界を監視する「情報」が空前の規模で拡大を続けていることを示しているといえる。
ただし、アメリカがアクセスできるネットワーク・システムで情報を取得できる範囲に限られる。
日本の中で完結しているシステムとか、日本と直接「繋がっている」外国の場合は、アメリカでも「協力者」がいないかぎり情報を獲得することはできない。
例えば、アフガニスタンやパキスタンのテロリストがロンドンと連絡をとりたい場合、中東を「経由しない」でアメリカを経由していることが多い。
アメリカはこういう情報を「傍受する」ことが可能である。
こうしたデータを「メタデータ」という。
メタデータでは、通信の「中身」が問題なのではなく、誰がイツ誰に「交信したか」を示すものにすぎない。
中身がない情報が価値があるのかと考えられがちだが、メタデータの「蓄積」によって金脈に行き当たることができる。
また、メタデータはアルファベットと数字から成り立つのでコンピュータで「処理」がし易いというメリットがある。
或る「疑わしい人」の携帯番号が判れば「長時間電話」していル相手は誰かがわかる。
今度はソコカラどこに繋がっているだろうと、「イモヅル式」にテロリストのネットワークが見えてくることもある。
また、彼らがイツ銀行で現金を下ろしたか、イツ飛行機に乗ったかということがわかる。
オサマ・ビンラディン氏はある時点で自分が傍受されていることに気がつき、自ら「通信」を行わす、代わりのメッセンジャーを使った。
そのカワリのメッセンジャーの「携帯番号」と突き止め、アルカイダの幹部のネットワークが明らかになり、ラディン氏を追い詰めることができたという。
アメリカは、いままでは「手の内」を明かさなかったが、スノーデン氏の告発によって、「通信傍受」により20カ国50件のテロを防ぐとができたと弁明した。
昔は人を使ってスパイ活動をしていたが、今や通信傍受による「ビッグデータ」の分析に頼るようになった。
ところで、こうしたスパイ活動はイツ頃から行われたのだろうか。
同時多発テロ直後の2001年10月、「愛国者法」がブッシュ政権下で可決され、この愛国者法により、通信会社から情報を入手する「強い権限」が与えられた。
つまり、アメリカ政府は一般市民の情報をも集めることが「実質的」に可能となったのである。
タダシ、こういう手段を行使するにあたっては、裁判所の「命令」が必要だった。
しかし、2001年の「外国情報監視法」(FISA)改正法などの可決により、裁判所の「命令なし」デモそれが可能となったのである。
それにより「テロ対策」を目的とする盗聴を容易にするなど捜査機関の権限を大幅に強化・拡大したのである。
今世界は、アメリカによって「監視」されていることを元CIAのスタッフが暴露した「スノーデン・ショック」に揺れている。
スノーデン氏の「告発」は、NSAによる監視の対象が米国内だけではなく、世界の一般市民をもその対象としていることを明かしたという点で「衝撃的」であった。
スノーデン氏は今、イカニモ悪役であり「エネミー オブ アメリカ」として追跡されている。
しかし、アメリカが集めた「ビッグデータ」から、テロ活動とは何の関係もない、例えば死刑廃止の「人権活動家」の個人情報など様々な情報をドノ様にも「採掘」できるのである。
スノーデン氏は、アメリカがそうした「危険域」に入りつつあることを示した点で、「世界の恩人」といえるかもしれない。