hotいま読まれているエントリ

Data, Misc

WhoScored vs. Squawka フットボール情報サイトの採点方法について

このブログでもよくお世話になっている「WhoScored.com」と「Squawka」というOptaデータを使ったフットボール情報分析サイト。メディアでの引用も多く、とくにWhoScoredはこの手のデータプロバイダーのデファクト・スタンダードともいえる。

どちらのサイトでも試合後にプレイヤーのレイティング(評価)を行っており、データが示す客観的な評価として非常に参考になっているが、どちらも独自のポイントになっていることが以前から個人的に気になっていたので調べてみた。赤の印はブログ主による。

まずはWhoScoredから。

WhoScored.comのレイティングについて

こういうサイト。

f:id:diesoon:20161012155234p:plain

採点の説明を見てみよう。

WhoScoredレイティング(採点)の説明

「WhoScoredレイティング」は、フットボールの世界でもっとも正確で、もっとも尊重され、もっともよく知られたパフォーマンス指標です。わたしたちのレイティングは、現在、著名なメディア企業、ブックメイカー企業、フットボールクラブに利用されています。

「WhoScoredレイティング」は、独自の包括的な統計アルゴリズムにもとづき、試合中に割り出されます。プレイヤーとチームのレイティングを算出するための生のスタッツは200にも及び、試合における影響力に重きが置かれます。それぞれのイベントは、ピッチ内のどこでそれが行われたか(エリア)と、その結果で起きたこと(アウトカム)のポジティブな影響あるいはネガティブな影響が採点されます。

一例:

  • ドリブルを仕掛ける(イベント)
  • 敵陣内ファイナルサードで(エリア)
  • それが成功した(アウトカム)

これはプレイヤーのレイティングにポジティブな影響を及ぼします。レイティングが示しているのは、ただピッチ上で起きたことの連続だといえます。

f:id:diesoon:20161012152240p:plain

レイティングの採点システムは6.0から始まる10分割で、10.0が最高得点になります。レイティングは試合中に30秒ごとにライブでアップデートされます。わたしたちのデータ供給者であるOptaは、試合終了のホイッスルから5分後に最終的なスタッツを出します。より正確なスタッツを算出するために、このスタッツ(レイティングも)は、試合後のいつでも変更されることがあります。

f:id:diesoon:20161012152210p:plain

試合後の10分で、マン・オブ・ザ・マッチのプレイヤーにグリーンの星印がつけられます。そして数分後には、Optaはスタッツの正確性を改善するためのレビュープロセスを受け、いくつかスタッツに修正や更新がかけられることがあります。レイティングは、チーム全体のゴール数(得点/失点)、あるいはクリーンシート(無失点)によって増減することがあります。レイティングによるこれらのブーストは、個人の実際のプレイエリア、出場時間に影響され、フルタイムで算出されます。

http://www.whoscored.com/Explanations

 

つづいてSquawka。

Squawkaのレイティングについて

読み方はスクォッカ? こういうサイト。プレイヤーのレイティングはここでは「パフォーマンススコア」と呼ばれるポイントで表される。

f:id:diesoon:20161012155312p:plain

Squawkaパフォーマンススコアとは?

「Squawkaパフォーマンススコア」とは、フットボールの試合にポジティブな影響力を及ぼす個人の能力を計測したものです。ボールに対してポジティブな影響を及ぼすほど、パフォーマンススコアは高くなります。ネガティブなら低くなります。

「Squawkaパフォーマンススコア」は、高度なアルゴリズムで、記録されたピッチ上におけるボール絡みの各アクション、結果の評価、ピッチのコーディネイト、選手のプレイエリアと先行イベントから算出されます。

<どういうこと?>

シンプルな条件では、このアルゴリズムはピッチ上でのアクションのプロセスと配分で算出されます。「Squawkaパフォーマンススコア」では、単純にこれらのスコアを加点していきます。

「Squawkaパフォーマンススコア」は、大きく3つに分けることができます。「アタック」、「ディフェンス」、「ポゼッション」です。アタックは、シュート、クロス、ドリブルなど攻撃的なイベントが考慮されます。ディフェンスは、タックル、インターセプトといった守備的なアクションを採点します。ポゼッションは、パスやスルーボールなどです。

このアルゴリズムの採点はそれぞれのイベントを単独で採点します。それぞれのボール絡みのアクションはベーススコアがあり、このスコアは実行、結果、選手、エリアの掛け算になります。

アクション:28のタイプ
パス、シュート、セーブ、ドリブル、クリア、ファウルタックル、カード、インターセプト、ブロック、キーパス等

エクスキューション(実行):942のコンビネーション
左足、右足、頭、そらす、強い、弱い、ボレー、ハーフボレー、ロングボール、スルーボール、セットピース、アシスト、パスの長さ、個人の技術、フリック、前へ、後ろへ等

アウトカム(結果):2つの可能性
成功/失敗

プレイヤー:4つのタイプ
ゴールキーパー、ディフェンダー、ミッドフィルダー、フォワード

ピッチエリア:13

f:id:diesoon:20161012160239p:plain

<全体的な結果は、アルゴリズムが5億個のデータポイントを使って算出される>

90分以上の「アベレージ・ゲーム」をもつ選手は、10から20ポイントのスコアになります。これよりマイナスのスコアの選手は「プアー・ゲーム」をしたことを示しているし、50オーバーの選手ともなれば「パフォーミング・ウェル」の選手だといえます。

その他の10点満点のレイティングシステムと違うのは、Squawkaプレイヤー・パフォーマンス・レイティング・システムは、ポジティブであろうがネガティブであろうが、プレイヤーが稼ぐスコアに制限がないことです。それらは、関与、影響、技術においてよければよいほど(悪ければ悪いほど)与えられるものです。

<データはどこから来ているの?>

わたしたちは、プレミアリーグの公式データ供給者であるOptaからデータを得ています。わたしたちは試合中にライブフィードを受け取っています。同時に、これらのフィードをデータに加工します。このデータはまた「パフォーマンス・スコア・アルゴリズム」にかけられ、リアルタイムで「ライブ・マッチ・センター」に送られます。

<「Squawkaパフォーマンススコア」の発展>

「Squawkaパフォーマンススコア」は2011年の夏に開発されました。そしてそれは着実に蓄積したデータ・セットとともに進歩しています。

現在はセカンドバージョンで、2012/13シーズンにヨーロッパの5大リーグの1,826ゲームを分析したのち2013年の夏に開発されました。

http://www.squawka.com/what-is-the-squawka-player-performance-rating

SquawkaにはFAQもあってわかりやすい。

(FAQから抜粋)

<Optaデータは試合中にどれくらいの頻度でアップデートされるの?>

Optaはプレイがブレイクしたときにわたしたちにデータを送信します。平均するとだいたい40秒ごとです。そのデータをアルゴリズムにかけて、リアルタイムに皆さんにお届けしています。

<「Squawkaプレイヤー・パフォーマンス・レイティング」って何?>

「Squawkaプレイヤー・パフォーマンス・レイティング」は、ボール絡みのアクションに対するポイントで、包括的な採点システムです。400を超えるプレミアシップの試合を広範囲に分析した後に開発されました。

http://www.squawka.com/frequently-asked-questions

以上。



まとめ

とりあえずわかることは、どちらも独自の分析アルゴリズムをもっていて、単にOptaのスタッツデータを再配分しているわけではないということ。つまりこれらの評価は100%の客観データではないことを示している。個別のデータについてはOptaから提供された100%純粋なデータのはずなので、混じりけのない評価をしたい場合は、自分でデータを集めて弄ぶほかない。

それとこれらのレイティングで個人的に気になったのは、いわゆるボールのないところの動き「オフ・ザ・ボール」に対するデータがないところ。「ボールにまつわるアクション(の評価)」という記述もあるので、Optaから提供されるデータ自体がつまりそういうことなのだろうが、セットピースであれば潰れ役であったり、あるいは得点者をフリーにする囮になる動きといった、on-the ballでないアクションは採点にまったく影響を与えていないと考えるとちょっと不思議な気がする。

ロボットが情報を収集するような時代になれば、こういった現在扱われていない情報についてもあらゆるデータが提供可能になるのかもしれない。

というわけで、彼らのようなスタッツ・プロバイダーから得られる情報は「客観データ+独自の視点」と見るべきで、利用の際にはそのことを知っておくべきだろう。

 

www.brotherlygame.com

なお、このふたつのサイトと日本ではあまり馴染みの薄い「Castrol Index」(FIFAとMLS御用達)を加えて検証したブログポストを発見した。残念なことに、SB NATIONのなかのサイトでブログ主がアメリカ人らしくMLSのチームがレイティング例に使用されているため、プレミアリーグのファンとしては選手名がまったくわからず、どれくらい印象とレイティングに差があるのかがわからない。

ざっくり見た感じでは、WhoScoredとSquawkaにはそれなりに近似になっているのに対してCastrol Indexがわりと見当違いな採点をしているようである。

ちゃんと読んでないのでくわしくはブログを訪れてみよう。

Opta社でのデータ収集については、YouTubeでいくつか動画を見ることができる。現在でもスタッフの手作業で行われているようで興味深い。


How Data is Changing Football with Opta

 

Leave a Reply

Your email address will not be published.