Блог Hello подробно рассказывает об одном из самых важных и недооцененных статистических показателей.
Эгил Ольсен – бывший тренер сборной Норвегии и автор одной из первых xG-моделей
xG («expected goals») – это модель ожидаемых голов. В основе такой модели лежит показатель (как правило, удары по воротам – это не всегда удары по воротам, но на данном этапе будем отталкиваться от того, что они и есть наш показатель), который помогает заглянуть дальше счета на табло и оценить, сколько голов при прочих равных должна была забить команда с ударами такой остроты.
Еще не заснули? Тогда вот вам любопытный факт/полезный пример. Автором первой относительно известной xG-модели можно считать Эгила Ольсена, тренера сборной Норвегии на ЧМ-1994 и ЧМ-1998 (кстати, интересные рассказы о других его статистических опытах есть тут и тут). «Я не в состоянии доверять победе со счетом 1:0, если мы нанесли всего один удар, который стал голевым, а соперник бил по воротам 10 раз. Точно так же я никогда не стану зацикливаться на поражении со счетом 0:1, если у моей команды было 10 ударов, а у соперника – 1. В плане измерения того, насколько хорошо или плохо сыграла команда, удары по воротам даже более важный показатель, чем сами голы», – высказался однажды он.
Ольсен признавал, что не все удары равны, поэтому однажды он решил разделить удары по воротам на 3 категории: «очень большая перспектива гола», «средняя перспектива гола» и «гол практически исключен». Вооружившись этой простой моделью, Ольсен провел немало исследований и пришел к неожиданному для себя выводу – переход от простого подсчета ударов к модели с 3 категориями не оказал практически никакого влияния на его исследования. Как правило, на дистанции количество ударов разных категорий уравновешивалось.
Конечно, система и ключевой вывод Ольсена были далеки от идеала по банальной причине субъективности модели, которую, откровенно говоря, смешно сравнивать с современными аналогами, учитывающими в каждом ударе десятки объективных факторов. Но этот пример отлично олицетворяет простоту принципов, которые лежат в основе xG-моделей. Каждый из вас при желании может пройти путем Ольсена – хотя, используя только субъективные показатели, вы не получите ничего, кроме систематизированной версии вашего восприятия моментов каждой из команд (что тоже может быть полезно).
И действительно, несмотря на модную аббревиатуру и многочисленные попытки записать xG в «advanced stats», одно из главных достоинств показателя в его простоте. Сразу понимаешь, что перед тобой сумма остроты всех созданных командой моментов. Точно так же даже интуитивно без труда можно прийти к выводу, что, если команда выступает лучше, чем должна, исходя из xG-модели, то она… выберите определение, которое вам ближе – в отличной форме/дико эффективна/слишком удачлива.
Мэттью Бенхэм (слева на фото) использует модель для управления «Брентфордом» и «Мидтьюлландом»
Однажды владельца «Брентфорда» Мэттью Бенхэма спросили, как он оценивает шансы клуба на промоушн. За несколько туров до финиша команда шла на 3-й позиции в Лиге 1, но вместо стандартной фразы аля-«Верю, что поборемся!» с предельно серьезным выражением лица Бэнхэм ответил: «На данный момент наши шансы на выход в чемпионшип – 42,3%».
История Бенхэма (по крайне мере, та ее версия, которую он сам предпочитает рассказывать) очень интересна и даже вдохновляюща. Мэттью сколотил многомиллионное состояние, регулярно обыгрывая футбольных букмекеров. Разумеется, свою систему он не думает раскрывать, но известно, что он исходил из тезиса, что «голы – очень ненадежный показатель истинного уровня игры команды в конкретном матче». Как следствие, используя другие показатели можно выявить недооцененные (в том числе букмекерами) команды. Среди показателей, которые он использовал, ключевую роль играла его собственная основанная на ударах по воротам xG-модель.
Теперь Бенхэм владеет не только «Брентфордом» (уже добравшимся до чемпионшипа), но и «Мидтьюлландом» (который, благодаря его аналитическим методам, стал чемпионом Дании и выбил «Саутгемптон» из Лиги Европы). Он также управляет компаниями SmartOdds (контора, предоставляющая данные профессиональным игрокам на ставках) и MatchBook (букмекерская контора).
***
«После каждого матча мы анализируем количество созданных командой моментов и количество ожидаемых голов, которые мы должны были забить с моментами такого качества. На данный момент существует дефицит между качеством наших шансов и количеством забитых нами голов», – сказал на одной из пресс-конференций этого сезона Арсен Венгер.
Цитата послужила не только подтверждением того, на каком уровне уже используется показатель, но и того, насколько хорошим индикатором качества игры он может быть. Вывод из модели, которую использует «Арсенал», вполне совпадал с данными общедоступных xG-моделей. Как и следовало ожидать, исходя из xG-данных, результаты команды резко улучшились. После той самой пресс-конференции «канониры» выиграли 7 из следующих 8 матчей АПЛ (до – 1 из 3).
Разумеется, каждому такому случаю нужен контекст, и причина такого контраста не только в регрессии к среднему, но это далеко не первый случай за последние годы, когда xG-данные успешно предсказывают ренессанс команды (несколько примеров из прошлого сезона – победная серия «Ньюкасла» при Пардью в первой половине сезона, «Арсенал» и «Барселона» во второй части сезона).
***
В октябре этого года глава статистической компании 21st Club Омар Шадхури сообщил, что минимум один владелец клуба АПЛ на еженедельной основе изучает данные модели ожидаемых голов.
***
В недавнем интервью Дамьен Комолли рассказывал, как во время его работы в «Ливерпуле» принималось решение о потенциальной смене вратаря. Он не называет используемую методику xG-моделью, но описывает очень схожие принципы.
***
Люди из футбольного мира крайне неохотно делятся настолько глубокой информацией о своих методах. Практически уверен, что скоро мы узнаем о новых случаях применения xG-моделей, но и этих примеров должно быть достаточно, чтобы показать растущую значимость метода.
Модели ожидаемых голов можно сравнить с моделями предсказание итогов выборов. Не существует 0,21 гола или голоса, но, присваивая им основанные на определенных факторах коэффициенты, можно получить массу дополнительной информации о выборах и футбольных матчах.
Модели ожидаемых голов никогда не станут инструментом предсказания отдельных матчей (просто-напросто потому что 20-40 ударов, которые наносятся за матч, никак не соответствуют нескольким миллионам голосов, и их недостаточно для полноценной регрессии к среднему), но они несут важную информацию о качестве моментов команды в матче, следовательно, и об общем качестве ее игры.
Футбол – спорт очень низкой результативности. Вместе со значимостью отдельных эпизодов (как правило, голов) неизбежно растет значимость удачи/фактора случайности. При прочих равных можно утверждать, что хорошая модель ожидаемых голов отражает качество игры команд намного лучше турнирной таблицы и меньше зависит от случайностей.
Как уже упоминалось ранее, существенные расхождения в xG-результатах и реальных результатах нередко сокращаются на более-менее продолжительной дистанции. У случаев, когда этого не происходит, могут быть разные причины, например: 1. тренер команды, которая показывала результаты, но плохо играла, не игнорировал слабое качество игры и внес изменения. 2. команда – интересный пример для изучения, а модель недооценивает какой-то из аспектов ее игры. 3. даже на дистанции всего сезона команды наносят около 600 ударов, что не так уж много для регрессии к среднему.
Подытоживая, хорошая xG-модель в правильных руках может служить: 1. индикатором удачи/неудачи команды в отдельном матче (разумеется, только при значительном расхождении с реальным результатом). 2. базисом для долгосрочных прогнозов (слово «базисом», а не самим прогнозом, тут ключевое и, разумеется, с любыми прогнозами нужно быть острожными, но, пожалуй, xG – лучшая из доступных для футбольных прогнозов альтернатив).
Модель Майкла Кэйли
Основана на: ударах по воротам
Краткое описание модели: каждому удару присваивается коэффициент от 0 до 1 в зависимости от типа удара (прямой со стандарта, головой после навеса, ногой после обводки вратаря и т.п.), позиции нанесения удара, типа паса, который привел к удару (вразрез, навес и т.п.) и позиции с которой он был отдан, типа атаки, приведшей к удару (контратака, позиционная, стандарт и т.п), типа момента перед ударом (обводка, удар в касание и т.д.), дистанции, которую бивший футболист пробежал с мячом, положения команды в матче (проигрывает, выигрывает, играет вничью).
Полное описание модели на английском
Мой комментарий: пожалуй, лучшая из общедоступных моделей ожидаемых голов. Хорошо продумана, значимость практически каждого из факторов основана на серьезных статистических исследованиях; также постоянно совершенствуется автором.
Пример xG-карты матча:
Как следить: твиттер автора, время от времени обновляемые страницы с данными по АПЛ и европейским лигам.
Модель tegen11
Основана на: ударах по воротам
Краткое описание модели: каждому удару присваивается коэффициент от 0 до 1 в зависимости от типа удара, позиции нанесения удара, места начала атаки, приведшей к удару, типа паса, который привел к удару, типа момента перед ударом, скорости атаки, положения команды в матче.
Полное описание модели на английском
Мой комментарий: альтернатива модели Кэйли. Тоже использует данные от Opta и учитывает практически всю возможную информацию об ударе.
Расхождения между двумя моделями не так уж велики. Например, tegen11 включает пенальти в модель с коэффициентом 0.76, Кэйли считает нецелесообразным сравнивать их с остальными эпизодами и просто отдельно помечает, что во встрече был пенальти, но не включает их в модель. Или: tegen11 учитывает скорости атаки, Кэйли отражает схожую информацию в типе атаки.
Пример xG-карты матча:
Как следить: твиттер автора.
Модель Пола Райли
Основана на: ударах в створ ворот
Краткое описание модели: каждому удару в створ присваивается коэффициент от 0 до 1 в зависимости от позиции нанесения удара.
Полное описание модели на английском
Мой комментарий: слишком упрощенная модель. Упомянул ее только из-за удобных и оперативно обновляемых таблиц (см. ниже) и архива данных за последние сезоны АПЛ.
Как следить: таблицы Tableau с удобными фильтрами.
Этот раздел будет скучным (прямо очень, даже скучнее того, что вы прочитали проскролили выше) с кучей технических моментов. Я не обижусь, если вы его пропустите. Для тех, кто пойдет этим путем, отмечу: xG вполне работоспособная и даже крутая вещь, а речь пойдет о мелких недостатках, среди них нет критических огрехов, которые перечеркнули бы изложенную выше пользу от моделей.
Разберемся в недостатках на примере модели Майкла Кэйли, которой я пользуюсь чаще, чем остальными.
1. Ситуации, которые не завершаются ударом
Нет удара – нет увеличения xG. Но отдельные эпизоды, которые не завершаются ударом, выглядят острее большинства ударов (особенно дальних, которые засчитываются, пускай и с небольшим коэффициентом). В идеале такие моменты хотелось бы отражать, но делать это объективно и автоматически на данном этапе невозможно. Недостаток некритический, так как едва ли в мире есть команды, умышленно не бьющие из выгодных позиций.
2. Дальние удары
Есть тот тип дальних ударов, которые наносят только в том случае, если игрок заметил серьезный изъян в позиции вратаря и верит в значительную вероятность гола. Например, xG-вероятность голов Чарли Адама, Микеля Сан Хосе и Алессандро Флоренци стремилась к 0, что логично исходя из позиции удара, но на деле она должна была быть выше, так как игроки в 99% случаев не бьют из таких позиций, если не видят ошибку в позиции вратаря.
3. Модели все равно, кто бьет
Разумеется каждый из нас предпочел бы видеть Лионеля Месси, а не Джонни Эванса, выходящего 1 на 1 с вратарем соперника в футболке любимой команды. И, пожалуй, наоборот Эванса, а не Месси, в ситуации с ударом головой в борьбе после углового. Модель на данный момент не в состоянии учесть разницу в мастерстве игроков завершать атаки.
Проблема не в последнюю очередь в том, что эдакий скилл завершения атаки в футболе практически невозможно измерить: 1. в футболе наносится слишком мало ударов для того, чтобы объективно оценить даже тех нападающих, которые бьют чаще остальных (например, часто бьющие хоккеисты наносят порядка 800 ударов за сезон, у часто бьющих футболистов уходит 5-6 лет на аналогичное количество ударов). 2. из-за такого малого количества ударов цифры реализации ударов сильно разнятся у одних и тех же игроков от сезона к сезону.
Можно привести массу отдельных вопиющих примеров, подчеркивающих значимость скилла завершения атаки у отдельных игроков, но два важных момента, позволяющих не считать недостаток критическим: 1. в последние годы поддерживать уровень реализации, который был бы стабильно выше показателя голов, которые они должны были забить, исходя из xG, удавалось только 2 игрокам (да-да, Месси и Роналду). 2. статистика показывает, что при сравнении большого количества игроков значимость этого фактора уменьшается:
4. Практически невозможно полностью учесть расположение защитников
xG-модели пытаются обойти этот момент. Например, учитывая скорость развития атаки, наличие явной индивидуальной ошибки защитника, обводки футболистом противника перед ударом и т.п. Но все это не одно и то же с реальным осознанием того, сколько давления со стороны оборонительной стороны оказывается на игрока в момент удара. К сожалению, в рамках показателей, которые считает Opta, пока нет объективного способа это отразить.
5. Слегка недооцениваются команды, которые умышленно медленно атакуют
Утверждение, что при прочих равных быстрые атаки опасней и с большей вероятностью могут завершиться голом, правдиво и подтверждается статистикой. Разумеется, проще атаковать соперника, чьи игроки еще не успели вернуться в оборонительную схему. Разумеется, в большинстве случаев затянувшееся владение мячом будет означать просто-напросто то, что команда ничего не может поделать с обороной противника.
Но в отдельных редких случаях (здравствуй, Луи) такие затянувшиеся владения – часть тренерского умысла (философии) и необязательно значат несостоятельность в атаке. Команды, играющие в такой футбол абсолютно в каждом матче, могут слегка недооцениваться системой. Слово «слегка» тут важно – тип атаки оказывает не такое уж большое влияние на итоговый коэффициент, удар из убойной позиции после очень медленной атаки получит очень высокий коэффициент (просто чуточку меньший, чем после быстрой атаки).
6. Трудности с ситуациями с несколькими ударами за одну атаку
Допустим, команда наносит 4 убойных удара за одну атаку. Сумма их xG-коэффициентов составляет, например – 1,44. Но мы же отлично понимаем, что даже теоретически команда не может забить больше 1 гола за одну атаку. Следовательно, засчитывать ей 1,44 в корне неверно. А что верно? Засчитать только самый опасный из 4 ударов (на данный момент применяется именно это решение)? Логично, но тоже не до конца верно так, как вероятность забить гол в атаке с 4 убойными ударами выше, чем вероятность забить одним, самым опасным, из этих ударов.
7. Автоголы, пенальти
На данный момент они просто-напросто не учитываются, а помечаются отдельной строкой.
xG-модели – полезнейший инструмент для глубокого и достаточно объективного анализа, а также неплохой для долгосрочных прогнозов. Более того, как показывает практика, система может быть полезна не только аутсайдерам футбольного мира (нам), но и самим клубам. Вполне возможно настанет день, когда владельцы будут широко ее применять для решений о тренерских отставках/назначениях, а сами тренеры – для выбора момента смены тактики. Что станет существенным шагом вперед от текущий ситуаций, в которой большинство решений принимаются на основе общественного мнения/давления и рэндомных факторов (конечно, при условии, что она будет не единственным ориентиром таких решений, а только одним из).
Если мне удалось заинтересовать вас, но у вас остались вопросы – велкам в комментарии. Если вы не согласны с ключевыми выводами по моделям – аналогично, буду рад обсудить с вами их критику.
Топовое фото: Global Look Press/Carmen Jaspersen/dpa
www.sports.ru
Прошлую статью мы закончили на вопросе о том, где же нам брать данные по xG?
Самым простым способом является сбор данных на сайтах, считающих xG, к примеру, на упомянутом в прошлой статье сайте Давайте я вам вкратце расскажу об этом сайте, посмотрим как на нем все устроено и решим подходит ли этот сайт для нас?
Для начала нам нужно знать, как работает этот сайт, чтобы понять его плюсы и минусы.
В первую очередь прежде чем «покупать» статистику на любом сайте вы должны определить ее реальную ценность. При чем под словом «покупать» я имею ввиду не только реальную покупку, но и бесплатное использование статистики, ведь мы с помощью этой самой статистики будем принимать решения стоит ли нам ставить деньги или нет, поэтому если вдруг она окажется неверной, то мы поплатимся за нее собственными деньгами, это актуально и для ставок, и для покера. Поэтому давайте определим насколько ценная и точная статистика на этом сайте?
Начну с того, что на момент написания этого текста, сбор данных для системы xG возможен лишь двумя способами:
1.Создание своей команды статистов, которая будет собирать статистику для каждого удара.
Если у вас готовое программное обеспечение или просто своя модель построения точной xG, то специально обученная команда статистов поможет вам собрать данные для собственной xG модели, которая будет отражать максимально точные данные. Это, пожалуй, самый дорого бюджетный и сложный способ, но он однозначно самый точный.
2.Покупка тактических данных.
Это второй способ получить данные для xG на сегодняшний день. Такие данные предоставляет множество сервисов, к примеру: Optasports и Ortecsports.
Что такое тактические данные и как работают Optasports и Ortecsports? Давайте я вам расскажу как работают подобные сайты, чтобы вы понимали, о чем идет речь. На данных сервисах работает собственная команда статистов, которая следит за матчами по телевизионным камерам. Что делает эта команда?
Команда статистов в собственном программном обеспечении, которое разработано специально под них, отслеживает матчи в режиме реального времени и заносит данные о ключевых событиях с опозданием в несколько секунд, которые идут на обработку. Для них футбольный матч состоит из набора событий. Есть несколько видов ключевых событий, например, гол, удар по воротам, угловой, фол и несколько других. Эти события и фиксируют статисты, так же помимо ключевых событий есть еще события которые предшествуют ключевым событиям.
К примеру, для удара по воротам может предшествовать лишь несколько событий, например, пас, или дриблинг, под понятием дриблинг кроется обводка нападающим защитника сразу после которой он бьет по воротам, такие моменты называются связанными. Итак, статисты смотрят матч вживую и заносят в свою программу все ключевые моменты и предшествующие им связанные моменты. Все данные программа автоматически конвертирует в текстовые форматы.
Рассмотрим табличку, в которой есть несколько столбиков с данными от Ortec:
Первый столбик - это отметка времени в миллисекундах.
Второй столбик - это тайм в котором создан момент.
В третьем столбике указана категория момента, то есть тип момента, чтобы покупателям статистики легче было ее сортировать и обрабатывать
В четвертом столбике указан игрок, который выполнил действие в конкретном момент.
А в пятом команда, которой принадлежит данный игрок.
Шестой столбик описание момента. В описании приводится информация о моменте, какой был момент, был ли он успешен, и так далее. Здесь указаны и ключевые моменты и связанные с ним моменты.
В Седьмом и восьмом столбиках указаны координаты момента, в седьмом продольная, а в восьмом поперечная. Координаты фиксируют отметку на поле где произвел действие игрок. Есть так же и другие колонки, но для того чтобы понять ценность тактических данных для xG этих колонок хватит.
В общем статисты этих компаний во время прямых трансляций с помощью своего программного обеспечения, собирают и обрабатывают в различные форматы(текстовые, графические итд) данные о ключевых эпизодов матча. И продают эти данные всем желающим, от футбольных клубов, до телекомпаний, и сайтов статистики типа . А уже покупатели делают продукты исходя из этих данных, футбольные команды улучшают игру, телевизионные компании делают различную интересную графику матча, сайт показывает нам статистику по xG.
Теперь чтобы оценить насколько точны будут вероятности каждого удара предоставляемые understat давайте вернемся к факторам? которые больше всего влияют на вероятности каждого удара стать голом. Об этих факторах мы говорили в прошлой нашей статье.
Первые два фактора которые нужны для построения успешной xG модели, это расстояние и угол до ворот. Для этого нужно знать точные координаты удара. Статисты Опты выставляют координаты вручную, поэтому в точности есть погрешности, но погрешность в рамках нормы. Поэтому с этими двумя факторами проблем не будет никаких. Так же не будет проблем с фактором того, какой часть тела наносится удар. Наличие достаточно точных данных по этим трем факторам дает возможность андерстату создать полностью автоматизированную xG модель, но к сожалению эта модель очень не точна, и сейчас я вам покажу это на примерах, и объясню почему она не точна и почему модель построенная на тактических данных не даст достаточно точных результатов никогда.
Для этого мы пробежимся по живым примерам, чтобы вы поняли почему.
Берем момент с участием Серхио Агуеро. (Смотрите этот момент в видео с 1 минуты, 26 секунды.)
https://www.youtube.com/embed/y_oKmRc7BCY?t=1m26s
Как мы видим Агуеро выходит 1 на 1, обводит вратаря, после чего пробивает в пустые ворота. Для начала давайте на глаз попробуем оценить вероятность гола в этой ситуации. У Агуеро здесь небольшое расстояние до ворот, так же небольшой угол относительно линии делящей поле продольно пополам, и что самое главное, нет ни вратаря ни защитников между мячом и воротами, так же Агуеро бьет рабочей правой ногой, при этом скилл Агуеро в 10-ке лучших нападающих на планете. Все это говорит, что вероятность гола в этом моменте стремится к 100%, давайте посмотрим, что нам показывает андерстат?
https://understat.com/match/7149
Андерстат показывает вероятность гола в момент удара Агуеро 52%(!), как вам? Вероятность того, что один из лучших нападающих мира забьет в пустые ворота с этой точки оценивается в 52%?, как вы понимаете это просто абсурдно.
Смотрим дальше.Этот момент (смотрите с 2 минуты 41 секунды), Андерстат оценил в 58%
https://understat.com/match/8604
Т.е. 58% что игрок с 4 метров попадет в пустые ворота.
https://youtu.be/7CwoMfXwX58?t=2m41s
Ну и самая вишенка на торте момент смотрите с 16 секунды.
https://youtu.be/eNg_gdK5Hy0?t=16s
Здесь Андерстат нам говорит, что игрок забьет в абсолютно пустые(!!!) ворота с 2 метров(!), с вероятностью 65%! То есть забьет в этой ситуации реже, чем 2 раза из 3!
https://understat.com/match/7895
И на последок еще один интересный момент. Смотрим с 44 секунды.
https://www.youtube.com/embed/3Q4IYmEkTvA?t=44s
Андерстат засчитал удар Мертенса как 5%.
https://understat.com/match/7692
То есть нам хотят сказать, что Мертенс забьет в пустые ворота 1 раз и 20? Таких приколов на андерстате можно найти огромное количество, я показал лишь одни из многих на скорую руку.
Давайте я вам расскажу откуда берется этот косяк на андерстате. Как я уже писал, сервисы по сбору статистики определяют достаточно точные координаты удара, поэтому understat знает и расстояние до ворот и угол относительно центра ворот. Вся проблема заключается в том, что Опта, Ортек и другие сайты собирающие тактические данные НЕ фиксируют абсолютно никак положение защитников и вратаря в момент удара!
Как итог все те моменты, что я показал ранее имеют на андерстате такую же вероятность быть реализованными, как и те моменты, где вратари были бы на месте, а игроку мешала бы защита, как вы понимаете это полный абсурд.
К примеру Опта в своих данных не учитывает, что в этом моменте вратарь вышел слишком далеко в поле (Смотрим с 41 секунды).
https://youtube.com/embed/KGW1VPG_9U4?t=41s
Поэтому на сайте андерстата, мы можем видеть, что игроку присвоили 1% реализации, хотя на самом деле игроку нужно было лишь попасть в створ ворот и это произойдет в 10-20 раз чаще, чем 1 раз из 100 как показывает сайт.
https://understat.com/match/8586
В принципе эту проблему никак не решить с помощью статистики от Опты. Единственным вариантом помимо создания и обучения собственных статистов мне видится вариант заменить тактические данные на пространственно-временные данные. Такие данные собираются с помощью специального оборудования несколькими компаниями, одной из компаний является inmotio.
Inmotio представляет собой программный пакет, разработанный компаниями Abatec. Inmotiotec. Они отслеживают игроков, используя радиочастотную идентификацию. Что позволяет отслеживать игроков намного точнее по сравнению с отслеживанием GPS. Inmotio преимущественно используется для количественной оценки физической нагрузки игроков. В последнее время данные отслеживания также используются для проведения анализа тактики, такого как количественное определение параметров паса, моментов перехода от защиты к нападению и наоборот, поперечных пасов и борьбы за мяч. Давайте посмотрим небольшое видео и я немного поясню суть. Как вы видите все данные о перемещениях игроков выводятся в виде двухмерной графики на экран. Inmotio собирает все пространственно-временные данные и хранит их в известном для всех формате CSV с которым работает excel.
Давайте рассмотрим несколько столбцов из данных которые предоставляет Inmotio, в текстовом виде. Cразу скажу, что этих столбиков намного больше и я выбрал лишь несколько чтобы показать вам было легче представить на примере.
Первый столбик - это отметка времени матча в миллисекундах. Как мы видим Inmotio фиксирует положение каждого игрока каждые 100 миллисекунд.
Второй и соответственно, третий столбик, это координаты в которых находится игрок в это мгновение.
Четвертый столбик - это тайм, как мы видим на рисунке указан второй тайм.
Пятый столбик – это скорость с которой бежит в данное мгновение игрок.
Шестой столбик - это его ускорение.
Далее колонки с номером игрока и его именем.
Я показал именно эти колонки для того чтобы вам было понятно, что с помощью ексель данных мы можем проследить, в какое мгновение, в каком месте на поле был тот или иной игрок. Мы можем отследить с какой скоростью двигался, а по координатам воссоздать направление движения игрока. Так же есть еще множество таких столбцов, по которым можно узнать точное место и точное время матча, в котором был нанесен удар и что самое главное(!) - точная расстановка защитников во время удара. То есть главный недостаток тактических данных от Опты, Ортек и им подобных сайтов, пространственно-временные данные могли бы закрыть.
Давайте же теперь посмотрим на плюсы и минусы такого метода относительно команды статистов. Эта система действительно очень серьезная и могла бы для xG модели стать лучшим помощником, самым главным плюсом конечно же является то, что не нужно набирать команду статистов, чтобы следить за матчами и при этом получать точную расстановку защитников на поле в момент удара. Из главных минусов стоит выделить то, что получив вот такие данные в екселе на каждого игрока, нужно вложить очень много денег и времени для создания инструмента, который будет не только выводить графически положения игроков в нужную нам секунду, но и рассчитывать вероятность гола для того или иного момента.
Теперь подумаем, как это можно было бы все просчитать.
Вначале нужно создать программное обеспечение которое преобразовывает координаты всех игроков на поле в момент удара, которые предоставляет Inmotio вот в такую графическую схему:
Далее нужно создать программу которая сможет рассчитать вероятность для той или иной ситуации. Как вы понимаете недостаточно просто посчитать количество защитников между бьющим игроком и воротами, а так же, посмотреть, находится ли вратарь между бьющим игроком и воротами в момент удара. Нужно научить программу оценивать, как сильно уменьшают вероятность гола вратарь с защитниками.
Очевидно, что для одного и того же момента не все ситуации, в которых вратарь находится между игроком атаки и воротами, равнозначны. В ситуациях, когда вратарь находится очень близко к игроку атаки, очень сложно ударить по мячу таким образом, чтобы он миновал вратаря. С другой стороны, когда вратарь стоит далеко от игрока атаки, у вратаря есть больше времени, чтобы отреагировать на попытку забить гол. Так как расстояние от вратаря до игрока атаки играет важную роль, для расчетов стоит включить евклидово расстояние от вратаря до игрока атаки в качестве параметра, вместо учета того факта, находится ли вратарь между игроком атаки и воротами. При этом имеется случай, когда вратарь не расположен на одной линии с воротами и игроком атаки. То есть представьте визуально, что на нашем графике вратарь сейчас был бы расположен где-то за пределами вратарской ближе к угловому флажку. В этом случае в качестве расстояния используется максимальное расстояние вратаря от ворот из всех данных.
Такая же логическая схема, как при рассмотрении вратаря, должна быть применена и в отношении защитника. С одной стороны, ударить по воротам таким образом, чтобы мяч миновал защитника, сложнее, когда защитник находится рядом, с другой стороны, у защитника больше времени, чтобы отреагировать на попытку поразить ворота, когда он стоит дальше. Вследствие этого, помимо количества защитников, стоящих на линии между игроком атаки и воротами, нужно рассчитывать евклидово расстояние этих защитников до рассматриваемого игрока атаки. Создание такой модели невероятно сложное и дорогое удовольствие.
Даже если научиться переводить цифры вот в такие графические изображения и учитывать все координаты защитников на поле, то этого все равно будет недостаточно для точного определения какую именно площадь ворот блокирует защита и вратарь. Для того, чтобы определить какую площадь обзора ворот закрывают защитники, блокирующие удар, и какая площадь ворот в зоне досягаемости вратаря обязательно нужно видеть параметры защитников в момент удара, т.е. направление движения защитников в момент удара, чтобы понять сколько различных траекторий в конкретном эпизоде блокируют они.
Вы скажите что у нас есть такие данные, ведь Inmotio предоставляет не только координаты в момент удара, но и координаты за несколько мгновений до удара, а так же скорость, но к сожалению вы будете правы лишь отчасти, так как на основе этих данных никак не построить всю геометрию движения защитников, так как если статист остановит эпизод с ударом на стоп кадре он увидит не только точные координаты на поле в которых находятся игроки, и не только скорость с которой они бежали до этого, но он увидит и насколько готов к удару защитник, то есть смотрит ли он на мяч в момент удара и готов попытаться блокировать удар или он повернут к нему спиной смотря на опекаемого им игрока или возможно защитник вообще находится уже на газоне в эту секунду после столкновения с кем либо. То есть, геометрически в момент удара они могут оказаться в одной точке, но в момент удара первый защитник имеет возможность лететь наперерез траектории удара со скоростью 5 м/с, а второй просто будет стоять, да еще, допустим, боком к форварду. Именно поэтому вероятность которые рассчитывают профессиональные статисты будет однозначно точнее, нежели xG которое рассчитывается сложными программами на основе данных Inmotio, но второй вариант имеет право на жизнь, в отличии от тех вариантов которые используются сейчас, а именно методы которые отображаются на сайте understat. Вы только вдумайтесь, вероятность гола рассчитывается без знания где именно сейчас находится вратарь, на линии ворот или его уже обвели и бьют в пустые ворота, так же не учитывается не только евклидово расстояние защитников, их точное месторасположение, но даже не учитывается сколько защитников перед бьющим игроком. Без этих данных xG от understat и всех подобных сервисов просто пустой и бесполезный инструмент.
Ну а покупка пространственно-временных данных для большого количества матчей сейчас невозможно, а значит этот способ нельзя рассматривать как панацею.
Идем дальше и вернемся к Андерстату.
На главной странице андерстата красуется большой график который показывает, что количество ожидаемых голов от андерстат соответствует количеству реальных голов, забитых в матчах за всю дистанцию.
На самом деле все так и есть. Общее количество ожидаемых голов от андерстата на дистанции будет совпадать с общим количеством реальных голов, так как андерстат известен тем, что работает используя нейросети. Если в двух словах, то андерстат накапливает данные для каждой координаты на поле, для каждого типа момента, и для каждой части тела которой нанесен удар. После чего высчитывает среднее количество голов для каждой из координат, для этого типа момента и конкретной часть тела.
Чтобы вам легче было понять, о чем я, представьте такой пример, допустим у андерстата есть данные о 2000 ударов головой после углового, из конкретной координаты на поле. К примеру, за эти 2000 ударов было забито 200 голов. То есть 10%! Значит для 2001 удара головой после углового из этой же координаты, будет присвоена так же 10% вероятность. Именно благодаря такому подсчету ожидаемое количество голов будет совпадать с реальными голами.
Но после прочтения данного текста или просмотра нашего видео вы уже понимаете, что этот метод работал бы, если помимо координаты и части тела которой бьет игрок, учитывалась бы еще и позиция защитников на поле, а так получается хоть в 2001 ударе перед игроком будет 3 защитника и вратарь, хоть пустые ворота, вероятность гола будет все равно по андерстату будет 10%. Правда с пустыми воротами я немного утрировал, так как андерстат зная свою проблему с тем что не учитывается положение защитников, ввел один дополнительный параметр который должен хоть НЕМНОГО исправить ситуацию, этот параметр называется Биг Шанс(Big Chance).
Давайте поясню: статисты Опты в моментах, когда у игрока очень опасный момент дают ему пометку Big Chance. Соответственно, андерстат ввел этот параметр и разделил моменты с пометкой Big Chance и без таковой пометки, как итог вероятность для каждой из этих двух категорий считается отдельно.
Чтобы лучше понять, как это работает давайте представим, что из 2000 ударов о которых я только что писал 500 было с пометкой Big Chance и 1500 без пометки, а из 200 забитых голов, 120 было с пометкой Big Chance и 80 без пометки. Как итог если бы удары не делились на те, у которых есть данная пометка и у тех, у которых ее нет, то 2001 удару как из нашего примера выше была бы дана вероятность 10% на гол, теперь же вероятность будет зависеть от того, есть ли пометка Big Chance или нет. К примеру, если следующий удар будет с пометкой от Опты Big Chance, то вероятность у этого удара на андерстате будет ровняться 24%.
120/500=24%
А если пометку не указали, то вероятность будет чуть более 5%
80/1500=5.33 %
Это немного исправляет ситуацию с защитниками, так как пометка Big Chance дается как раз когда у игрока хорошая позиция для удара относительно защиты и вратаря, но как мы видели из видео примеров голов которые я показывал ранее, этого недостаточно и погрешности все равно колоссальные. Вспомните момент с Агуеро, или тот удар с 2 метров в пустые ворота где дали 65%, всё это удары с пометкой Big Chance и как вы понимаете, эта пометка никак не решает проблемы.
Давайте я вам покажу какую еще проблему несет в себе такой усредненный подсчет ожидаемых голов. Если мы откроем на андерстате историю предыдущих чемпионатов,
то там мы увидим, что в большинстве случаев те команды, которые вверху турнирной таблицы забивают реальных голов больше, чем ожидаемое количество голов от андерстат и соответственно зарабатывают больше очков, чем ожидаемых очков от андерстата. Это как раз и происходит из-за того, что более сильные команды создают более опасные моменты из той же позиции, из которой более слабые команды создают менее опасные моменты, а андерстат обеим командам пишет усредненную вероятность, тем самым забирая часть ожидаемых голов и очков у более сильных команд и отдавая эту часть незаслуженно более слабым командам, поэтому все счета матчей и таблицы андерстата далеки от правильных ожидаемых голов.
Поскольку xG сейчас безусловно лучший инструмент для прогнозирования вероятностей матчей мы со своей командой решили во чтобы то ни было довести этот инструмент до совершенства, наша команда статистов уже собрала всю нужную статистику для расчета вероятностей каждого удара. Уже сейчас мы тестируем все наши расчеты на видео архивах матчей. А через 2-3 недели начнем делать первые тестовые расчеты свежесыгранных матчей и начнем выкладывать xG сыгранных матчей в наших блогах, поэтому обязательно подписывайтесь и следите за новостями! И подытожив на сегодня я могу сказать что xG модель это то, в каком направлении вы должны двигаться, что бы правильно оценивать реальную силу команд в футболе. Потому что если вы сможете построить нормальную работающую систему, которая будет корректно оценивать силы команд, то на основе её вы сможете уже делать ставки и зарабатывать деньги.
О прогнозировании вероятностей с помощью системы xG мы поговорим в следующей статье.Если тебе понравился наш материал обязательно подписывайся на наш блог здесь, а так же на YouTube, чтобы не пропустить выход новых видео!
https://www.youtube.com/channel/UCOg_DNGpyPYFxDipaIBl4kQ?sub_confirmation=1
И в VK:
https://vk.com/blog.triumphator
www.sports.ru
Всем привет друзья, по традиции, после выпуска видео, мы выпускаем текстовый формат информации, которую вы могли узнать из видео. Это будет полезно будет тем, кто лучше обучается в текстовом. В последних двух выпусках мы затронули очень важную тему, без которой прогнозирование по футболу в 2018 году просто невозможно. Речь пойдет о моделе xG.
Что же такое xG модель? xG («expected goals») – это модель ожидаемых голов. В основе её лежит показатель ударов по воротам, на основе которого мы можем оценить сколько реально голов должна была забить команда, если учесть все удары которые она нанесла. Это очень похоже на EV показатель в покере, так что тем кто играет в покер профессионально это все должно быть очень знакомо.
xG работает следующим образом, каждому удару в матче присваивается коэффициент опасности. Коэффициент опасности это по сути ВЕРОЯТНОСТЬ ЗАБИТЬ ГОЛ.
Автор одной из первых известных моделей Эгил Ольсен тренер сборной Норвегии по футболу 1990-1998 однажды заявил, что он не доверяет победе со счетом 1-0, если его команда нанесла всего 1 удар, а соперник бил 10 раз. И так же он не сильно расстроится поражению 0-1, если его команда нанесла 10 ударов по воротам, а соперник всего 1.
Для простого примера. Если команда нанесла удар по воротам с хорошей позиции, где вероятность забить гол примерно 30%, то система xG засчитывает этот удар как 0,3 гола, независимо от того, реализовал ли игрок этот момент в гол или ударил на трибуны.
В совокупности эта система нам показывает, что непосредственно сами голы – очень ненадежный показатель команды в конкретном матче. Она помогает выявить недооцененные команды, которым сейчас не везет и напротив команды, которым очень сильно везет. Из-за чего слабая часть пула игроков которая не учитывает данный показатель, будет их недооценивать или напротив переоценивать.
К примеру, если команда за 10 матчей набрала 18.4 ожидаемых голов по xG, а её фактический результат составляет всего 8 голов за 10 туров, то это говорит о том, что данной команде очень сильно не везет в атаке и стоит рассмотреть ставки на нее в дальнейшем, особенно против команд, которым наоборот везет. Или же рассмотреть ставки на тотал больше этой команды, который так же будет недооценен, ведь данная команда забила намного меньше голов, чем должна была. Так как базовая статистика которую мы привыкли видеть, никак не отображает показатель везения. Если вы в базовой статистике увидите команду с 8 голами за 10 туров, то решите, что это слабо результативная команда, хотя на самом деле проблема команды заключается в том, что на данный момент у команды черная полоса с реализацией моментов.
Футбол спорт с очень низкой результативности и голы как правило не показывают реальную ситуацию на поле. Поэтому чтобы нам лучше ориентироваться в футболе, система xG приходит нам на помощь помогая оценить качество игры команд лучше, чем это делают голы или турнирная таблица. На основе xG строят ставки в настоящее время все серьёзные бетторы.
Кстати, помимо xG голов, есть еще множество других интересных статистических показателей, работающих по тому же принципу и на которые практически никогда не обращают внимание. Например, любой навес с фланга несет в себе %, при котором нападающий ударит с опасной зоны и будет иметь высокую вероятность забить гол. Поэтому если футболист попытался навесить в опасную зону, а его навес блокировали, то этот навес все равно включал в себя % гола. На сленге футбольных комментаторов это называется «назревает гол», это фактически, когда не видно ни одного удара по воротам, зато регулярно идут навесы или прострелы в опасную зону, которые не проходят по причине блокировки защитниками или неточности навеса.
Но нас интересует тот факт, что никогда такой навес или пас не пойдет ни в одну популярную статистику, которую смогут использовать большинство игроков. Поэтому если вы пользуетесь таким продвинутым методом, то сможете быть далеко впереди пула игроков.
И xG, как я уже сказал ранее, способна выявить недооцененные команды, которые хорошо выступают из матча к матчу и должны выигрывать большинство матчей, но им не везет, и из-за неудачных стечений обстоятельств они регулярно теряют очки и получают незаслуженную критику в свой адрес.
До появления xG все удары в статистике были безликими сухими числами, и это была главная проблема.
Вот представьте ранее вот этот удар с 1 минуты 35 секунды:
https://youtu.be/MXIbRA1Ot-E?t=1m35s
Равнялся этому (С 3 минуты, 22 секунды)
https://youtu.be/MXIbRA1Ot-E?t=3m22s
И в статистику оба этих удара сохранялись сухой единичкой. Поэтому когда одна команда наносила больше ударов чем другая, по статистике казалось, что она сыграла лучше, но это не всегда было правдой. Согласен, на длинной дистанции в 30000 матчей, действительно та команда которая наносит больше ударов, чаще будет побеждать. Но вот здесь и кроется вся основная загвоздка. Футбол как я уже писал - спорт с очень низкой результативностью и небольшой выборкой матчей за сезон, поэтому принимать за правду статистику по сухим ударам всего лишь за пару десятков матчей, не является разумным решением, потому что разброс вероятностей там будет гигантским. Именно для решения такой проблемы, нам на помощь пришел xG, который способен оценить качество каждого удара.
Рассмотрим два удара из видео выше.
В первом случае Квальярелла бьет рабочей правой ногой с очень близкого расстояния, практически без помех, вероятность гола в этом моменте должна быть близка к 100%.
Во втором же моменте Д’Алесандро бьет из-за предела штрафной, при этом удару предшествуют события, которые явно не повышают вероятность забить гол. Я имею в виду неудобную для удара позицию с разворота, так же впереди и по бокам от него 4 игрока соперника. Все это в сумме уменьшает вероятность забить гол. Из этой позиции в такой ситуации он забьет не чаще, чем 1 раз из 20-25 ударов. А значит максимальная вероятность забить гол здесь не более 4-5%.
А что же нам показал в этих эпизодах один из популярных сайтов по расчету xG в сыгранных матчей ?
https://understat.com/match/7505
Как вы видите удару Квальяреллы он присвоил 84%, а удару Д’Алессандро 3%.
Теперь вы можете видеть, что если раньше оба этих удара попадали в статистику сухой цифрой «1», то теперь благодаря системе xG каждый удар обрел свое лицо, а точнее вероятность стать голом. В случае с Квальяррелой удар имел вероятность 0,84 гола, а вероятность удара Д’Алессандро соответственно 0,03 гола. Если бы это были единственные удары за весь матч от команд, то счет по xG был бы 0,84 – 0,03 и не важно в конечном итоге как закончится матч в реальности, для нас это не имеет абсолютно никакого значения. Нам для построения моделей по прогнозированию матчей интересует только xG. Из-за слишком малого количество матчей за сезон, мы просто не можем рассматривать все удары одинаково и уж тем более, не должны учитывать счета, с которыми закончились матчи. Нам нужна более глубокая и продвинутая статистика.
Давайте теперь рассмотрим какие же факторы влияют на вероятность гола в том или ином моменте?
На самом деле факторов, влияющих на вероятность гола во время удара бесчисленное количество, вплоть до того в каком настроении игрок, куда дует ветер в данный момент или что ел сегодня на завтрак игрок. Все эти факторы безусловно так или иначе влияют на вероятность поразить ворота, но во-первых эти факторы относятся к разряду тех, которые практически невозможно отследить и просчитать, а во-вторых эти факторы очень слабо влияют на вероятности, по сравнению с некоторыми другими, которые непосредственно очень сильно влияют на вероятности и являются ключевыми.
Я выделю три ключевых фактора, которые влияют на вероятность гола:
1. Расстояние до ворот.
2. Угол относительно линии, делящей поле пополам в продольном направлении. Относительно этой линии строится угол от точки удара до точки середины ворот. (см. скрин ниже)
3. Степень заблокированности удара. Какую площадь обзора ворот закрывают защитники, блокирующие удар, и какая площадь ворот в зоне досягаемости вратаря.
Теперь я пробегусь вкратце по этим 3 факторам и начну с первого, а именно с расстояния до ворот. К примеру, если игрок бьет с 80 метров, то какие бы не были данные у двух остальных факторов, вероятность забить гол будет низкая.
Что касается второго пункта, если игрок бьет с нулевого угла, то его уже не спасет маленькое расстояние до ворот и отсутствие помех в виде защитников. Так как поразить ворота с острого угла очень тяжело.
То же самое справедливо и с блокировкой мяча. Если вплотную на расстоянии 10 сантиметров перед мячом 3 игрока соперника, плюс вратарь на линии, то все остальные факторы уже не важны, так как поразить ворота с такой позиции практически невозможно, т.к. практически все удары будут заблокированы соперником, а значит вероятность гола здесь близка к нулю.
Так что эти 3 фактора являются по сути равномерными, и их вы можете ставить в любой последовательности, так как каждый из них существенно влияет на вероятность поразить ворота.
Есть и другие факторы, такие как скилл игрока, скилл вратаря, какой частью тела бьет игрок, сколько игрок пробежал перед ударом и многое другое, все это безусловно тоже важно, но все эти факторы значительно уступают по важности 3 вышеперечисленным, так как не влияют существенно на вероятность забить гол. Да от этих факторов вероятность реализации изменяется, но не настолько сильно как от основных факторов.
Вот так на основании различных факторов и определяется вероятность гола для каждого удара, то есть вне зависимости от того куда полетел мяч после удара, на трибуны или в сетку ворот на оценку вероятностей это не влияет никоим образом, оценка вероятности происходит в момент удара.
Посчитав вероятности гола во всех ударах команды за матч, мы складываем эти вероятности и получаем альтернативный счет матча по xG. И с помощью этого альтернативного счета по xG мы и можем строить всевозможные модели прогнозирования вероятностей исходов событий. О них мы поговорим в следующих статьях!
www.sports.ru
Анализ, основанный на xG статистике, это попытка определить уровень соперников и их шансы на успех и выявить долгосрочные тенденции без учета счета матчей. Такой инструмент анализа используют многие профессиональные бетторы и даже тренеры футбольных команд, например, Арсен Венгер.
Цифры на табло иногда не отражают реальную ситуацию на футбольном поле. Неоднократно приходилось наблюдать, как команда бьет по воротам 15 раз и атакует весь поединок, но минимально проигрывает после одного попадания в створ. Действительно ли недостаточно хорошо отыграл проигравший? Если ответ положительный, то настолько плохо? А если отрицательный, то, как сильно не везло в завершающей стадии?
Именно xG старается дать ответы и как можно точнее оценить игру соперников.
xG – expected goals, в переводе – ожидаемые голы – это модель расчета ожидаемых забитых мячей, которая чаще всего основывается на опасности ударов по воротам.
По xG-модели, удары оцениваются коэффициентом. Сумма значений показывает опасность, создаваемую футболистами у ворот противника. Сравнение xG соперников позволяет сформировать и предположить возможный счет поединка.
Футбол – малорезультативный вид спорта. Результат отдельных событий зависит от случайностей: ошибки игрока или судьи, рикошета или отскока. В игре отсутствуют статические положения, а это усложняет подсчет статистических показателей и выделение основных моментов для объяснения исхода матча. Выигрыш команды по xG не означает выигрыш по счету, но дает понять, кто приложил больше усилий для успеха.
xG – это не баловство статистических и тактических гиков (людей, сильно увлеченными чем-либо). Система применяется в клубах ТОП лиг. Наставник лондонского «Арсенала» однажды обмолвился, что предпочитает xG модель. На тренировочных базах «Байера» и «Боруссии» Дортмунд показаны зоны, из которых желательно бить по воротам. Продвинутая xG статистика помогает определить уровень соперников, опираясь на различные факторы, а не только прошлые результаты.
В свободном доступе есть две модели: Кэйли и 11tegen11. Каждый оценивает удар футболиста от 0 до 1. У них встречаются расхождения по присвоению коэффициента опасности удара, но число используемых параметров поражает: вид, место, способ и место передачи под удар, вид и место начала атаки, скорость атаки, дистанция, преодоленная с мячом, действия перед ударом (обводка, удар в одно касание), текущий счет поединка. Подсчитываются данные, предоставленные Opta (компании, занимающейся сбором и анализом статистики спортивных событий).
Авторы моделей делятся результатами в Twitter на своих страницах. Примеры можете увидеть ниже.
xG-карта Майкла Кэйли:
xG-карта 11tegen11:
Если обсчитать все поединки чемпионата таким образом, то после окончания тура получится таблица xG-достижений клубов. При желании дополнительно можно учитывать другие показатели. Наиболее простые – xG (ожидаемые голы или суммарная опасность у ворот соперника) и xGa (ожидаемые голы противника или общая опасность, которая была допущена у своих ворот). Разница этих моделей соответствует ожидаемой разнице голов.
Чтобы вычислить более сложные элементы, требуется элементарное понимание теории вероятностей и математического анализа. Среди продвинутых показателей, важную роль играет xP – предполагаемые очки. Еще более сложным показателем является разница созданных и допущенных xG при равенстве в счете.
Для эффективного использования моделей, необходимо разобраться в терминологии и тех показателях, которые подсчитываются. Развернутый анализ создает подобные таблицы (см. ниже). Расшифровку обозначений читайте здесь.
Готового прибыльного рецепта не существует. xG – это лишь подспорье для поиска валуйных котировок в линии букмекерских контор. Модель беспрерывно усовершенствуется: удаляются баги, исправляются ошибки и появляются значимые элементы. Это оценивает игру команд еще точнее.
xG не прогнозирует счет предстоящего поединка, но оценивает, насколько хорошо/плохо клуб будет играть на дистанции. Минус в том, что даже весь сезон не является достаточной дистанцией для полной регрессии к среднему значению. За чемпионат команды пробивают примерно по 600 раз – это малая выборка.
К тому же, в коллективе меняются футболисты, тренеры, тактика, а это обязательно сказывается на числе и качестве ударов. Также у команд есть особенности, допустим, игра на удержание, контратаках или с повышенным контролем мяча. Если данные xG модели заметно расходятся с действительными результатами, ищите причину в особенностях игры, которая вызывает такие перекосы.
Есть элементы, которые не учитываются xG моделями. Например, ненанесенные удары. Футболист может выйти на ударную позицию, но не попасть по мячу. Это не учитывается в xG статистике, но недостаток нивелируется на длительном отрезке.
Несмотря на другие проблемы, к примеру, трактовку голов в свои ворота или непробитые удары, на дистанции xG довольно точно показывают реальную силу команд. Со старта сезона чемпионата Англии 2017/18, телеканал BBC в эфире начал предоставлять статистику xG на ряду с другой статистикой (удары, угловые, % владения, фолы и т. д.).
Применяя xG в ставках, рассматривайте информацию в разрезе конкретных соперников. xG можно использовать как для оценки успеха/неуспеха команды в ближайшей игре, так и в качестве основы для долгосрочной ставки. Разберем оба варианта.
Ставки на победителя по xP. Для каждого соперника возьмите реальное число набранных пунктов и отнимите от него xP (ожидаемые очки). Если у одного клуба недобор (xP больше, нежели реальное число очков), а у другого перебор (xP меньше действительного количества завоеванных баллов), задумайтесь о пари на команду, у которой недобор. Особенно, если по котировкам контор, фаворитом считается команда с перебором.
Ставки на количество голов по xG и xGa. Найдите команды, у которых существенные переборы или недоборы по моделям xG и xGa (ожидаемые голы и ожидаемые пропущенные мячи). Выберите поединки с наибольшим расхождением и котировками, которые можно заиграть (1.7-2.2, в зависимости от вашей стратегии).
Допустим, футболисты забивают гораздо меньше, нежели должны по модели xG, противостоят коллективу, который пропускает меньше, нежели демонстрирует модель xGa. Оптимальная ставка при таком раскладе – ИТБ команды, которая забивает меньше, чем показывает xG.
Кто откроет счет в матче по xG. В развернутых таблицах имеется элемент, показывающий xG соперников при счете 0:0. Некоторые клубы хорошо проявляют себя при ничьей, но нервничают и ошибаются, после пропущенного мяча, либо выставляют «автобус», если сами открывают счет. Этот параметр позволяет выявлять команды, которые с высокой вероятностью забьют первый мяч в игре.
Большинство БК добавляют в роспись долгосрочные пари, например, на победителя турнира или попадание в ТОП-3 и прочее. Представим, что есть клуб, который занимает 9-е место в таблице и отстает от 4-ой позиции на 10 баллов. Кажется, что вероятность забраться на желаемую строчку минимальная, но xG указывает на недобор около 14 очков. Значит, команде сильно не везет.
Главными причинами расхождения реальной картины и xG являются завышенная реализация голевых моментов соперников или заниженная собственная. На дистанции эти показатели идут к среднему числу. В оставшемся отрезке сезона есть смысл ждать улучшения результатов и больше завоеванных баллов при том же качестве футболе.
Если до последнего тура клубу вернется недобор в 14 баллов, то есть шансы, что он поднимется на желанное 4-е место. Преимущество в том, что в середине чемпионата попадание команды в четвертку лучших, может оцениваться коэффициентом около 10 и больше. Такие ситуации встречаются регулярно. Это лишь грубый пример использования xG для долгосрочных сделок.
Статистика xG не способна объяснить все процессы, которые проходят в командах. При разборе событий важно учитывать не только цифры, но и составы оппонентов, игровую форму и мотивацию. В ближайшем поединке эти факторы больше скажутся на результате, нежели xG модели.
Это вспомогательный инструмент, благодаря которому выявляются тренды и недооцененные или переоцененные исходы. Самостоятельно xG не используется. Сочетайте такой разбор с классическим анализом. Не полагайтесь исключительно на данные xG таблиц. Они служат помощником и являются преимуществом в схватке с букмекером, а не самостоятельным «оружием».
Другие статьи по теме:
betzona.ru
В предыдущей статье:
https://www.sports.ru/tribuna/blogs/triumphator/1570316.html
я обещал перейти к прогнозированию вероятностей исходов футбольного матча с помощью xG. Это очень длинная, интересная и не до конца изученная тема. Многие новички в ставках на спорт пытаются спрогнозировать победителя матча, или то будет ли в матче тотал больше или тотал меньше, совершенно не обращая внимание на то, какой коэффициент на данное событие и на то, какие шансы наступления события на которое они ставят деньги.
Я очень часто наталкивался на форумах даже на такие абсурдные фразы как например: «Думаю Челси выиграет этот матч в 60% случаев поэтому поставлю на них за коэффициент 1,5». То есть автору этой фразы достаточно того, что его ставка сыграет чаще, чем не сыграет, и совершенно наплевать, что если его ставка будет играть в 60% случаев при коэффициенте 1,5, то он будет терять на дистанции 10% от поставленных денег. А значит, если он поставит 100 ставок по $10 на коэффициент 1,5, то в среднем на дистанции он проиграет за эти 100 ставок $100. Здесь достаточно легкий расчет, но я все же остановлюсь на нем чтобы ни у кого не возникало вопросов. Игрок ставит $10 на одну ставку. Выиграет он ее в 60% случаев, а проиграет соответственно в 40% случаев. Значит в 40% случаев он получит убыток в 10$, а в 60% случаев его прибыль составит $5, так как он ставил $10 за коэффициент 1,5. А значит на длинной дистанции он будет терять в среднем по одному доллару с каждой ставки. Формула всех расчетов на скрине.
Чтобы такого не происходило, нужно ставить задачу не найти ставку которая чаще сыграет, чем не сыграет, а найти ставку у которой на один из исходов есть плюсовый ROI и поставить на этот самый исход. И как раз для этого нам нужно научиться как можно точнее прогнозировать вероятности исходов события. Другими словами, мы должны научиться как можно точнее рассчитывать вероятность победы первой команды в конкретном матче, вероятность победы второй команды, а также, вероятность ничьи, если это конечно вид спорта, в котором возможны ничьи.
Научившись достаточно точно прогнозировать эти вероятности, мы сможем довольно легко находить матчи в которых есть ROI на какой-либо исход. Для этого нам нужно каждую отдельную вероятность умножить на коэффициент который дает контора на этот самый исход.
Возьмем такой пример. Допустим играет сборная Египта против сборной Болгарии футбольный поединок. И мы путем своих подсчетов (предположим что они идеальные) определили следующие вероятности:
Победа Египта 38%
Ничья 32%
Победа Болгарии 30%
А контора, где мы собираемся делать ставку, выставила следующие коэффициенты в линии:
Победа Египта 2,5
Ничья 3,2
Победа Болгарии 3,15
Значит если мы поставим на победу Египта, то мы поставим с ROI -5% (минус 5), то есть на длинной дистанции мы будем 5% от тех денег, что ставим на победу Египта.
Считается это так:
38%(Победа Египта) *2,5(Коэффициент на победу Египта) -100 = -5%
Что же произойдет если мы поставим на победу Болгарии?
30%(Победа Болгарии)*3.15(Коэффициент на победу Болгарии)-100= -5,5%
Эти 2 исхода говорят нам о том, что мы ни в коем случае не должны ставить на победу Египта или Болгарии, если подсчеты наши по вероятностям победы конечно точны. Нам нужно либо пропустить данные ставки, либо дождаться, когда коэффициенты на победу изменяться до тех пор, пока один из исходов не будет иметь положительный ROI.
Но у нас еще в линии есть ничья, что же с ней?
32%(Вероятность ничьи)*3,2(Коэффициент на ничью)-100= +2,4%
Как мы видим при ставке на ничью мы получаем ROI 2,4%, а значит ставки на этот исход нам выгодны, и на дистанции с каждого поставленного доллара на этот исход мы будем получать 2,4% прибыли. Таким образом, подытожив, мы можем сказать, что все что нам нужно, это научиться правильно определять вероятности исходов матча. То есть вероятность победы первой команды, ничьи и победы второй, после чего мы без труда найдем ставки у которых есть ROI, и как итог сможем ставить на матчи с плюсовым ROI и зарабатывать деньги.
Теперь когда вы понимаете что когда вы научитесь максимально точно определять вероятности исходов события, вы без труда сможете находить ставки с плюсовым ROI, и ставить на дистанции в плюс. Давайте перейдем к началу изучения прогнозирования вероятностей.
За прогнозирование вероятностей любого события будь то спортивное событие либо не спортивное, к примеру прогноз погоды или попадание снаряда в цель, отвечают науки - теория вероятностей и статистика. Для тех кому интересно начать изучать эти безумно полезные науки, если вы их не изучали ранее, я составил список очень полезных книг по которым вам проще всего будет получить знания:
1. Наиболее простым и понятным неискушенному читателю языком, написаны книги Е.С. Вентцель, т.к. они были предназначены для офицеров-артиллеристов. Там множество примеров (из артиллерии), все довольно подробно "разжевано".
2. Для тех же у кого есть математическая база знаний подойдет вузовский учебник "Чистяков В.П. Курс теории вероятностей", он очень лаконичен, но, вместе с тем, содержит практически все понемногу, а детали всегда можно найти в интернете.
3. Так же неплохая книга "Руководство для инженеров по решению задач теории вероятностей". Ленинград, 1962 г.
Для тех кому легче обучаться по видео, могу посоветовать посмотреть лекции вот этого дядьки.
https://www.youtube.com/watch?v=ixbM-sYrKaE&
www.sports.ru
Часто размышляю над статистикой, и вот вчера совпали мысли по поводу важности дистанции. Тот же xG, чтоб вы знали, пришел из бейсбола. В регулярном чемпионате MLB команда играет 162 игры, это без учета плей-офф и Мировой серии. И это больше, чем одна команда АПЛ проводит за 4 сезона(!). В любом американском спорте, откуда и дует ветер продвинутого анализа, команды в плей-офф проводят между собой минимум 4 игры (это не считая регулярки) – редкий случай для одного сезона в европейском футболе. Часто встречаются ситуации, когда регрессия к среднему демонстрируется не в текущем, а уже в следующем сезоне (пример «Суонси» сезонов-2014/15 и 2015/16 очень показателен).
Вдобавок понятно, что система неполноценна, к примеру, в ней не учитываются:
1 Позиция вратаря и полевых игроков соперника. У вас же нет сомнений, что удар после короткой передачи в позиции 1 на 1 перед кипером и удар после паса со свободного удара, когда 7 полевых игроков стоит на ленточке обладают разной опасностью и весом xG?
2) Расположение своих игроков. Например, регулярно возникают ситуации, когда лучшим решением был бы пас на партнера, находящегося в более удобной позиции.
3) Мелкие тонкости типа двух и более ударов в одной атаке, которые решаются с помощью простого тервера.
Скажем, если вероятность того, что первый удар будет забит равна 0,8, но он не забивается, а затем наносится второй с xG 0,6, то сумма атаки, конечно, не может быть 1,4. Но этот вопрос решается достаточно просто и красиво с помощью формулы полной вероятности: вероятность того, что первый удар не будет забит – 0,2, а если мяч оказался после него в поле и последовал второй удар, то его вес уже равен 0,6*0,2 = 0,12. Таким образом, у вас никогда не возникнет ситуации, что xG будет больше или равен единице, даже если за одну атаку вы нанесете сотню ударов.
В общем виде будет выглядеть так:
Еще очень активно обсуждаются следующие моменты:
1) Качества вратаря (к примеру, тот же Оспина хорош в ближнем бою, но испытывает регулярные проблемы с дальними ударами). То есть возможна ситуация, когда удар с 30 метров с отскоком от газона по воротам Оспины будет весить, скажем 0,15 xG, а против Де Хеа – 0,1 xG. А, к примеру, удар с 10-11 метров против Оспины – 0,5 xG, когда против Манноне, скажем, 0,55 xG. Но мне непонятно, как такая модель вообще будет реализована – выглядит утопично, поскольку в таком случае она будет основана только на данных, взятых из предыдущих игр и совсем не будет учитывать возможный прогресс/регресс, вытекающий из тренировочного процесса.
2) Качества бьющего, поскольку понятно, что все реализуют моменты по-разному.
Но ключевым, на мой взгляд, при разговоре об уровне вратаря и уровне бьющего является следующее – от этого не зависит качество созданного момента, а зависит только его реализация. Еще раз: качество момента не зависит от уровня бьющего и уровня вратаря. То есть модель любая модель xG в нынешнем виде отлично подходит для того, чтобы оценить, как команда создает моменты и как предотвращает. И в большинстве случаев это даст нам ответ на вопрос, кто играл лучше. Но это подталкивает и к другим выводам: если на дистанции (а в случае с тем же «Арсеналом» 4 года – это дистанция) у тебя отличный показатель xG, но сильно меньше голов, значит, грубо говоря, надо менять форварда. Если же отличные показатели xGa, но много пропускаешь, значит что-то не в порядке с вратарем. То есть модель вполне может быть хороша для оценки везения/невезения в одном отдельном матче, но на дистанции из нее следует делать более детальные выводы (иначе это просто неуважение к модели).
Модель xG надо уважать. Во-первых, она дает отличный базис, от которого можно отталкиваться и использовать для более продвинутого анализа. И это лучшее, что есть в этом виде на данный момент.
Во-вторых, она развивается. Еще несколько лет назад в модели самого известного аналитика xG ударов с лицевой достигал 60%, а некоторые удары в упор весили больше единицы, но эти баги были пофиксены. Сейчас мы можем заглянуть гораздо глубже, чем, скажем лет 5 назад. И прогресс этот будет продолжаться, поскольку за дело наконец взялись американцы. А если ученые из США начинают обсчитывать какой-то спорт, то рано или поздно добиваются своего. Это единственные ребята, которые коллективно двигают спортивную статистику вперед.
Важно, что модели постоянно модифицируются, потому что футбол, в отличие от бейсбола, который, по сути, является игрой-набором «стандартных положений» и баскета – самого результативного вида спорта, где регрессия зачастую наблюдается внутри одного матча. Скажем, если команды наливают трехи с процентом 70 в первой четверти, то во второй – третьей вы смело можете ставить низ, потому что будет регрессия к 40-45%. Их доместиковые виды спорта уже обсчитываются не хуже, чем проекты небоскребов и мостов. Обсчет и рассекречивание кода футбола – дело максимум 5-6 лет. И горькое разочарование ждет тех, кто рассказывает про «горящие глаза» и «познание гармонии алгеброй» (мы это уже прошли на примере Билла Джеймса и бейсбола и цифровой революции в баскетболе).
Если вы считаете, что нет зависимости между выступлением команд и игроков в предыдущих сезонах и в нынешнем, то не стоит безапелляционно об этом говорить и смотреть на игру слишком упрощенным взглядом. Нужно разобраться, а почему этой зависимости действительно нет, либо доказать обратное.
Футбольным статистикам еще только предстоит пережить непростые времена и придумать, как разрешить проблемы, которые я изложил выше (некоторые, на мой взгляд, вообще неразрешимы). А нам необходимо находить новые подходы к анализу существующих моделей и результатов гораздо скрупулезнее и разнообразнее. Иначе рискуем превратиться в Бубнова, который выставляет клоуном не только себя, но и Бескова с Лобановским. Хотя они опередили свое время, и в отличии от Бубнова несомненно подстроились бы под текущие реалии, просто в 70-90-е было невозможно придумать что-то кардинально лучше, чем подсчет всех ТТД вместе и анализ в терминах «150 ТТД и 20% брака», что, как мы сейчас понимаем, является совершенно неграмотным подходом.
Подумайте над этим, а я пойду считать xG. С этого тура мы обсчитываем чемпионат России: берегись, «Спартак».
www.sports.ru
Что такое xG?
Счет далеко не всегда отражает происходящее на поле. Сколько раз приходилось видеть, что одна из команд наносит 20 ударов по воротам, всю игру осаждает штрафную площадь соперника, но уступает 0:1, пропустив после единственного удара. Так ли плохо сыграла проигравшая команда? И если да, то насколько? А если нет, то насколько сильно ей не везло у чужих ворот?
Модель xG старается ответить на все эти вопросы и дать максимально близкую к реальности оценку игры команды. xG (Expected Goals или ожидаемые голы) — модель расчета ожидаемых голов в футболе, в основе которой лежит анализ опасности ударов по воротам (в большинстве случаев) каждой из команд.
По xG-модели каждому удару по воротам присваивается коэффициент, сумма этих коэффициентов отражает опасность, которую команда создала у чужих ворот. Сравнение xG игравших команд формирует альтернативный счет матча.
Футбол — игра низкой результативности, где результат конкретного матча может зависеть от банального рикошета. К тому же в игре нет статичных положений, как в бейсболе, что осложняет статистический обсчет и выделение ключевых параметров для объяснения итогового результата. Победа по xG не всегда равна победе по счету, но всегда показывает, какая команда сделала для победы больше.
xG-модели — это не игрушка тактических гиков. Систему используют многие клубы из топ-чемпионатов. Главный тренер «Арсенала» Арсен Венгер обмолвился об использовании этого параметра на одной из пресс-конференции, экс-работник «Ливерпуля» Дамьен Комолли рассказывал об использовании схожей модели, на тренировочных полях «Байера» и дортмудской «Боруссии» отмечены зоны, из которых предпочтительно наносить удары. Продвинутые модели xG действительно эффективны и помогают оценить уровень игры команды, не основываясь на голом результате.
Лучшие xG-модели
Две xG-модели есть в открытом доступе: Майкла Кэйли и 11tegen11. Оба оценивают каждый удар числом от 0 до 1. У них есть расхождения в вычислении коэффициента опасности удара, но количество используемых параметров впечатляет: тип удара, точка удара, тип и точка паса под удар, тип и точка начала атаки, скорость атаки, преодоленное игроком расстояние с мячом до удара, ситуация перед ударом (дриблинг, удар первым касанием), счет в матче. Все параметры обсчитывают по данным Opta. Результат вычислений xG-моделей представлен на картинках, которые авторы публикуют в твиттере.
xG-карта матча по модели Майкла Кэйли
xG-карта матча по модели 11tegen11
Обсчитывая все матчи лиги подобным образом, после каждого тура можно получать общую таблицу xG-достижений команд. При желании в нее можно добавить массу дополнительных параметров. Самые простые — xG (ожидаемые голы или суммарная созданная опасность у чужих ворот) и xGa (ожидаемые голы соперника или суммарная допущенная опасность у своих ворот). Их разница соответствует предполагаемой разнице забитых и пропущенных мячей.
Для высчитывания более сложных параметров нужны базовые знания теории вероятностей и математического анализа. Один из важнейших продвинутых параметров — xP или предполагаемые очки. Еще более сложный элемент, но применимый к ставкам — разница созданных и допущенных xG при равном счете. При попытке развернутого анализа с помощью xG рождаются вот такие таблицы, подробное описание каждого из параметров можно найти по ссылке (спасибо Никите Васюхину и паблику «Блокнот»).
Альтернативная таблица АПЛ по разнице xG
Альтернативная таблица АПЛ по xP
Чтобы эффективно использовать xG-модель в предматчевом анализе, придется разобраться и в методологии, и в тех параметрах, которые предлагаются в таблицах. Готового рецепта успеха в ставках xG-модель не предлагает, но является отличным подспорьем для поиска завышенных и заниженных коэффициентов в букмекерской линии. Модель постоянно развивается, убираются баги и добавляются новые значимые параметры. Это делает оценку игры команд все более и более точной.
Как применять xG в ставках?
xG-модель не может точно предсказать счет ближайшего матча, но может оценить, насколько команда будет выступать лучше/хуже на дистанции. Проблема в том, что даже целый сезон — недостаточная дистанция для полноценной регрессии к среднему, а наносимые командой в среднем за сезон 600 ударов — малая выборка. К тому же в клубе может поменяться игровая формация, игроки и тренер, что неизбежно окажет влияние на количество и качество ударов. Еще у команд есть свои особенности, например, игра на контратаках и повышенный процент владения мячом. Если данные анализа игры команды по xG-модели имеют сильное расхождение с реальными результатами команды, стоит поискать особенность игры, которая приводит к таким перегибам.
При использовании xG-моделей важно помнить о контексте и рассматривать предлагаемые данные не абстрактно, а в разрезе конкретной команды. xG может применяться как для оценки удачи/неудачи команды на короткой дистанции в пару матчей, так и служить основой для долгосрочных прогнозов. Рассмотрим два показательных примера.
Долгосрочные ставки на футбол по xG-модели
Большинство букмекеров предлагает долгосрочные ставки, например, на попадание команд в первую четверку АПЛ по окончании сезона. Допустим, есть команда, которая после 20 туров идет на 7-8-м месте и отстает от четвертого места на 10 очков. Казалось бы, шансы добиться цели невелики, но таблица по xG показывает недобор порядка 15 очков, а значит, команде катастрофически не везет. Основными причинами расхождения реальных результатов и данных по xG обычно являются завышенная реализация оппонентов или заниженная собственная реализация. На дистанции эти параметры стремятся к средним значениям, и до конца сезона есть смысл ожидать всплеска по результатам при том же качестве игры.
Если до конца сезона команде вернется недобор в 15 очков, то весьма вероятно она окажется в желанной четверке. Фокус в том, что в рассматриваемый момент после 20-го тура коэффициент на попадание такой команды в первую четверку может достигать 10, а то и больше. Подобные ситуации не редкость, и это только грубый пример применения xG в долгосрочной перспективе.
Оценка вероятности вылета команд в Чемпионшип после 24-го тура АПЛ по xG-модели 11tegen11
Cтавки по xG на отдельный матч
1) Ставки на исходы по xP. Для каждой команды берем реальное количество набранных очков и отнимаем от него xP (ожидаемые голы). Если у одной команды недобор (xP больше реально набранного количества очков), а у другой перебор (xP меньше реально набранного количества очков), причем вторая по букмекерским коэффициентам является фаворитом, стоит задуматься о ставке на команду с недобором.
2) Ставки на тоталы по xG и xGa. Находим команды с солидными переборами или недоборами по xG и xGa (ожидаемые пропущенные голы), смотрим на те же параметры соперников, выделяем матчи с наибольшими расхождениями и рабочими коэффициентами. Например, команда, которая забивает значительно меньше, чем показывает xG, играет с командой, которая пропускает гораздо меньше, чем показывает xGa — есть смысл ставить на индивидуальный тотал больше первой команды.
3) Кто первый забьет по xG при равном счете. В развернутых таблицах есть параметр, показывающий xG команд при равном счете. Некоторые команды отлично играют при ничьей на табло, но начинают нервничать и допускать ошибки, как только соперник выходит вперед, или окапываются у своей штрафной, как только сами забивают. По этому параметру можно вычислять команды, которые с большей вероятностью откроют счет в матче.
Важно понимать, что xG — не всеобъемлющий параметр, объясняющий все процессы, происходящие в командах. При предматчевом анализе нельзя забывать о кадровых потерях и текущей форме, которые в краткосрочной перспективе оказывают большее влияние на результат. xG — отличный инструмент для выявления трендов и поиска недооцененных/переоцененных команд, но он не может использоваться в отрыве от привычных способов оценки команд. Это просто дополнительный козырь в битве с огромным штатом аналитиков букмекерской конторы.
Автор: Олег Смолеров
Источник: Betonmobile.ru.
НАШ КАНАЛ TELEGRAM:
МЫ ВКОНТАКТЕ:
sportbet.in.ua