Λίγα μαθηματικά για την μπάλα, πάλι…

2010 FIFA World Cup logoΠρόπερσι, στο Euro 2008, είχα επιχειρήσει να παρουσιάσω την εφαρμογή του συστήματος αξιολόγησης ELO, γνωστού από το σκάκι, στο ποδόσφαιρο, πιο συγκεκριμένα στις αναμετρήσεις μεταξύ εθνικών ομάδων ποδοσφαίρου (ο σέρβερ του elorating.net δεν απαντάει αυτήν την στιγμή).

Φέτος, λέω να δώσω πάλι μια σύντομη εναλλακτική ματιά, αυτή τη φορά αυθαιρετώντας λίγο περισσότερο, στο Μουντιάλ. Εξακολουθώ να πιστεύω ότι το πιο αξιόπιστο σύστημα αξιολόγησης είναι το ELO, με τις επιφυλάξεις που είχα εκφράσει και πριν δυο χρόνια.

Αλλά ας κάνουμε για μια στιγμή την ακόλουθη υπόθεση. Η σχετική υπεροχή κάθε ομάδας απέναντι στις υπόλοιπες κατά την έναρξη του τουρνουά ελήφθη υπόψη στην κατάρτιση των ομίλων, που έγινε βάσει της δυναμικότητας των ομάδων και με στόχο την ισοκατανομή ισχυρών και αδυνάτων. Από το σημείο αυτό, λοιπόν, και μετά, ας υποθέσουμε ότι όλες οι ομάδες είναι εξίσου ικανές για το καλύτερο και το χειρότερο. Το πρόβλημα που έχουμε στη λήξη του γύρου των ομίλων, είναι να αποφανθούμε ποιες υπήρξαν οι καλύτερες, βάσει των κριτηρίων κατάταξης· δηλαδή, με σειρά σημαντικότητας, βάσει πόντων, διαφοράς τερμάτων, επίθεσης, και μεταξύ των αποτελεσμάτων. Και το προφανές εμπόδιο που συναντάμε είναι ότι δεν έπαιξαν όλοι με όλους, οπότε πώς θα συγκρίνω όλους με όλους;

Μια από τις απαντήσεις, λοιπόν, που μας δίνει η στατιστική, είναι να κανονικοποιήσω τα κριτήρια βαθμολόγησης, ώστε να αμβλύνω, κατά το δυνατόν, διαφορές που οφείλονται σε καταστάσεις, όπως η ύπαρξη μιας ομάδας σε ένα όμιλο που απλά μαζεύει γκολ από τις υπόλοιπες, ή ο ισχυρότερος (ή ασθενέστερος) συναγωνισμός σε κάποιους ομίλους.

Παίρνω, λοιπόν, τις τιμές z των βαθμών και της διαφοράς τερμάτων κάθε ομάδας και ομίλου (τα υπόλοιπα κριτήρια δεν μου χρειάζονται, καθώς δεν έχω ισοκατατάξεις) και πλέον έχω την ακόλουθη τελική κατάταξη μετά τη φάση των ομίλων:


Rank Team GD N_GD pts N_pts Rank Team GD N_GD pts N_pts
1 Argentina 6 1,470 9 1,396 17 South Africa -2 -0,632 4 0,000
2 Germany 4 1,359 6 1,391 18 South Korea -1 -0,245 4 -0,073
3 Uruguay 4 1,265 7 1,225 19 Switzerland 0 0,000 4 -0,106
4 Paraguay 2 1,414 5 1,162 20 Ghana 0 0,000 4 -0,199
5 Netherlands 4 1,124 9 1,162 21 Australia -3 -1,019 4 -0,199
6 Brazil 3 0,387 7 1,019 22 Greece -3 -0,735 3 -0,367
7 Spain 2 0,926 6 0,741 23 New Zealand 0 0,000 3 -0,387
8 Chile 1 0,463 6 0,741 24 Denmark -3 -0,843 3 -0,387
9 USA 1 0,707 5 0,660 25 Nigeria -2 -0,490 1 -0,955
10 England 1 0,707 5 0,660 26 Serbia -1 -0,340 3 -0,993
11 Japan 2 0,562 6 0,387 27 Italy -1 -0,707 2 -1,162
12 Slovakia -1 -0,707 4 0,387 28 Cameroon -3 -0,843 0 -1,162
13 Portugal 7 0,904 5 0,340 29 France -3 -0,949 1 -1,225
14 Slovenia 0 0,000 4 0,132 30 North Korea -11 -1,420 0 -1,359
15 Mexico 1 0,316 4 0,000 31 Honduras -3 -1,389 1 -1,375
16 Ivory Coast 1 0,129 4 0,000 32 Algeria -2 -1,414 1 -1,453

Και τι έγινε, θα πει κάποιος; Αφού οι κανόνες είναι δεδομένοι. Δεν διαφωνώ. Τα μαθηματικά, απλώς, μου δίνουν περισσότερη πληροφορία (υπό τις προϋποθέσεις που τέθηκαν πιο πάνω), κι είναι κι αυτά ένα παιχνίδι.

Διαπιστώνει κανείς, για παράδειγμα, ότι η Χιλή μάλλον φάνηκε λίγο ανώτερη των ΗΠΑ, παρότι βγήκε στους «αδύνατους» της Β΄ φάσης. Παρόμοια, Σλοβενία, Ακτή του Ελεφαντόδοντος και Νότια Αφρική, παρότι αποκλείστηκαν, ίσως ήταν πιο δυνατές από τη Νότια Κορέα και την Γκάνα που συνεχίζουν.

Η Ελλάδα φτάνει στην τιμητική 22η θέση, ενώ τελευταίες δεν κατατάσσονται ούτε η Βόρεια Κορέα, ούτε το Καμερούν, που δεν κατάφεραν να μαζέψουν ούτε ένα βαθμό, αλλά η Αλγερία, κι από πάνω της η Ονδούρα.

Στην κορυφή, και προς έκπληξη, ίσως -αλλά θυμηθείτε τις υποθέσεις που κάναμε, και κυρίως τον «μηδενισμό του πρότερου βίου», Αργεντινή, Γερμανία και Ουρουγουάη αποδεικνύονται καλύτερες ως τώρα μηχανές.

Πριν κλείσω, με βάση τα παραπάνω, ας δούμε τα ζευγάρια της φάσης των 16. Οι αριθμοί δείχνουν ως περισσότερο αμφίρροπο τον αγώνα Βραζιλία-Χιλή (διαφορά περίπου 0,28), και μετά, Ισπανία-Πορτογαλία (0,4). Στη συνέχεια είναι Γερμανία-Αγγλία (0,73), Ολλανδία-Σλοβακία (0,78), Παραγουάη-Ιαπωνία (0,78) και ΗΠΑ-Γκάνα (0,86). Ακόμη λιγότερο αμφίρροπες δείχνουν οι συναντήσεις Ουρουγουάη-Νότια Κορέα (1,3) και Αργεντινή-Μεξικό (1,4).

Ο κυριότερος λόγος που το ποδόσφαιρο αποτελεί το πιο ενδιαφέρον ομαδικό άθλημα είναι ότι στην πράξη όλοι οι αριθμοί μπορούν να πάνε περίπατο. Επιπλέον, όπως μπορεί να βεβαιώσει και ο Άγγελος -που πιθανόν να βρει «τρύπες»* στα παραπάνω, η συγκεκριμένη μέθοδος αφήνει απέξω κι ένα σωρό άλλους «κρυφούς» παράγοντες, από τη ζέστη ή το κρύο, μέχρι την ώρα έναρξης, τις κάρτες, ή το αν είναι μαλωμένοι κάποιοι παίκτες. Σκοπίμως δεν ανέπτυξα καθόλου τι σημαίνει (εδώ) κανονικοποίηση, ή τιμές z, το άρθρο της wikipedia και πλήθος άλλες πηγές (στην τύχη, παράδειγμα με πρακτική εφαρμογή) τα εξηγούν καλύτερα από μένα.

 
Μια τέτοια πιθανή τρύπα είναι ότι οι βαθμοί που κέρδισε κάθε ομάδα στον όμιλο χάθηκαν από κάποιες άλλες…

 
Ευκαιρία να παινέψω άλλη μια φορά το ASAP Utilities, εδώ για τη λειτουργία του HTML Table Export.

Συντάκτης: Stazybο Hοrn

I am what I publish; so you are to me.

16 thoughts on “Λίγα μαθηματικά για την μπάλα, πάλι…”

    1. Ποιο πρόβλημα ακριβώς είναι NP-complete; Είτε έχεις 4 ομάδες είτε 32, εφόσον όλοι παίζουν με όλους, και υπάρχουν συγκεκριμένοι κανόνες βαθμολόγησης, το πρόβλημα της κατάταξής τους είναι ένα τετριμμένο πρόβλημα.

      Μου αρέσει!

      1. Το να βρεθεί γραμμική κατάταξη ανάμεσα στις ομάδες έτσι ώστε να περιορίσεις προβλήματα του τύπου:
        Ομάδα A νικάει την Ομάδα Β αλλά ομάδα Β είναι πιο πάνω στην κατάταξη από την ομάδα Α.

        Μου αρέσει!

        1. Τώρα διατύπωσες σωστά το πρόβλημα στο οποίο αναφέρεσαι, το οποίο ανήκει μεν στη γειτονιά αυτού που διαπραγματεύτηκα πιο πάνω, αλλά δεν είναι το ίδιο. Τα 4 κριτήρια που ανέφερα σε σειρά σημαντικότητας (μια λεξικογραφική δηλαδή διάταξη), μαζί, φυσικά, με τον κανόνα 3-1-0 για την απόδοση βαθμολογίας, είναι αρκετά για να προσδιορίσουν ένα τετριμμένο πρόβλημα κατάταξης.

          Αυτό στο οποίο αναφέρεσαι εσύ, και χωρίς να έχω χρόνο να δω τα paper που αναφέρεις, έχει να κάνει με το πρόβλημα του εγκλεισμού της μεταβατικότητας (transitivity closure), κλπ.

          Μου αρέσει!

        2. Με απλά λόγια, αυτό που θέλω να πω είναι:
          Μπράβο για τον κόπο σου, πολύ ωραίο αυτό που έφτιαξες και μακάρι να το κάναν και άλλοι. Απλά για τους αναγνώστες αυτής της κατάταξης καλό είναι να γνωρίζουν ότι έχει αποδειχθεί ότι δεν μπορούμε (εύκολα) να κατατάξουμε τις ομάδες με τον καλύτερο τρόπο έτσι ώστε να μεγιστοποιούμε την πιθανότητα μια ομάδα ψηλότερα στην κατάταξη να νικάει τις ομάδες χαμηλότερα στην κατάταξη ακόμα και με περισσότερα δεδομένα.
          Συγκεκριμενοποιώντας τον τρόπο κατάταξης (το 3-1-0 που αναφέρεις μαζί με τα υπόλοιπα) ορίζεις το ευρετικό που χρησιμοποιείς και το οποίο έχει αποδειχθεί (η μελέτη που γνωρίζω αφορά μόνο τις νίκες μιας ομάδας) ότι αποτελεί μια πολύ καλή προσέγγιση στο συγκεριμένο πρόβλημα.

          Μου αρέσει!

        3. Η σύνθεση κατά Pareto μας ταλαιπωρεί δεκαετίες τώρα. Εγώ από την αρχή έθεσα πρόβλημα, περιορισμούς, υποθέσεις και κανόνες.

          Επιπλέον -αυτό δεν αφορά εσένα, αλλά είδα σχόλια αλλού, οπότε το βάζω εδώ- αυτό που παρουσίασα δεν έχει να κάνει με προβλέψεις, αλλά με απολογισμό.

          Μου αρέσει!

        4. Είναι εύκολο να κάποιος να παρεξηγήσει τον σκοπό του παραπάνω, μιας και ο περισσότερος κόσμος ενδιαφέρεται για την πρόγνωση των αποτελεσμάτων (λόγω του χρηματικού αντικρίσματος). Εγώ απλά ήθελα να προσθέσω άλλο ένα warning. Εκτιμώ τον κόπο σου και μάλιστα ήταν το πρώτο post που έτυχε να δω από το blog σου και μου άρεσε η μαθηματική προσέγγιση σου σε κάτι που συνήθως το προσεγγίζουμε συναισθηματικά.

          Μου αρέσει!

  1. merikes fores skeptomai, oti einai krima tetoioy epipedoy analyseis na tygxanoyn ths prosoxhs monaxa 5-10 an8rwpwn…

    apo thn allh omws, (gernwntas), arxizw na 8ewrw oti mallon den a3izei stoys ypoloipoys ;-)

    Μου αρέσει!

    1. Γκάνα ήθελα κι εγώ συναισθηματικά, ΗΠΑ μου έλεγε η ως τώρα εικόνα. Και θαρρώ έβαλε κι ένα χεράκι ο ρέφερι τελικά για να προχωρήσουν οι Αφρικανοί.

      Μου αρέσει!

  2. Ωραίο post. Το Z-score προϋποθέτει κανονική κατανομή και δεν είμαι σίγουρος ότι αυτό ισχύει γα τους συγκεκριμένους αριθμούς.

    Με αφορμή αυτό το γράφημα αλλά και το ότι η Titan Bet έδινε 100 εκατομμύρια δολάρια σε όποιον προβλέψει σωστά και τους 64 αγώνες του πρωταθλήματος (1 εκατομμύριο εγγυημένα στην πιο κοντινή πρόβλεψη), έψαξα γύρω γύρω για να γράψω ένα post που θα απαντούσε πόσο καλύτερες πιθανότητες έχεις να προβλέψεις τους αγώνες γνωρίζοντας τις επιδόσεις των ομάδων από το να μην ξέρεις τίποτα για αυτές (Οπότε το P(’13άρι’)=1/(2^48) για κάθε αγώνα που είναι knock out μετά τους πρώτους 16 -αν δεν κάνω λάθος- που επιτρέπονταν και ισοπαλίες). Το post αυτό μου θύμισε αρκετά από τα πράγματα που βρήκα στη πορεία αν και δεν κατέληξα σε μια, συγκεκριμένη, απάντηση. Κατ’ αρχήν θα πρέπει να πω ότι το ψάξιμο ξεκίνησε εντελώς για πλάκα (δεν ασχολούμαι καθόλου με το ποδόσφαιρο) αλλά το εύρος και η ποσότητα των διαφορετικών προσεγγίσεων που διαπίστωσα ότι υπάρχει είναι απίστευτο! (κολλάς άνετα).

    Η πρώτη ιδέα ήταν Monte Carlo, αλλά όχι με βάση τις ικανότητες κάθε παίχτη και εξομοίωσης του αγώνα (όπως κάτι παλιά football managers που σου έδιναν το παιχνίδι γραμμή γραμμή :-D ) αλλά πιο χοντρικό, μέσω των στατιστικών των ομάδων στα προκριματικά (νίκες, ήττες, ισοπαλίες)…Άκυρο :-D Η Ισπανία πήγε στο πρωτάθλημα με 10 νίκες….ότι «ζαριά» και να έριχνες θα νικούσε…χρειαζόταν κάτι διαφορετικό (ELO) :-)

    Για να μην τα πολυλογούμε όμως, αυτή η φράση είναι το κλειδί:
    «όλες οι ομάδες είναι εξίσου ικανές για το καλύτερο και το χειρότερο»
    Και τη βρήκα «υλοποιημένη» σε αυτό….και δίνω αυτό πρώτο, πρώτο γιατί το έχουν γράψει Βραζιλιάνοι! :-D (Κάπου πρέπει να υπάρχει και αδέσποτο). Το βασικό τους χαρακτηριστικό είναι ότι υπολογίζουν από τα δεδομένα περασμένων χρόνων τη πιθανότητα ισοπαλίας για ένα παιχνίδι ανάμεσα σε δύο ομάδες και οι υποθέσεις που κάνουν οι οποίες είναι: α) τα παιχνίδια είναι ανεξάρτητα μεταξύ τους (αναμενόμενο), β)οι ομάδες είναι ίσες (!) «it is not considered that any team has advantages or is stronger than the others»…Αυτό δεν το έπιασα γρήγορα…ήμουν περισσότερο εστιασμένος στο μοντέλο της μάχης.
    Η άλλη προσέγγιση που μου άρεσε γιατί ήταν και γρήγορη αλλά και πιο κοντά στην αρχική μου σκέψη ενός μοντέλου βασισμένου στις ικανότητες των ομάδων ήταν αυτή. Αυτοί όμως το πάνε ένα βήμα παραπέρα και βγάζουν από τα δεδομένα τη κατανομή των γκολ ανά μονάδα χρόνου (Poison) και το αποτέλεσμα είναι η διαφορά των γκολ σε ένα αγώνα μεταξύ δύο ομάδων (πολύ ωραίο).

    Άσχετα με το πρωτάθλημα όμως, αναρωτήθηκα αν θα ήταν δυνατόν με παρόμοιες μεθόδους να διαπιστώσεις αν μια περίοδος είχε στημένους αγώνες (φυσικά όχι μόνο ποδοσφαίρου)…Αυτό θα ήταν πραγματικά γαμάτο!!! (αν δεν υπάρχει κάτι ήδη :-/ )

    Μου αρέσει!

    1. Χα, περίμενα ένσταση (και) από σένα :) Κακώς δεν το ανέφερα στην ανάρτηση, προφανώς, ένα βασικό πρόβλημα σ’ αυτά που είπα είναι και το μικρό δείγμα των 4, μόλις, τιμών. Έχω την αίσθηση, όμως, κι αν προλάβω θα το κοιτάξω να το φτιάξω*, παρακολουθώντας ποδόσφαιρο χρόνια, ότι ναι, έχεις την «καμπάνα» της κανονικής κατανομής στις τελικές βαθμολογίες τουρνουά τύπου πουλ (όλοι με όλους), με λίγες πολύ υψηλές και πολύ χαμηλές βαθμολογίες και συγκέντρωση τιμών προς τη μέση του πίνακα που είναι κοντά στη μέση τιμή τους.

      Ναι, στο παρελθόν, και σε πιο ενεργά ερευνητικά χρόνια, είχα δει και παρόμοιες με αυτές που δίνεις προσεγγίσεις. Νομίζω οι ποικίλες «παράπλευρες» παράμετροι που προσπαθούν πολλές μέθοδοι να αντικαταστήσουν με τυχαιότητα, παραείναι καθοριστικές, τόσο που επιζητούν να «αναβαθμιστούν» σε κανονικές ανεξάρτητες μεταβλητές του προβλήματος. Επιπλέον, νομίζω ότι υπάρχει ένα θεμελιώδες εμπόδιο, όταν προσπαθήσεις να εμπλέξεις τον χρόνο στην προσέγγισή σου. Μια ομάδα μπορεί να λέγεται Αργεντινή, ή Μίλαν, ή ΒΑΟ στη διάρκεια του χρόνου, αλλά δεν είναι το όνομα που την καθορίζει, αλλά η σύνθεσή της· οι παίκτες της, οι προπονητές της, κλπ. Ακόμη δε κι αυτοί, είναι άλλοι τον ένα χρόνο, ή τον ένα μήνα, κι άλλοι τον επόμενο· από πλευράς ηλικίας, από πλευράς φυσικής κατάστασης, προόδου και εξέλιξης ακόμη αν θες, κ.ο.κ.

      Ευτυχώς, εγώ έπιασα ένα πολύ πιο μικρό πρόβλημα πιο πάνω. Απλώς να διατάξω ομάδες που ήταν σε διαφορετικά τουρνουά, βάσει της επίδοσής τους σε αυτά.

      * 3^6 ήταν όλοι οι δυνατοί συνδυασμοί αποτελεσμάτων καθενός ομίλου στο μουντιάλ, οπότε με το 3-1-0 για Ν-Ι-Η, βγαίνει η τελική βαθμολογία ομίλου για κάθε συνδυασμό, και μπορώ να δω πώς είναι κατανεμημένα τα νούμερα.

      Μου αρέσει!

      1. :-) Κατ’ αρχήν δεν υπάρχει ένσταση…

        «…δεν είναι το όνομα που την καθορίζει, αλλά η σύνθεσή της· οι παίκτες της, οι προπονητές της, κλπ»
        Κάπου πήρε το μάτι μου και μια προσέγγιση με εξομοιώσεις με το Pro Evolution (computer to computer) αλλά δεν συγκράτησα το link :-D. Νομίζω ότι κάτι τέτοιο θα ήταν πιο ρεαλιστικό (δηλαδή κάτι σαν το Wargaming προσαρμοσμένο στο ποδόσφαιρο)

        «εγώ έπιασα ένα πολύ πιο μικρό πρόβλημα πιο πάνω. Απλώς να διατάξω ομάδες»
        Όντως, όπως γράφω και παραπάνω, αρκετά από τα πράγματα που διάβασα στο post μου θύμισαν πράγματα που βρήκα μπροστά μου ψάχνοντας για την πρόβλεψη (και αυτό όχι επειδή είχα βλέψεις στα 100 μύρια της Titan Bet αλλά επειδή έχουν ενδιαφέρον οι προβλέψεις φαινομένων όπου εμπλέκονται επιλογές «λογικών» ανθρώπων όσο γίνονται διαθέσιμα όλο και περισσότερα δεδομένα, βλέπε για παράδειγμα το Netflix ή την πρόβλεψη των αποτελεσμάτων των εκλογών ή αγώνων και άλλα. Συγγνώμη για το off-topic :-) )

        Μου αρέσει!

        1. Ε, όχι και συγγνώμη! Το μισό και παραπάνω κάθε ποστ είναι τα σχόλιά του (όταν υπάρχουν). Αλλιώς, μονολογούμε απ’ την κορυφή του κόσμου…

          Μου αρέσει!

Τι είπες;

Εισάγετε τα παρακάτω στοιχεία ή επιλέξτε ένα εικονίδιο για να συνδεθείτε:

Λογότυπο WordPress.com

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό WordPress.com. Αποσύνδεση / Αλλαγή )

Φωτογραφία Twitter

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Twitter. Αποσύνδεση / Αλλαγή )

Φωτογραφία Facebook

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Facebook. Αποσύνδεση / Αλλαγή )

Φωτογραφία Google+

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Google+. Αποσύνδεση / Αλλαγή )

Σύνδεση με %s