Πως η μπύρα συνέβαλε στην ανάπτυξη του data science

Τι σχέση μπορεί να έχει η μπύρα με τα μαθηματικά μοντέλα διανομής; Τι σχέση μπορεί να έχει ο πιο καυτός κλάδος της πληροφορικής στις μέρες μας, το data science, με έναν ζυθοποιό του 20ου αιώνα; Συνδετικό κρίκο αυτών των δύο αποτελεί ο William Sealy Gosset, ο άνθρωπος που κατάφερε να κάνει την ζυθοποιία επιστήμη ή καλύτερα, να κάνει επιστήμη με την ζυθοποιία.



Ο Gosset γεννήθηκε το 1876 στο Canterbury της Αγγλίας, με πατέρα συνταγματάρχη στο Βασιλικό Μηχανικό και προσδοκία να ακολουθήσει τα βήματά του. Δεν τα κατάφερε όμως λόγω ενός προβλήματος όρασης που παρουσίασε και αντ’ αυτού φοίτησε στο κολέγιο του Winchester και μετά στην Οξφόρδη, σπουδάζοντας μαθηματικά και φυσικές επιστήμες. Λίγο μετά την αποφοίτησή του, έμελλε να πιάσει την δουλειά που θα του άλλαζε την ζωή. Αυτή η δουλειά δεν είχε να κάνει με τις σπουδές του και ήταν στο Δουβλίνο όπου προσελήφθη το 1899 από την Guinness σαν πειραματικός ζυθοποιός.

Εκείνη την περίοδο η Guinness ήταν ήδη η μεγαλύτερη ζυθοποιία στον κόσμο, όμως σε αντίθεση με οποιαδήποτε άλλα αποστακτήρια, θέλησε να χρησιμοποιήσει την επιστήμη για να μεγαλώσει ακόμα παραπάνω. Έτσι, όταν το 1914 αντιλήφθηκαν ότι η κατανάλωση είχε εκτοξευθεί, έπρεπε να απαντήσουν στο ερώτημα πώς θα αυξανόταν η παραγωγή, χωρίς να χαλάσει η ποιότητα. Αυτή την απάντηση κλήθηκε να δώσει ο Gosset και φυσικά χρησιμοποίησε κάθε γνώση πάνω στην στατιστική που είχε αποκτήσει μέχρι τότε.

William Sealy Gosset


Την ίδια περίοδο ο Gosset ταξίδευε πολύ συχνά στο Λονδίνο για να επισκεφτεί τον Karl Pearson, με τον οποίο συνεργάστηκε στο University College του Λονδίνου. Ο Pearson ασχολούνταν περισσότερο με βιοστατιστικά, κάτι που απαιτούσε μεγάλο δείγμα για να βγάλεις συμπεράσματα. Αντίθετα ο Gosset είχε ήδη αρχίσει να αναπτύσσει την θεωρία του σχετικά με τα μικρού μεγέθους δείγματα. Το πρώτο αφεντικό του Gosset, ο επιστήμονας ζυθοποιός Thomas Case πίστευε ότι ο ιδανικός τρόπος για να έχεις την καλύτερη ποιότητα στην μπύρα, ήταν να υπολογίσεις την αναλογία μαλακών και σκληρών καρπών από κριθάρι σε κάθε παρτίδα που ερχόταν. Είχε καταλήξει σε κάποιους αριθμούς τους οποίους όμως δεν μπορούσε να ερμηνεύσει αλλά πάντα του έδιναν συνέπεια και καλή ποιότητα στο αποτέλεσμα.

Η δημοσίευση της student t distribution.


O Gosset έχοντας σπουδάσει μαθηματικά στην Οξφόρδη, άρχισε να αναλύει τα δεδομένα μικρού δειγματικού χώρου, κάτι το οποίο ήταν εντελώς σπάνιο για εκείνη την εποχή. Κάπως έτσι, ο Gosset κατέληξε να αναλύει κατά πόσο είναι αντιπροσωπευτικό ένα μικρό δείγμα σε σχέση με ένα μεγαλύτερο και ποια η διαφορά τους. Κάπως έτσι κατέληξε στην δική του διανομή t, η οποία όμως  δεν πήρε ποτέ το όνομά του, αλλά έμεινε στην ιστορία σαν Student t distribution.

H ζυθοποιία, όσο κι αν στηριζόταν στην επιστήμη για να τελειοποιήσει την μέθοδό της, δεν επέτρεπε τις επιστημονικές δημοσιεύσεις από τους εργαζόμενούς της, φοβούμενη τις διαρροές μυστικών και τον ανταγωνισμό. Όμως ο Gosset επέμεινε και τελικά κατάφερε να του δώσει η διοίκηση την άδεια για να τη δημοσιεύσει με το ψευδώνυμο 'Student', με το οποίο έμεινε γνωστή η κατανομή που ανακάλυψε. Όσο κι αν φαίνεται σαν ένα απλό μαθηματικό μοντέλο, σήμερα είναι ίσως από τις πιο σημαντικές παραστάσεις στην εξόρυξη δεδομένων και στην ανάλυσή τους. Τα μεγαλύτερα στατιστικά πακέτα ανάλυσης όπως η Python, η R, το Microsoft Excel, το SAS, το SPSS διαθέτουν εφαρμογές πάνω στο Student-t μοντέλο και εκτός από αυτό χρησιμοποιείται σε μεγάλο βαθμό στα μοντέλα τεχνητής νοημοσύνης.

Κάπως έτσι, ένας ζυθοποιός, στην αναζήτηση για την δημιουργία της τέλειας μπύρας κατάφερε να φτιάξει ένα μοντέλο ικανό να χρησιμοποιείται στις μεγαλύτερες ανακαλύψεις του 21ου αιώνα.



Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου