Einsteigerguide: Was ist OpenML?
OpenML ist eine nützliche Online-Plattform, die darauf abzielt, Open Machine Learning zu verbessern. Es steht für Open Data, Open Algorithms und Open Research. OpenML befindet sich noch in der Beta-Phase, funktioniert aber schon recht gut.
Mit diesem Blogbeitrag möchten wir die wichtigsten Konzepte vorstellen. Auf dieser Basis können Sie eine Entscheidung darüber treffen, ob diese Plattform für Sie interessant sein könnte. Zudem werden wir auch auf zukünftige Herausforderungen eingehen.
Konzepte.
Die folgenden vier Konzepte bilden die Grundlage der Plattform:
- Data
- Task
- Flow
- Run
Wer kann OpenML nutzen?
Der Domain-Scientist.
Sie haben Daten, die Sie nicht perfekt analysieren können?
Dann empfehlen wir Ihnen Ihre Daten in OpenML hochzuladen und sich umfassende Unterstützung einzuholen. Schreiben Sie eine gute Daten- und Aufgabenbeschreibung, um sicherzustellen, dass die Leute das Problem verstehen.
Der Datenanalytiker.
Sie stellen sich gerne neuen Herausforderungen? Dann beschäftigen Sie sich mit OpenML und lösen Sie anspruchsvolle Aufgaben.
Der Algorithmenentwickler.
Sie haben eine statistische Methode oder einen maschinellen Lernalgorithmus entwickelt und möchten diese ausprobieren? Sie werden viele Datensätze finden und die Möglichkeit, Ihren Algorithmus öffentlich zu machen.
Der Schüler.
Sie studieren Statistik, Informatik oder Maschinelles Lernen? Sie möchten wissen, was da draußen vorgeht? Auf OpenML finden Sie eine Vielzahl von Algorithmen und Informationen über Software und Implementierung.
Der Lehrer.
Sie unterrichten eine maschinelle Lernklasse und möchten, dass die Schüler an einer Herausforderung teilnehmen? Stellen Sie Ihre eigene Aufgabe zusammen und lassen Sie Ihre Schüler an die Aufgabe heran. Die Plattform zeigt, wer was wann hochgeladen hat.
Das Unbekannte.
Es gibt möglicherweise viele andere Leute, die von der Plattform profitieren werden, wie Meta-Analysen, Benchmarker und Leute, an die wir im Moment nicht denken.
Wie man OpenML verwendet.
Abgesehen vom bloßen Surfen auf der Website können Sie über eine ganze Reihe von Schnittstellen wie R oder WEKA auf OpenML zugreifen.
Das gesamte Projekt ist natürlich Open Source. Schauen Sie sich die verschiedenen Git-Repositories für den gesamten Code an.
Das Overfitting-Problem.
Plattformen wie Kaggle oder Crowdanalytics geben den Menschen nur einen Teil der Daten, so dass sie die Leistung des Algorithmus auf einem separaten Datensatz bewerten können, um das Overfitting-Probleme zu lösen. Bisher tut OpenML das nicht. Es werden immer alle Daten angezeigt, und Algorithmen werden über Resampling-Verfahren (in OpenML als Schätzverfahren bezeichnet) ausgewertet. Es gibt große Diskussionen darüber, wie man das Problem des Overfittings auf OpenML lösen kann. Sie gehen von der anfänglichen Verheimlichung eines Teil der Daten für eine bestimmte Zeit bis hin zur wiederholten Kreuzvalidierung der gut funktionierenden Abläufe bei einer bestimmten Aufgabe. Wenn Sie Ideen haben, zögern Sie nicht, uns diese mitzuteilen. Als Mitglied der Explanatory Group von Khronos, leiten wir Ihr Anliegen gerne weiter.
Vielen Dank für Ihren Besuch.