Erfahren Sie, was Kaggle ist und warum es eine der beliebtesten Plattformen für Datenwissenschaftler ist. Erhalten Sie Antworten auf die am häufigsten gestellten Fragen zu Kaggle.
Was ist Kaggle?
Kaggle ist eine Online-Community-Plattform für Datenwissenschaftler und Enthusiasten des maschinellen Lernens. Kaggle ermöglicht es Benutzern, mit anderen Benutzern zusammenzuarbeiten, Datensätze zu finden und zu veröffentlichen, GPU-integrierte Notebooks zu verwenden und mit anderen Datenwissenschaftlern zu konkurrieren, um Herausforderungen der Datenwissenschaft zu lösen. Das Ziel dieser Online-Plattform (2010 von Anthony Goldbloom und Jeremy Howard gegründet und 2017 von Google übernommen) besteht darin, Fachleuten und Lernenden dabei zu helfen, ihre Ziele auf ihrem Weg in die Datenwissenschaft mit den leistungsstarken Tools und Ressourcen zu erreichen, die sie bietet. Stand heute (2021) gibt es über 8 Millionen registrierte Benutzer auf Kaggle.
Eine der Unterplattformen, die Kaggle zu einer so beliebten Ressource gemacht haben, sind ihre Wettbewerbe. So wie HackerRank diese Rolle für Softwareentwickler und Computeringenieure spielt, sind „ Kaggle-Wettbewerbe “ für Datenwissenschaftler von erheblicher Bedeutung. Mehr darüber erfahren Sie in unserem Kaggle-Wettbewerbshandbuch und wie Sie in unserem Kaggle-Wettbewerbs-Tutorial Schritt für Schritt lernen, wie Sie einen Datensatz analysieren . Bei Datenwissenschaftswettbewerben wie denen von Kaggle oder DataCamp teilen Unternehmen und Organisationen eine große Menge anspruchsvoller Datenwissenschaftsaufgaben mit großzügigen Belohnungen, bei denen Datenwissenschaftler – vom Anfänger bis zum Experten – nach deren Abschluss gegeneinander antreten. Kaggle bietet auch das Kaggle Notebook, mit dem Sie – genau wie mit DataLab – Ihren Code für Datenwissenschaftsaufgaben in Ihrem Browser bearbeiten und ausführen können, sodass Ihr lokaler Computer nicht die ganze Arbeit machen muss und Sie nicht selbst eine neue Entwicklungsumgebung einrichten müssen.
Kaggle bietet leistungsstarke Ressourcen in der Cloud und ermöglicht Ihnen die Nutzung von maximal 30 Stunden GPU und 20 Stunden TPU pro Woche. Sie können Ihre Datensätze auf Kaggle hochladen und auch die Datensätze anderer herunterladen. Darüber hinaus können Sie die Datensätze und Notizbücher anderer Personen überprüfen und Diskussionsthemen dazu starten. Alle Ihre Aktivitäten werden auf der Plattform bewertet und Ihre Punktzahl steigt, wenn Sie anderen helfen und nützliche Informationen teilen. Sobald Sie anfangen, Punkte zu sammeln, werden Sie in eine Live-Bestenliste mit 8 Millionen Kaggle-Benutzern aufgenommen.
Kaggle eignet sich für verschiedene Personengruppen, von Studenten, die sich für Datenwissenschaft und künstliche Intelligenz interessieren , bis hin zu den erfahrensten Datenwissenschaftlern der Welt. Wenn Sie Anfänger sind, können Sie die von Kaggle angebotenen Kurse nutzen. Wenn Sie dieser Plattform beitreten, können Sie in einer Community von Menschen mit unterschiedlichem Fachwissen Fortschritte machen und haben die Möglichkeit, mit vielen sehr erfahrenen Datenwissenschaftlern zu kommunizieren. Wenn Sie Kaggle-Punkte und -Medaillen sammeln, die Ihren Fortschritt belegen, ist es durchaus möglich, dass Sie am Ende sogar Headhunter und Personalvermittler anziehen und neue Beschäftigungsmöglichkeiten freischalten.
Und nicht zuletzt macht es bei Bewerbungen für Stellen im Bereich Data Science definitiv einen positiven Eindruck, wenn Sie Ihre Kaggle-Erfahrung erwähnen. Es versteht sich von selbst, dass all diese Vorteile auch für sehr erfahrene Data Scientists gelten. Egal, wie erfahren Sie sind, diese Plattform bietet kontinuierliche Lern- und Verbesserungsmöglichkeiten, und natürlich sind die Geldprämien, die mit den Wettbewerben einhergehen können, genauso interessant.
Hilfreiche Data Science-Kurse für den Erfolg mit Kaggle
Hier sind einige der empfohlenen Kurse auf DataCamp für Anfänger:
- Einen Kaggle-Wettbewerb in Python gewinnen : Entwickeln Sie die Ansätze, die Sie anwenden werden, und die Strategien, die Sie bei Kaggle-Wettbewerben festlegen werden
- Einführung in Python : Lernen Sie die Grundlagen der beliebtesten Sprache in der Datenwissenschaft
- Mittelstufe Python : Dies ist ein weiterer Kurs über grundlegende Python-Kenntnisse
- Lineare Klassifikatoren in Python : Lernen Sie logistische Regression und Support Vector Machines und entwickeln Sie Ihre ersten Modelle mit Scikit-learn
- Clusteranalyse in Python : Unüberwachtes Lernen mit der SciPy-Bibliothek
- Vorverarbeitung für maschinelles Lernen in Python : Bereiten Sie Ihre Daten für Modelle des maschinellen Lernens vor
- Modellvalidierung in Python : Lernen Sie, die Frage „Wie gut ist Ihr Modell?“ zu beantworten.
- Dimensionsreduzierung in Python : Die Grundlage der Datenvisualisierung
- Entwerfen von Machine-Learning-Workflows in Python : Werfen Sie einen umfassenden Blick auf den Prozess zur Erstellung produktionsreifer Machine-Learning-Modelle.
- Datenschutz und Anonymisierung in Python : Ein unverzichtbarer Kurs zum Datenschutz in Ihrem Unternehmen oder in jedem Startup, das Sie gründen.
- Einführung in die Datenvisualisierung mit Seaborn : Entwickeln Sie Ihre Datenvisualisierungsfähigkeiten mit der Python-Bibliothek von Seaborn – ein idealer Kurs für Anfänger in der Datenvisualisierung
- Bildverarbeitung in Python : In diesem Kurs erlernen Sie Techniken zur Bildvorverarbeitung, mit denen Sie auf die enorme Informationsmenge in Bildern zugreifen und diese extrahieren können.
- Einführung in die Verarbeitung natürlicher Sprache in Python : Lernen Sie die Grundlagen der Verarbeitung natürlicher Sprache und die Verwendung einiger beliebter Bibliotheken in diesem Bereich
- Einführung in SQL : Erlernen Sie grundlegendes SQL für die Arbeit mit Datenbanken
- SQL für Fortgeschrittene: Verbessern Sie Ihre SQL-Kenntnisse
- Einführung in Deep Learning mit PyTorch : Eine Einführung in Deep Learning mit dem beliebtesten und benutzerfreundlichsten Python-Paket Pytorch
- Zeitreihenanalyse in Python : Erfahren Sie mehr über Zeitreihenmodelle und -techniken
Jobs bei Kaggle
„Kaggle Jobs“ war eine 2014 von Kaggle eröffnete Job-Sharing-Plattform für Datenwissenschaftler. Ziel der Plattform war es, Unternehmen bei der Suche nach den am besten geeigneten Kandidaten zu helfen und Datenwissenschaftlern dabei zu helfen, die richtigen Unternehmen für sie zu finden. Die Plattform wurde 2020 von Kaggle aufgrund mangelnder Aktivität geschlossen. Hier sind jedoch einige Alternativen zu Kaggle Jobs und andere Beschäftigungsplattformen alter ego:
- Linkedin: Eine der am häufigsten genutzten Plattformen für die Jobsuche. Sie finden passende Stellenangebote, indem Sie einfach „Data Scientist“ in die Suchleiste eingeben. Sie können auch detailliertere Filter angeben, wie Remote/Büro, Standort, Unternehmensgröße usw.
- Upwork: Upwork ist eine Jobplattform für Freiberufler, die sich auch ideal für die Suche nach Teilzeit- und Vollzeitjobs eignet. Bevor sich Kandidaten für langfristige Jobs bewerben, müssen sie im Allgemeinen einige kurzfristige Jobs abgeschlossen und einige Bewertungen erhalten haben.
- AngelList: Eine ideale Plattform für Startups, um sich auf Stellenausschreibungen zu bewerben.
- Y Combinator: Dies ist eine Accelerator- und Finanzierungsplattform, auf der die renommiertesten Startups ausgewählt werden. Stellenausschreibungen dieser Startups werden auf der Plattform geteilt.
- StackOverflow: Dies ist eine Q&A-Plattform für Programmierer und Ingenieure, von der wir alle profitieren, von jung bis alt und von erfahren bis unerfahren. Es gibt auch einen Bereich für Stellenausschreibungen.
KAGGLE – HÄUFIG GESTELLTE FRAGEN (FAQS)
Kaggle ist eine Plattform für Datenwissenschaft und künstliche Intelligenz. Auf dieser Plattform werden von großen Unternehmen und Organisationen Wettbewerbe mit Geldpreisen veröffentlicht. Neben den Wettbewerben können Benutzer auch ihre Datensätze teilen und die von anderen geteilten Datensätze untersuchen. Darüber hinaus können Datenwissenschaftler Codeausschnitte mit diesen Datensätzen teilen und im Diskussionsbereich mit anderen Datenwissenschaftlern darüber sprechen. Jeder Benutzer kann von der Teilnahme an den auf Kaggle geteilten kostenlosen Kursen profitieren und erhält nach erfolgreichem Abschluss ein kostenloses Zertifikat.
Ja, bei Kaggle ist alles völlig kostenlos: Kurse, Kurszertifikate, Datensätze, Teilnahme an Wettbewerben, Diskussionsbereiche usw.
Kaggle-Wettbewerbe bestehen aus Data-Science-Aufgaben. Bei manchen Wettbewerben gibt es keine Preise (aber Möglichkeiten zum Lernen und Wissensaustausch), während bei anderen großzügige Geldpreise ausgelobt werden. An diesen Wettbewerben können Sie alleine oder mit einem Team teilnehmen. Neben dem Preisgeld für gute Ergebnisse bei den Wettbewerben gewinnen Sie Medaillen und Punkte. Diese Punkte und Medaillen bringen Sie zusammen mit anderen Data Scientists aller Stufen auf der Plattform in eine Bestenliste. Diese Rangliste bestimmt Ihre globale Rangliste bei Kaggle. Die Wettbewerbe, die Sie bei Kaggle gewinnen, und Ihre Kaggle-Rangliste können sich positiv auf Ihre Karriere auswirken. Weitere Informationen zu den Wettbewerben finden Sie in Abschnitt 4 .
Es gibt viele Alternativen, um die Grundlagen zu erlernen und sich in die Datenwissenschaft einzuführen, aber es gibt mehrere Gründe, warum Kaggle so gut abschneidet. Es gibt viele Faktoren, die Ihnen dabei helfen, Ihr Wissen zu erweitern und Ihre Motivation bei Kaggle aufrechtzuerhalten.
Das wichtigste ist das Rankingsystem von Kaggle. Wenn Sie sich weiterentwickeln, bei Wettbewerben Punkte erzielen und anderen nützliche Informationen liefern, verbessert sich Ihr weltweites Kaggle-Ranking und Sie können es sofort verfolgen. Die Tatsache, dass Sie auf der Plattform unter vielen erfahrenen Datenwissenschaftlern platziert sind, ist sehr motivierend.
Darüber hinaus sind viele Leute auf der Plattform hilfsbereit und sammeln weiterhin Punkte und verbessern ihr Ranking, während sie Ihnen helfen. Wenn Sie beispielsweise ein Stück Code und eine Diskussion darüber teilen und in der Diskussion eine Frage stellen, wie Sie Ihren eigenen Code entwickeln können, ist es sehr wahrscheinlich, dass Sie Kommentare von den besten Datenwissenschaftlern auf der Plattform erhalten. Dies funktioniert wie ein Mentoring-System, das sich insbesondere für Anfänger als sehr nützlich erweist.
Kaggle wurde 2010 von Anthony Goldbloom und Ben Hamner gegründet. Am 8. März 2017 wurde Kaggle von Google übernommen.
Um herauszufinden, für welche Zwecke Sie die Datensätze verwenden können, müssen Sie die Lizenz der Datensätze prüfen. Einige Datensätze dürfen nicht in akademischen Veröffentlichungen oder für kommerzielle Zwecke verwendet werden. Sie können jedoch jeden freigegebenen Datensatz kostenlos über die Kaggle-API in Ihr Kaggle-Notebook oder an einen anderen Ort herunterladen.
In Kaggle-Notebooks können Sie jederzeit eine GPU aktivieren. Sie dürfen die GPU maximal 30 Stunden pro Woche aktiv nutzen. Die von Kaggle bereitgestellte GPU ist eine Nvidia Tesla P100 GPU mit 16 GB Speicher.
Jeremy Howard ist ein australischer Datenwissenschaftler und Unternehmer, der 2011 und 2010 die globalen Kaggle-Datenwissenschaftswettbewerbe gewann. Anschließend wurde Howard Chefwissenschaftler und Präsident bei Kaggle.
Die Grandmaster-Stufe ist die höchste unter den Kaggle-Leistungsstufen (Anfänger, Mitwirkender, Experte, Meister und Grandmaster). Um die Grandmaster-Stufe zu erreichen, muss ein Benutzer mindestens 5 Goldmedaillen in Wettbewerben gewinnen, von denen mindestens 1 eine Einzelgoldmedaille sein muss; mindestens 5 Gold- und 5 Silbermedaillen in Datensätzen; mindestens 15 Goldmedaillen in Notizbüchern; und mindestens 500 Medaillen in Diskussionen, von denen mindestens 50 Goldmedaillen sein müssen. Derzeit gibt es nur 241 Datenwissenschaftler in der Grandmaster-Stufe.
Ja. Kaggles-Datensätze sind Open Source, aber um herauszufinden, für welche Zwecke diese Datensätze verwendet werden können, müssen Sie die Lizenz der Datensätze prüfen. Einige Datensätze dürfen nicht in akademischen Veröffentlichungen oder für kommerzielle Zwecke verwendet werden.
Die überwiegende Mehrheit der Kaggles-Datensätze ist zuverlässig. Sie können beurteilen, wie zuverlässig ein Datensatz ist, indem Sie sich seine Upvotes ansehen oder die mit dem Datensatz geteilten Notizbücher überprüfen. Allerdings sind nicht alle Kaggles-Datensätze für reale Anwendungsfälle geeignet.
Kaggles unterstützt derzeit keine mobile App. DataCamp verfügt jedoch über eine mobile App zum Erlernen von Data Science und zum Üben des Programmierens. Sie ist für iOS und Android verfügbar .
Kaggles Kernel ist ein kostenloser Jupyter-Notebook-Server, der GPUs integrieren kann. Er ermöglicht es Ihnen, Machine-Learning-Operationen auf Cloud-Computern statt auf Ihrem eigenen Computer durchzuführen, ähnlich wie DataLab, das im Browser funktioniert und dabei Cloud-basierte Ressourcen statt Ihres lokalen Computers nutzt.
Um auf die Notebook-Ausgaben von Kaggles zugreifen zu können, müssen Sie zuerst Ihr Notebook committen. Sie können dies tun, indem Sie oben links im Notebook auf die Schaltfläche „Version speichern“ klicken. Nach dem Commit Ihres Notebooks arbeiten zwei Kernel weiter. Der erste ist der, den Sie gerade bearbeiten, und der zweite ist der Hintergrundkernel, den Sie committet haben. Der im Hintergrund ausgeführte Kernel erstellt herunterladbare Ausgabedateien. Interaktive Notebooks speichern keine Dateien. Nachdem der Kernel im Hintergrund fertig ist, klicken Sie oben links auf die Zurück-Schaltfläche, um zur Seite mit den folgenden Registerkarten zu gelangen: Notebook, Code, Daten, Ausgabe und Kommentare. Wenn Sie zur Registerkarte „Ausgabe“ wechseln, sehen Sie, dass die Ausgabedateien zum Download bereitstehen.
Wenn Sie Anfänger sind, können Sie zunächst an den Wettbewerben in der Kategorie „Erste Schritte“ im Bereich „Wettbewerbe“ teilnehmen. Sie können auch die Notizbücher anderer Personen überprüfen. Wenn Sie über ein fortgeschritteneres Fachwissen verfügen, können Sie direkt mit der Teilnahme an aktiven Wettbewerben beginnen.
Das GPU-Kontingent wird jeden Samstag erneuert. Sie können Ihr verbleibendes GPU-Kontingent im Abschnitt GPU überprüfen, indem Sie in Ihrem Profil auf die Registerkarte Konto gehen. In diesem Abschnitt werden Ihr privater Datenspeicher sowie das GPU- und TPU-Kontingent angezeigt.
Wenn Sie auf der Wettbewerbsseite auf die Registerkarte „Diskussion“ klicken, werden Ihnen zahlreiche Diskussionsthemen zu den Wettbewerben angezeigt. Das Diskussionsthema mit den meisten Upvotes steht ganz oben und das Thema mit den meisten Stimmen ist der Gewinner, mit der Lösungserklärung und dem Link zum Gewinner-Notizbuch.