Collapsible sidebar using Bootstrap 3

Wissensentdeckung

Data Science bezeichnet die Extrahierung von Wissen aus Daten. Damit aus Daten Informationen werden, müssen diese analysiert werden. Hierbei werden diverse Techniken und Theorien aus der Mathematik, Statistik und Informationstechnologie, wie Wahrscheinlichkeitsmodelle, Mustererkennung, Signalverarbeitung, Datenvisualisierung und viele weitere angewandt.

 

Instrumente des Data Science

Es gibt diverse Bibliotheken, Frameworks, Module und Toolkits, welche die wichtigsten Data Science Algorithmen und Techniken implementieren. Nachfolgend sollen die geläufigsten Werkzeuge des Data Science dargestellt werden:

 

SciPy

SciPy ist ein auf der Programmiersprache Python basierendes Ökosystem aus Open-Source Software für Mathematik, Naturwissenschaften und Technik. Zu den Kernpaketen zählen insbesondere:

  • NumPy
  • IPython
  • SciPy library
  • Sympy
  • Matplotlib
  • pandas

 

 

 

NumPy

NumPy ist ein Grundpaket für Scientific Computing mit Python und enthält:

  • Ein leistungsfähiges n-dimensionales Array-Objekt
  • Broadcasting Funktionen
  • Werkzeuge für die Integration von C/C++ und Fortran-Code
  • Nützliche Funktionen im Bereich der linearen Algebra, Fourier Transformation und Zufallsgenerierung

Neben den obengenannten Funktionen kann NumPy zudem als effizienter mehrdimensionaler Behälter von generischen Daten genutzt werden. Da man mit NumPy beleibige Datentypen definieren kann, ist eine reibungslose und zügige Integration einer Vielzahl von Datenbanken möglich.

 

 

IPython

IPython bietet eine umfassende Architektur für interaktives Computing mit:

  • Einem leistungsstarken interaktiven Shell
  • Einem Kernel für Jupyter
  • Unterstützung für eine interaktive Datenvisualisierung und Nutzung von GUI-Toolkits
  • Flexible, integrierbare Dolmetscher, welche in eigene Projekte geladen werden können
  • Simple, leistungsstarke Werkzeuge im Bereich des Parallel-Computing

 

 

 

SciPy library

SciPy bietet diverse benutzerfreundliche und effiziente Funktionen für nummerische Integration und Optimierung.

Sympy

Sympy ist eine Python-Bibliothek für symbolische Mathematik. Einfache Nutzung vielfältiger, komplexer Funktionen – Sympy möchte sich zu einem voll funktionsfähigen Computer-Algebra-System entwickeln und dabei den Code so einfach halten, dass es für jeden verständlich und leicht erweiterbar ist. Sympy ist komplett in Python geschrieben und benötigt keine externen Bibliotheken.

Alle Vorteile auf einen Blick

  • Kostenlos: Sympy ist in der BSD-Linzenz enthalten und daher kostenlos
  • Python basiert: Sympy is komplett in Python geschrieben
  • Kompakt: Sympy benötigt keine externen Bibliotheken und ist daher einfach in der Nutzung
  • Eine Bibliothek: Sympy kann in anderen Applikationen integriert werden und um weitere Funktionen erweitert werden

 

Pandas

Pandas ist eine Open-Source BSD-lizenzierte Bibliothek, die leistungsstarke, einfach zu bedienende Datenstrukturen und Datenanalysewerkzeuge für die Python-Programmiersprache bietet.

Die Pandas Bibliothek bietet:

  • Ein schnelles und effizientes DataFrame Objekt für die Datenmanipulation
  • Tools zum Lesen und Schreiben von Daten zwischen In-Memory-Datenstrukturen und verschiedenen Formaten
  • Intelligente Datenausrichtung
  • Intelligenter Umgang mit fehlenden Daten
  • Flexible Umformung von Datensätzen
  • „Slicing“ und Indexierung großer Datenmengen
  • Hinzufügen oder Löschung von Spalten innerhalb von Datenstrukturen
  • Aggregation oder Umwandlung von Daten mithilfe von Gruppierungs-Funktionen
  • Zusammenführen und Verbinden von Datensätzen
  • Hierarchische Achsen Indexierung 
  • „Time-Series“ Funktionen
  • Vielfältige Anwendungsbereiche (z.B. Finanzen, Neurowissenschaft, Volkswirtschaftslehre, Statistik, Werbung, Web Analytics etc.)