R vs. Spark: Konventionelle Lösung für moderne Herausforderungen

28.11.2016 16:03

Im Programm der SMART DATA Developer Conference 2016 vergleicht Dr. Henrik Behrens im Vortrag "Implementierung eines Recommender-Algorithmus" anhand der Programmierung eines Recommender-Systems die konventionelle Implementierung in R mit zwei Implementierungen in Spark (DataFrames und MLlib). Im Vorfeld haben wir von developer-media.de ihm drei Fragen zum Thema gestellt.

developer-media.de: Herr Dr. Behrens, macht „Big Data“ klassische Analysten/Statistiker arbeitslos, oder haben diese als Data Scientists in Zukunft nur noch mit Zusatzausbildung Softwareentwicklung eine Chance auf dem Arbeitsmarkt?

Dr. Henrik Behrens: Das hängt unter anderem von der Definition von „Big Data“ ab. Wenn wir darunter clusterfähige Technologien verstehen, so ist meine Einschätzung, dass es zwar immer häufiger Projekte geben wird, die mit Big-Data-Technologien durchgeführt werden. Es wird aber in absehbarer Zeit immer einen erheblichen Anteil an Projekten geben, die sich weiterhin mit konventioneller Technologie (z.B. R) lösen lassen. Insofern bleibt das Know-how bei den klassischen Tools weiterhin wertvoll. Wer zusätzlich über Erfahrungen im Bereich Big Data verfügt, wird zunehmend gefragter sein, eine Zusatzausbildung in Softwareentwicklung halte ich aber nicht für erforderlich.

Sind konventionelle Technologien wie R von vorneherein ausgeschieden für moderne Anwendungsfälle wie „Big Data“ – oder gibt es bestimmte Anwendungsfälle, in denen erstere zu empfehlen sind?

Auch hier stellt sich die Frage, was man genau unter „Big Data“ versteht. Viele Anwendungsfälle können sowohl mit konventionellen als auch mit Clustertechnologien bearbeitet werden. Bei dieser Sichtweise charakterisiert „Big Data“ eher die Lösung als den Anwendungsfall. Meint man mit „Big Data“ die Arbeit mit unstrukturierten Daten (z.B. Text Mining) oder die Erstellung prädiktiver Modelle (Machine Learning), so spricht nichts gegen die konventionellen Technologien, solange die Ressourcen des verwendeten Servers die Erledigung der Aufgabe in akzeptabler Zeit zulassen. Clustertechnologien bedeuten grundsätzlich zusätzliche Komplexität, die man normalerweise erst in Kauf nimmt, wenn man sie benötigt oder den Umgang mit der Technologie lernen will. Hat man allerdings einen Cluster zur Verfügung und Erfahrungen damit gesammelt, sinkt naturgemäß die Hürde, ihn auch für Anwendungsfälle einzusetzen, die auch mit konventionellen Technologien lösbar wären. Allerdings sind die clusterbasierten Technologien mitunter weniger ausgereift als die konventionellen Technologien, was in Einzelfällen für den Einsatz einer konventionellen Technologie sprechen kann.

Ist ein Algorithmus im Big-Data-Umfeld gleichzusetzen mit Machine Learning bzw. umgekehrt: Steht hinter Machine-Learning-Anwendungen immer ein Algorithmus?

Algorithmen sind Formalismen zur automatischen Lösung von Problemen. Beim Thema Machine Learning kommen Algorithmen zum Trainieren eines Modells und zur Verwendung eines Modells zum Einsatz. Darüber hinaus gibt es natürlich viele Algorithmen, die mit Machine Learning nichts zu tun haben. Beide Klassen von Algorithmen können mit clusterfähigen Technologien (die ich als „Big Data“ bezeichnen würde) und mit konventionellen Technologien realisiert werden. Big Data Technologien werden sehr oft auch jenseits von Machine Learning-Aufgaben eingesetzt, z.B. für Data Warehousing.

 

Die SMART DATA Developer Conference 2016 findet statt am 06.12. in Köln. Erfahren Sie von ausgewählten Experten, wie Sie mit geeigneten Tools und Frameworks das meiste aus Ihren Unternehmensdaten herausholen. Hier finden Sie das vollständige Programm >>

Vortrag von Dr. Henrik Behrens am 06.12.2016, 14:30 - 15:25 Uhr: Anhand eines konkreten Anwendungsfalls, der Programmierung eines Recommender-Systems, vergleichen wir eine konventionelle Implementierung in R mit zwei Implementierungen in der Big-Data-Technologie Spark (Spark DataFrames und Spark MLlib). Mehr und zur Anmeldung >>

Schlagwörter: Daten


Autor Dr. Henrik Behrens

Henrik Behrens arbeitet als „Principal Data Scientist“ im Data Science-Team der SHS VIVEON AG.  Er verfügt über 12 Jahre Erfahrung als Berater und Architekt in den Bereichen Data Warehouse, Big Data und Analytics in verschiedenen Branchen. Seit vier Jahren arbeitet er schwerpunktmäßig mit Big Data Technologien (v.a. Hadoop, Spark und Elasticsearch). Bei der SHS VIVEON ist er für das Thema „Big Data“ verantwortlich.

Dr. Henrik Behrens

Developer Week in Social Media

Folgen Sie uns auf:

Aussteller & Sponsoren

Infos anfordern

Infos anfordern
  • Florian Bender
  • Projektleitung
  • Tel.: +49 (89) 74117-206
  • Fax: +49 (89) 74117-448
  • E-Mail: florian.bender@nmg.de

Medienpartner