Hoe Apache Spark stevige Databricks wordt afvuren van cloud automation

In vijf jaar heeft analytics cluster kader Spark verplaatst van een onderzoekslaboratorium voor het datacenter en de productie workloads. Databricks CEO Ion Stoica grafieken zijn opkomst.

Apache Spark bedrijf Databricks heeft zijn cloud-platform bijgewerkt met een functie ontworpen om bedrijven te beheren productie pijpleidingen naar Spark workloads zonder menselijke tussenkomst.

Het bedrijf, opgericht in 2013 door de makers van de verschillende onderdelen Spark’s, zegt dat de nieuwe banen functie steunt de oprichting van de productie met behulp van pijpleidingen Databricks Cloud notebooks als standalone applicaties die de Spark in-memory data-verwerking kader te gebruiken.

Vanwege dat vermogen om te bewegen van exploratie tot productie workloads, Databricks rekent de banen zijn voorzien zal de tijd snijden besteed aan het ontwikkelen, plannen en beheren van complexe Spark workloads.

Databricks hoofd engineering Ali Ghodsi zei dat het bedrijf had gewerkt aan de functie Jobs al enige tijd als gevolg van de moeilijkheden van het maken van interactieve exploratie, samenwerking en productie om goed samen te werken.

“Je kunt je notebook te nemen en zeggen: ‘Oké, ik wil dat dit notebook dat ik net interactief hebt ontwikkeld nu alle nieuwe gegevens die wordt geleverd in elke twee uur op te lopen. Ik wil dat je een cluster te lanceren voor mij van deze bepaalde grootte , genoeg machines voor dit cluster, configureren voor mij, lopen deze baan of notebook om de twee uur en dump de resultaten ergens anders, “zei hij.

Zodra de werklast wordt uitgevoerd in de productie, kunnen gebruikers e-mailberichten signaleren van problemen te ontvangen.

“Als je een e-mail te krijgen, kunt u teruggaan naar de UI weer op een bepaald moment en zie de output van elk van deze runs van de baan. U kunt op het naar de uitgang te zien en het leuke is dat je weer krijgen deze laptop terug, “zei Ghodsi.

Met een nieuwe analytics cloud service onthulde eerder deze maand, CEO Sharmila Mulligan legt uit hoe clearstory motor verschuift data inzichten om gewone gebruikers.

Spark begon in 2009 als een UC Berkeley onderzoeksproject naar een clustering computergebruik kader aanpakken doel workloads slecht bediend door Hadoop te creëren. Het ging open source in 2010 en september 1,1 vrijlating telde meer dan 170 medewerkers.

“Spark is een motor die is veel sneller dan Hadoop Het heeft een zeer eenvoudige API waarmee programmeurs te gebruiken, het schrijven van zeer paar regels code in vergelijking met Hadoop en uiteindelijk -. Dit is een van de belangrijkste sterke punten – het verenigt veel verschillende modellen, die u anders zou moeten veel verschillende systemen gebruiken voor, “zei Ghodsi.

“Dus als je wilt real time screening of SQL-query’s of machine-learning of gewoon basic ruwe data-kraken zou je, voordat Spark, maken gebruik van verschillende systemen. Maar Spark kunt u dit doet heel natuurlijk in een kader. Do”

Ghodsi zei dat de makers van Spark gemaakt Databricks Cloud, dat werd onthuld in juni vorig jaar, omdat aan de slag met een van deze kaders, zelfs Spark, vereist gebruikers om te gaan door een hoop hoepels.

“Je moet het opzetten van clusters -.. Dat je zes maanden kan duren Je moet ze configureren Je moet werken met activiteiten om op te staan ​​dat als je eenmaal hebt geïnstalleerd Spark, Spark is gewoon de motor je een manier moeten nog steeds.. om de gegevens interactief te verkennen. je moet een soort van interactieve bedieningsgereedschap waar je gewoon kunt zitten en schrijf deze dingen, “zei hij.

Ghodsi zei dat de angst voor de lock-in ligt achter de relatieve mislukking van platform as a service in vergelijking met de infrastructuur als dienst, die enorm succesvol is geweest.

Kijk naar wat Google en Amazon aan het doen zijn met databases: Dat is uw toekomst; Dataminr verhoogt $ 130.000.000 tot enterprise verticals uit te breiden voor Twitter analytics; Hoe Facebook is het versnellen van de Presto SQL query-engine; Juniper Networks lijnen tot internet van de dingen strategie voor datacenters; BI startup Looker inkepingen $ 30m injectie voor expansie; WANdisco kanten met Open data Platform als Hadoop debat spikes; Hortonworks chief: Waarom is het tijd voor een aantal moeilijke beslissingen Hadoop

Social Enterprise; LinkedIn onthult haar nieuwe blogging platform; Big Data Analytics, Is dit de leeftijd van Big OLAP;? Big Data Analytics; DataRobot gericht op low-opknoping fruit van de gegevens wetenschap te automatiseren; Big Data Analytics; MapR oprichter John Schroeder treden naar beneden, COO te vervangen

“Als je ze een aantal API te geven en zeggen: ‘Gebruik deze API’ en het is merkgebonden en niet open source, ze gaan zeggen: ‘Dit is geen optie. Waarom zou ik in deze mand zet al mijn eieren?’. dat is een van de belangrijkste dingen in Databricks Cloud. Spark is open source. dat is de reden waarom we investeren in open-source Spark. op Databricks Cloud, is er geen lock-in. het is niet onze private API of berekening motor. U kunt het en laten draaien op open-source Spark. Je kunt het te nemen en deze vervolgens op prem “, zei Ghodsi

De Databricks Cloud Jobs feature gelanceerd deze week op de inaugurele Spark Summit East in New York City.

LinkedIn onthult haar nieuwe blogging platform

Is dit de leeftijd van Big OLAP?

Meer over big data

DataRobot streeft naar laaghangend fruit van data science automatiseren

MapR oprichter John Schroeder treden naar beneden, COO te vervangen