spark | /dev/ryge

Det er ikke nogen hemmelighed, at jeg holder af konferencer. Henover sommeren har jeg kigget på efterårets konferencer, og jeg har også kigget på budgettet, så jeg har udvalgt to, som jeg har tænkt mig at tage på.

GOTO; – 5-6. Oktober
Dette er en fast, tilbagevendende konference på mit program. Den er vigtig for mig af flere årsager. Dels er der det faglige input, men også det at møde de andre deltagere, at sludre med talerne fylder meget.
I år afholdes konferencen i København og jeg er meget spændt på hvordan det bliver. Trifork har tidligere forsøgt sig med at afholde Goto i København, men jeg kan forstå det var med begrænset succes. Jeg deltog, og jeg syntes den var meget anderledes en konferencen i Aarhus. Jeg kunne bedst lide Aarhus. Det er måske også derfor, at jeg er en smule skeptisk overfor at konferencen nu flytter til Hovedstaden. Det ærgrer mig også en smule, for jeg holder meget af Aarhus by og det var rart at få et par dage væk, hvor dagligdagen kom på behørig afstand. Jeg er bange for det ikke sker denne gang. Jeg overvejer endda at booke hotel, selvom jeg kunne cykle hjem, blot for at få fornemmelsen af, at hverdag og arbejde er langt væk.

Til dagligt arbejder jeg med Big Data, Predictive Analysis og Machine Learning, så det er selvfølgelig med det i baghovedet, at jeg kigger på årets program. Det er ikke noget spor, der er decideret navngivet “Big Data”, men noget der ligner: “The State of Data”. I beskrivelsen nævnes “machine learning”, “data analytics” og “scalability techniques”, hvilket jeg i min naive, håbefulde verden, læser som værende netop mit område. Heldigvis er hele tirsdagen sat af til dette spor.

Mit barnehjerte kan selvfølgelig også blive tilfredsstillet, håber jeg, med sporet “Robotics and Drones” mandag eftermiddag. Her glæder jeg mig til at høre “The New Frontier of Robotics”, som jeg håber handler om krydsfeltet mellem robotter og kunstig intelligens. I hvert fald er dette taleren Søren Tranberg Hansens bagrund.
…og så selvfølgelig keynoten “Curiosity’s Entry Descent and Landing on Mars”, vis titel vist giver sig selv.

Normalt kigger jeg også talerlisten igennem og vælge nogle talks på den baggrund, men i år synes jeg ikke rigtig at der er nogen som springer i øjnene. Jeg skal selvfølgelig høre Dave Thomas, fordi han er Dave Thomas. Det er ikke så vigtigt hvad han taler om, han er altid værd at lytte til. I år taler han så tilfældigvis om The State og Data, så jeg er dobbelt heldig.
Et andet navn der springer i øjnene, er Janne Jul Jensen, der skal tale om UX og det heldigvis som keynote, så det kommer ikke til at kollidere med mine andre ønsker.

Spark Summit, Amsterdam – 27-29. oktober
Spark Summit er for mig en ny konference, der – som navnet angiver – er centreret om Apache Spark projektet. Da jeg ikke har været til denne konference før, ved jeg selvfølgelig ikke hvad jeg skal forvente. Der er dog nogle interessant punkter i planen, som har fanget min interesse og er årsagen til, at jeg tager til konferencen:

“Building a REST Job Server for interactive Spark as a service”
At the moment we are running a lot of batch jobs, and I’m very interested to see, if I could transform some of them to more interactive services. My hope is to get some pointers from this talk.

“A Scalable Implementation of Deep Learning on Spark”
I also use a lot with Machine Learning algorithms in my daily work, but not any deep learning algorithms, but is of course interested to learn about the possibilities in Spark.

“Using Natural Language Processing on Non-Textual Data with MLLib”
Sidste sommer kodede jeg en dims der kunne klassificere tekster. Den var ret god til at klassificere og kunne klassificere i 3 niveauer:

Hvad man kunne kalde “den større sammenhæng” – om det var nationalt, europæisk eller globalt emne.
Tekstens overordnede emne, f.eks. kultur, økonomi, politik og et par stykker mere.
Tekstens indhold, f.eks. VM i fodbold, Tour de France eller koncertanmeldelse – for at nævne nogle stykker.

Algoritmen var en Bayesian learning algoritme, som jeg havde hånd-tweaket med lidt ML-fu fra min værktøjkasse. Algoritmen fungerede ret godt. Jeg har siden brugt samme algoritme til at klassificere andet data en tekster, og har haft en del succes med det. Derfor er jeg ret spændt på at høre, hvad andre har forsøgt sig med og hvilke resultater de har fået.

“Combining the Strengths of MLlib, scikit-learn, and R”
Jeg er storforbruger af både MLlib og scikit-learn, men dog ikke R, så hvis de på nogen måde kan kombineres på måder jeg ikke har tænkt på, er jeg interesseret i at høre om det. Om ikke andet, finder jeg det enormt motiverende at høre, at andre har tænkt tanker, der minder om mine egne.

Jeg har fået nyt job. Det lyder uvirkeligt for mig, når jeg siger det, men det har jeg altså. I mange år har jeg lavet software i telebranchen, hvilket har været spændende, men min oprindelige specialisering fra universitetet lå et andet sted: Maskinindlæring. Ja, jeg bruger et dansk ord for Machine Learning; jeg kan godt lide danske ord. Nå, men jeg har altså været heldig og fik tilbudt et job i en virksomhed, hvor jeg skal arbejde med netop maskinindlæring.

I virksomheden modtager vi enorme mængder at data, som vi laver analyser på. Big Data, som det jo populært hedder. Når virksomheden siger Big Data, er det ikke blot et buzzword, for der er tale om virkelig store mængder af data. Det jeg hørte var, at de har i omegnen af 100 maskiner, som ikke laver andet, end at modtage og forbehandle data. En af kunderne er Google. Det de gerne vil nu, er at finde yderligere information i en data, end de de allerede kan grave ud af den, med almindelige statistiske metoder. Det er her maskinindlæring, og derved jeg, kommer ind i billedet. Det kommer der et blogindlæg ud af snart, men først lidt om årets goto.

I de sidste par år, har min fokus mest ligget på funktionelle sprog og jeg har blandt andet været på rene clojurekonferencer. I september tager jeg på årets goto i Aarhus, og jeg har tænkt mig at prioritere det spor, der omhandler “Enterprise Architectures”. Årsagen er, at sporet blandt andet berører Big Data og at Mr. Scala, Dean Wampler kommer og taler om Spark, som er en af de teknologier jeg arbejder med nu.

Desværre ser den nye form ikke ud til at passe helt til mine interesser, for det ser ud til, at de mest spændende ting kommer til at foregå samtidig, bare i forskellige spor. Det er ærgrer mig en del, men til gengæld glæder jeg mig til at mødes med mine kollegaer i branchen, hvoraf en del af dem betragtes som venner, efter vi har mødtes så mange gange på konferencer, opgaver og arrangementer i andre sammenhænge.

/dev/ryge

Soapboxing beyond 140 characters

Tag Archives: spark

Konferencer i efteråret

Nye græsmarker