Voor een bigdata opdracht moet ik een grafiek maken waarin te zien is of het éérste team van een voetbalteam meer/effectiever traint dan een team dat onder dit team speelt van een voetbal club. Dit doe ik met behulp van apache Hadoop (eis van de klant) en de R-programmeertaal.
De (hive) query die ik gebruik voor het filteren van de data is: http://pastebin.com/qhvkAPBU
Hier komende de volgende resultaten uit: http://pastebin.com/P71h2X0C (CSV Export)
Ik heb nu totaal 53 records waarvan er een x-aantal van team1 en een x-aantal van team 2 zijn... echter als ik dit door een "for loop" haal zul je zien dat ik 43 weken heb en dat de waardes van team 1 en team 2 ongelijk zijn...
Nu wil ik dus 3 arrays (vectors in R-programming) met dezelfde aantal waarde, waarvan de week leidend is dus, wanneer een waarde ontbreekt moet deze standaard 0 worden:
$weeks = [1,2,3, ..., 43]
$team1 = [147.33, 123.11, 123.55, ..., 123.55]
$team2 = [123.33, 0, 0, ..., 123.55]
Hoe zouden jullie dit oplossen in een willekeurige programmeertaal of misschien wel in de SQL query zelf...?