Maschinelles Lernen im Kaggle-Wettbewerb

Kaggle – Ein Erfahrungsbericht. The Home of Data Science. So der selbstgewählte Titel der sich immer größerer Beliebtheit erfreuenden Website. Was sich dahinter verbirgt, sind ausgesuchte Herausforderungen auf dem Gebiet des maschinellen Lernens und der statistischen Datenanalyse, ein intellektuelles Kräftemessen mit Datenanalysten aus der gesamten Welt und, schafft man es unter die Besten drei, auch…

Der Messi im Cube: „ProcessFull“ versus „ProcessUpdate“

Zwei der am häufigsten benutzten Verarbeitungs-Methoden von Dimensionen im Cube sind „ProcessFull“ und „ProcessUpdate“. Gerade letztere Methode wird dann benutzt, wenn der Cube mehrmals am Tag verarbeitet wird, weil z.B. verschiedene Datenquellen zu verschiedenen Zeitpunkte die Daten liefern. Während bei Benutzung von „ProcessFull“ eine Verarbeitung aller mit der Dimension verbundenen Measures notwendig ist, bleiben bei…

Dem Wohlstand auf der Spur, Statistik sei Dank

Am letzten Wochenende ist mir ein Artikel des Hamburger Abendblatts (29./30. November, Seite 12, “Der Wohlstand lebt im Norden”) in die Hände gefallen. Kurzum, es wurden die durchschnittlichen Pro-Kopf-Einkommen in 2010 der Stadtteile Hamburgs in einer Kartengrafik sehr anschaulich dargestellt. Dennoch ließ es mich etwas stutzen. Ich selbst wohne in Hamburg (Eimsbüttel), ich kenne eine ganze Menge Menschen hier. Besonders…

Vorwärts immer, rückwärts nimmer?

Die Anzahl der Neuerungen der Integration Services 2014 gegenüber 2012 ist bekanntermaßen recht überschaubar: “SQL Server 2014 Integration Services is unchanged from the previous release” lautet es unter What’s New (Integration Services). Entsprechend einfach gestaltet sich auch das Upgrade eines mit SSIS 2012 entwickelten Pakets auf SSIS 2014 – dieses geschieht quasi automatisch beim Hinzufügen…

DPD – neue Freiheit für den Kunden

In diesen Tagen startet die erste DPD-Kampagne aus der Feder von Kolle Rebbe. Alles dreht sich um das Thema “Freiheit”, denn mit dem neuen Service namens Predict gewinnen DPD-Kunden ein Stück Freiheit zurück. Ganz konkret: Dem Empfänger wird ein Zeitfenster von einer Stunde genannt, in der sein Paket zugestellt wird.

Pakete automatisiert aus dem SSIS Catalog extrahieren

Mit dem neuen Projektdeploymentmodell der Integration Services 2012, werden bei einem Deployment Projekte statt einzelner Pakete bereitgestellt. Diese landen dann auch nicht mehr wie beim Paketdeploymentmodell in der MSDB, sondern die SSIS Projekte (und damit auch deren Pakete) sind über eine separate Datenbank, dem SSIS Catalog (oder auch SSIDB genannt), erreichbar. Von dort können mittels…

PDW lässt Datenschaufler lächeln

BigData ist in aller Munde, aber tatsächlich rockt das PDW. Microsofts Parallel Datawarehouse, kurz PDW, ist ein riesiges, unglaublich schnelles Datenloch. Wir sind ja durchaus große Serverinfrastrukturen gewohnt. Aber seit wir in unseren Projekten mit dem PDW zu tun haben, sieht man unsere ETLer (das sind diejenigen, die die Daten in das PDW schaufeln) mit…