Blog - Dimajix

Uncategorized

Big Data Engineering — Declarative Data Flows

This is part 3 of a series on data engineering in a big data environment.…

<img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' class='avatar avatar-70 photo' height='70' width='70' decoding='async'/>

KupferschmidtAdmin22. October 2020

Big Data PySpark Spark

Big Data Engineering — Apache Spark

This is part 2 of a series on data engineering in a big data environment.…

<img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' class='avatar avatar-70 photo' height='70' width='70' decoding='async'/>

KupferschmidtAdmin17. October 2020

Big Data Spark

Big Data Engineering — Best Practices

This is part 1 of a series on data engineering in a big data environment.…

<img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' class='avatar avatar-70 photo' height='70' width='70' decoding='async'/>

KupferschmidtAdmin16. October 2020

Running Jupyter with Spark in Docker

most attendees of dimajix Spark workshops seem to like the hands-on approach I am offering…

<img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' class='avatar avatar-70 photo' height='70' width='70' decoding='async'/>

KupferschmidtAdmin2. October 2017

Jupyter Notebooks with PySpark in AWS

Amazon Elastic MapReduce (EMR) is something wonderful if you need compute capacity on demand. I…

<img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' class='avatar avatar-70 photo' height='70' width='70' decoding='async'/>

KupferschmidtAdmin22. May 2017

Running Spark and Hadoop with S3

Traditionally HDFS was the primary storage for Hadoop (and therefore also for Apache Spark). Naturally…

<img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' class='avatar avatar-70 photo' height='70' width='70' decoding='async'/>

KupferschmidtAdmin5. May 2017

Running PySpark on Anaconda in PyCharm

Working with PySpark Currently Apache Spark with its bindings PySpark and SparkR is the processing…

<img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' data-srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' height='70' width='70' decoding='async' data-src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' class='avatar avatar-70 photo lazyload' src='data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==' /><noscript><img alt='KupferschmidtAdmin' src='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=70&r=g' srcset='https://secure.gravatar.com/avatar/efc598947c26e7873cb72113ed37c589?s=140&r=g 2x' class='avatar avatar-70 photo' height='70' width='70' decoding='async'/>

KupferschmidtAdmin15. April 2017

Building Druid for Cloudera 5.4.x

So the other day I wanted to investigate into using Druid as a reporting backend…

dominik_adm1n23. March 2016

We are here to support you. Contact

© 2024 Dimajix. Design by rocket.works. Impressum | Datenschutz

Anfrage: