Durante el mes de Agosto, Juan Pampliega y yo recibimos la invitación para armar un taller de Big Data en el Espacio Fundación Telefonica como un complemento a la exposición “Big Bang Data”. Este post es un resumen del evento y las referencias de lectura para los que no tuvieran la oportunidad de participar.
Lista de Discusión
Durante el taller creamos una lista de discusión que vaya más allá del programa y quedemos en contacto para aprender en conjunto. Si tenés interes en la tematica, inscribite acá
Resultados
Tomando los resultados de la encuesta hecha con los participantes, es muy placentero saber que 60% definió como Excelente la calidad del taller y 40% como Muy Bueno - correcto, no hubo calificaciones inferiores a estas :) - también quedó muy marcado el pedido de más horas de taller para que puedan tener más horas de practica, así que nos inspira a buscar este objetivo en futuros talleres.
Referencias
El material abajo es contiene las principales referencias que usamos para armar el material del curso. No debe ser considerado un listado exhaustivo.
Clase I y II: Introducción a Big Data y Hadoop
Libros y referencias (en papel)
Hadoop
- Tom White, Hadoop: The Definitive Guide, 4th Edition, O’Reilly Media, March 2015
- Alex Holmes, Hadoop in Practice, Second Edition, Manning Publications, September 2014
- Mark Grover, Ted Malaska, Jonathan Seidman, Gwen Shapira, Hadoop Application Architectures, O’Reilly Media, Final version not released
Big Data / Apache Spark
- Nathan Marz and James Warren, Big Data, Manning Publications, April 2015
- Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia, Learning Spark, O’Reilly Media, January 2015
- Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills, Advanced Analytics with Spark, O’Reilly Media, Inc., March 2015
- Martin Kleppmann, Designing Data Intensive Applications, O’Reilly Media, Final version not released
Sitios y Newsletters:
- The Hortonworks Blog - http://hortonworks.com/blog/
- Cloudera Engineering Blog - http://blog.cloudera.com/blog/
- Databricks Developer Blog - http://databricks.com/blog
- Confluent Blog - http://blog.confluent.io/
- Noticias semanales del ecosistema de Big Data (no es exclusivo de Hadoop) - http://www.hadoopweekly.com/
- Martin Kleppmann Blog - http://martin.kleppmann.com/
- NoSQL Weekly - http://www.nosqlweekly.com/
Clase III: NoSQL databases y más
NoSQL
- http://en.wikipedia.org/wiki/NoSQL
- http://blog.cloudera.com/blog/2014/11/nosql-in-a-hadoop-world-2/
- http://www.slideshare.net/thobe/nosql-for-dummies
- http://martinfowler.com/bliki/NosqlDefinition.html
- http://nathanmarz.com/blog/how-to-beat-the-cap-theorem.html
- http://ivoroshilin.com/2012/12/13/brewers-cap-theorem-explained-base-versus-acid/
NewSQL
Search
- https://www.found.no/foundation/elasticsearch-as-nosql/
- http://searchbusinessanalytics.techtarget.com/feature/Why-logical-data-warehouse-is-no-longer-a-logical-term
Clase IV: Stream Processing
Conceptos Generales:
- http://radar.oreilly.com/2015/08/the-world-beyond-batch-streaming-101.html
- http://blog.confluent.io/2015/01/29/making-sense-of-stream-processing/
- https://engineering.linkedin.com/distributed-systems/log-what-every-software-engineer-should-know-about-real-time-datas-unifying
- http://radar.oreilly.com/2014/07/questioning-the-lambda-architecture.html
- http://blog.confluent.io/2015/03/04/turning-the-database-inside-out-with-apache-samza/
- http://radar.oreilly.com/2014/07/why-local-state-is-a-fundamental-primitive-in-stream-processing.html
Kafka:
- http://blog.cloudera.com/blog/2014/09/apache-kafka-for-beginners/
- http://www.michael-noll.com/blog/2014/08/18/apache-kafka-training-deck-and-tutorial/
- http://www.slideshare.net/gwenshap/kafka-for-dbas
Frameworks de Procesamiento
- http://samza.apache.org/learn/documentation/latest/comparisons/introduction.html
- https://storm.apache.org/documentation/Tutorial.html
Clase V: Apache Spark y Spark Streaming
- https://spark.apache.org/docs/latest/quick-start.html
- https://databricks.com/blog/
- https://spark-summit.org/
- http://zeppelin-project.org/docs/tutorial/tutorial.html
- http://es.slideshare.net/frodriguezolivera/apache-spark-streaming
- http://arjon.es/2014/11/28/wisit2014-clasificando-tweets-en-realtime-con-apache-spark/
Spark Summit 2014
- http://training.databricks.com/workshop/itas_workshop.pdf
- https://spark-summit.org/2014/wp-content/uploads/2014/07/A-Deeper-Understanding-of-Spark-Internals-Aaron-Davidson.pdf
Spark Summit 2015
- https://spark-summit.org/2015-east/wp-content/uploads/2015/03/SSE15-1-Matei-Zaharia.pdf
- https://www.youtube.com/watch?v=EuWDz2Vb1Io&index=1&list=PL-x35fyliRwhrzM1Hq62WX4UeIIEqw3SU
- http://training.databricks.com/workshop/sparkcamp.pdf
- https://databricks-training.s3.amazonaws.com/slides/advanced-spark-training.pdf
Laboratorio Hands-On
La VM y los ejemplos están documentados en este post (en inglés)