Accio ligas chidas ⚡🤓

🎧 Los Tigres del Norte - Por Tu Maldito Amor

Feb 22, 2020

Esta imagen no tiene nada que ver con este boletín pero se ve chida como portada cuando lo compartas en tus redes sociales 😎

¡Pásele! ¡Pásele! ¡Pásele!

Este boletín viene XL con toño, papel.

Tenemos conjuntos de datos, tenemos meetups, tenemos tutoriales, tenemos blogs, tenemos videos, tenemos apps, tenemos becas, tenemos notícias. Antes de comenzar les recuerdo que este recurso sale cada semana y que es súper fácil inscribirse en tacosdedatos.substack.com o dándole clic en este botón

pa’ que se lo compartan a sus amiguis.

Grupos

Lesly Zerna aka @leslysandra esta organizando el Meetup TensorFlow User Group Bolivia en Sucre: más info en la página https://www.meetup.com/TensorFlow-User-Group-Bolivia/

En Guanajuato, México va a haber un Meetup sobre crear aplicaciones web Serverless con AWS Amplify y AWS AppSync este sábado 14 de marzo 2020: más info en la página https://aplicacionesserverlessaws.splashthat.com/

En el internet, Don Pandas aka Wes McKinney anunció un grupo para desarrolladores de proyectos de datos. Este grupo es para conectar con otras personas que puede que estén haciendo proyectos similares pero en otros lenguajes. Vale la pena mencionar que Wes McKinney de junto con Hadley Wickham (creador del tidyverse) para crear Ursa Labs quienes están desarrollando Arrow para manejar datos entre lenguajes de manera eficiente. Aquí el discord: discuss.ossdata.org

Wes McKinney @wesmckinn

It's alive: discuss.ossdata.org A forum for discussions among developers of different open source data projects. If you are experienced with Discourse and want to help admin / configure / moderate to help this bootstrap let me know over DM.

discuss.ossdata.orgOpen Source Data DevelopersA discussion forum for open source data project developers

Hablando de grupos chidos que cambien vidas, las PyLadies de Ciudad de México tuvieron un taller introductorio a Python para datos y obvis microbis compartieron el repositorio de GitHub. Denle estrellita y manden buenas vibras: https://github.com/mar-esther23/CursoPandas2020

Datos, datos y más datos

Tu qué sabes de Big Data si nunca haz trabajado con datos climatológicos.

Stephan Rasp @raspstephan

Can AI predict weather? Let's find out! Announcing our brand-new benchmark dataset for data-driven weather forecasting: WeatherBench. We prepared the best available data and posed a clear challenge. Data and code: github.com/pangeo-data/We… Paper: arxiv.org/abs/2002.00469 Thread.

La pandilla de Pangeo anunciaron un nuevo dataset masivo (el primer paso es descargar una parte del conjunto total de datos y esa parte es 175 gb 🤯). El conjunto de datos viene con un reto para crear un modelo de inteligencia artificial que ayude a predecir el clima. Si te asustaste con lo de 175 gb no te preocupes porque el repositorio de GitHub viene con un enlace al BinderHub especial de Pangeo que tiene capacidades computacionales increíbles y es de uso gratuito. Sigue los enlaces del tuit para aprender más de esto.

Hablando de datasets masivos, en Londres existe un mercado llamado Tesco 411 del cual acaban de publicar los datos para 420 millones de productos alimenticios comprados por 1.6 millones de clientes. Cada producto viene con su contenido calórico e información de su valor nutricional. Este tipo de datos tan granulares permite explorar tendencias culturales y del factor socioeconómico ya que puedes conectarlo a áreas geográficas también 🤯 más aquí https://www.nature.com/articles/s41597-020-0397-7

Otro conjunto de datos súper interesante que me encontré esta semana es este de PUDL (no el perro - Public Utility Data Liberation project). Esta gente de PUDL limpiaron, homologaaron y publicaron datos que se encontraban previamente libres pero en un formato no accesible para el análisis a gran escala. Publicaron también los scripts que usan para limpiar y homologar los datos: https://github.com/catalyst-cooperative/pudl

Curiosamente, en su sitio web anuncian que están disponibles para ser contratados para el análisis de estos mismos datos. Esto se me hace un modelo de negocios muy interesante que tal vez valga la pena explorar en Latinoamérica: trabajas con datos abiertos, los limpias y públicas para que cualquier persona los use pero como eres la organización experta todavía traes valor agregado y vale la pena contratarte ? 🤔🤔🤔

¯\_(ツ)_/¯

Hablando de cosas interesantes, este conjunto de datos es sobre los imperios que han existido en la historia de la humanidad e incluye información de los países actuales que existen en dónde estos imperios alguna vez lo hicieron: https://www.wnvermeulen.com/empires/

¿Quién se avienta unos mapas bien chidos con ese? 👀👀

Hablando de datos geográficos, una herramienta más para trabajar con ellos: Gimme Geodata http://hanshack.com/geotools/gimmegeodata/

Gimme Geodata te da acceso rápido a datos de OpenStreetMap simplemente dándole clic a un mapa en el navegador. Esto me encanta, personalmente, porque nunca puedo encontrar Tijuana, mi ciudad, en OSM por la etiqueta que utilizan. Si le hago clic a Tijuana en este mapa descubro que tengo que buscar “Municipio de Tijuana” no solo “Tijuana” para accesar los datos -____-

Para acabar esta sección les dejo esta conferencia de datos abiertos en Latinoamérica que tomará lugar este septiembre en Panamá

ConDatos @ConDatosLATAM

¿Se estaban preguntando dónde estábamos? Preparando todo para esta octava edición de @ABRELATAM y ConDatos que se realizará los días 2, 3 y 4 de septiembre en Ciudad de Panamá. #SaveTheDate

Blogs y libros

Si te suscribiste a este boletín en español y sigues @tacosdedatos lo más probable es que lo que estés buscando es contenido en español. Trato de encontrar contenido en español pero la verdad hay veces que no encuentro suficiente para llenar un boletín entero. Lo bueno es que hay contenido como este que es una traducción de un blog en inglés al español publicado en Ciencia y Datos en Medium: “Aprendizaje No Supervisado Desmitificado” https://link.medium.com/daSb5k8p63

Muchas veces quienes queremos empezar a crear contenido en español queremos comenzar de cero pero igual de valioso es traducir contenido ya creado de otros idiomas al español para que nosotrxs también tengamos acceso a esa información.

Este siguiente no está en español jajajaja perdón 😔

Este artículo se títula Pensamiento Estadístico para el Cientifico del Siglo XXI y está muy interesante para quiénes estamos bien nerdamente interesados en los conceptos estadísticos detrás de esa magia negra que llamamos inteligencia artificial: https://advances.sciencemag.org/content/3/6/e1700768.full

Hablando de cosas nerds, econometría. Hace poco tuvimos una serie de seminarios en la oficina dónde un camarada presentó un mini curso de econometría para quiénes vamos empezando. Estuvo muy interesante pero quería verlo en práctica así que busque recursos de econometría en R y python. Este es uno de ellos: Econometrics with R: El repo https://github.com/mca91/EconometricsWithR y su sitio web https://www.econometrics-with-r.org/

También encontré este repositorio con el código para reproducir las figuras del libro “Mostly Harmless Econometrics” en R, python, stata y Julia 😱

https://github.com/vikjam/mostly-harmless-replication

Notícias

Santander anuncia 2500 becas para estudiar un programa en línea de Liderazgo y Transformación Digital. Las aplicaciones cierran el 15 de marzo: https://www.becas-santander.com/es/program/becas-santander-for-mit-leading-digital-transformation

Y con esta noticia hubiera empezado el boletín pero la guarde hasta acá para quiénes en serio leen esto: Los premios Sigma anuncian los ganadores de este año

https://datajournalism.com/awards

Son los premios al periodismo de datos, yo diría, más importantes del momento y hay uno que otro medio latinoamericano que ganó 🙏🏼👀

Videos

La famosisisisima rstudio::conf 2020 acaba de acontecer en San Francisco, California y ya están en línea los videos de las charlas presentadas en su sitio web https://resources.rstudio.com/rstudio-conf-2020

Entre mis favoritos:

Y este vídeo no viene de RStudio conf sino de Antonio Feregrino quien acaba de publicar dos artículos en tacosdedatos.com y es sobre cómo usar Git en equipo:

Y para acabar

Herramientas

La app Carnets te permite crear y ejecutar jupyter Notebooks en tu dispositivo iOS 🤯 y utiliza tu cuenta de iCloud para sincronizarlos en todos tus dispositivos así que si tienes una laptop Macbook puedes crear Notebooks desde tu celular y luego verlos en tu computadora 😱

https://holzschu.github.io/Carnets_Jupyter/

Algo similar en Android es pydroid 3 que hasta donde yo entiendo te da una terminal donde puedes instalar jupyter y ejecutar el comando

jupyter notebook

les dejo este tuit donde aprendimos como lo pueden instalar de la manera correcta (jupyter)

Duvan Nieves Ruiz @DuvanNievesRui1

@giubecc @tacosdedatos Intenta descargalo aquí. Te pedirá descargar algo de Google Play, hazlo y vuelve a la app en la misma sección y podrás descargarlo y utilizarlo sin problema.

Ahí mismo en tuiter encontré este consejo de R que ya se me hizo casi casi tradición compatir en este boletín:

Daniel Sjoberg @statistishdan

Delighted to announce the release of {gtsummary} 1.2.6! We've gone all in with #tidyselect and I💙the new functionality!📦 summarizes data frames, regression models, and more! #rstats #datascience #gt #cran @Margaret_Hannum @karissawhiting @zabormetricfn

Y hablando de Twitter, ¿alguna vez has intentado adquirir datos de ahí? es todo un show el registrarte, registrar tu app, etc etc. twint es una herramienta para “scrappear" twitter sin tener que hacer eso 👌🏼

https://github.com/twintproject/twint

La última herramienta que les voy a compartir es el Data Kit de la Associated Press. Esta es una herramienta de la línea de comandos para organizar tus proyectos de periodismo de datos. Facilita la estandarización y el compartir de proyectos. Tembien te integra el guardar datos en la nube si sabes hacer eso 🤓

http://datakit.ap.org/

DataKit utiliza cookiecutter detrás de escenas para crear un proyecto. Si te interesa, yo compatí en GitHub la plantilla que utilizo para todos mis proyectos de datos. Se encuentra aquí con todo e instrucciones:

https://github.com/tacos-de-datos/cookiecutter-analisis-de-datos

Bonus

Checa si tu sitio web es accesible para personas que no pueden ver todos los colores: https://www.toptal.com/designers/colorfilter/

Lo que ando consumiendo…

Talk Python To Me (podcast): #252 What Scientific Computing Can Learn From CS
Why Ancient Mapmakers Were Terrified of Blank Spaces (National Geographic)
La serie de Netflix Tijuana
Ya lo había compartido antes pero no puedo dejar de escuchar el nuevo disco de Los Tigres del Norte y específicamente la canción Acá Entre Nos (les juro que estoy bien nomás es una muy buena canción jajajaj)

Antes de despedirme…

Si llegaste hasta acá tal vez te interese mi boletín personal en el que estaré escribiendo más a fondo sobre distintos temas de política pública, datos, tecnología en Latinoamérica y especialmente de visualización de datos. Es de substack como este boletín. Este boletín va a seguir existiendo semanalmente para compartir recursos - el otro boletín es para investigar más a fondo ciertas noticias o tendencias desde un enfoque de los datos. Se llama Visualizin’ The Realism y se encuentra aquí: chekos.substack.com

Visualizin' the Realism

Ahí escribiré en inglés y español ya que así piensa mi cerebro hoy en día jajaj

Muchísimas gracias por leer y compartir. tacosdedatos crece gracias a ti 🌮♥️

Te dejo este botoncito para suscribirte si no lo haz hecho

y este para compartir esta entrada del boletín👇🏼

y uno más para compatir tacosdedatos, el boletín

Share 🌮📊 tacosdedatos, el boletín 📋✍🏼

¡Hasta la próxima semana!

ay’tamos