Jupyter Notebook: qué es y cómo se usa
Jupyter Notebook se usa para visualizar datos en big data y data science.
Jupyter Notebook es una aplicación web de código abierto. Cada desarrollador puede dividir el código en partes y trabajar en ellas sin importar el orden: escribir, probar funciones, cargar un archivo en la memoria y procesar el contenido. Te contamos cómo escribir tu primer código hoy.
Qué es Jupyter Notebook y dónde se aplica
Jupyter Notebook es un entorno de desarrollo interactivo con el live code. Jupyter muestra una ejecución del código a través del navegador web. Si un desarrollador quiere visualizar un gráfico o una fórmula, escribe el comando deseado en la celda correspondiente. Este enfoque ahorra tiempo y ayuda a evitar errores.
Jupyter Notebook se usa en aprendizaje automático al crear redes neuronales, por ejemplo. Los científicos de datos y programadores de Python lo usan también.
Qué lenguajes son compatibles
Jupyter es el sucesor del proyecto IPython. Ahora, Notebook funciona con otros lenguajes de programación aparte de Python. Se añadieron los kernels para otros lenguajes como:
- Ruby
- Julia
- Perl
- Matlab
- R.
Cada kernel tiene una instrucción de instalación distinta. Para ejecutar el código correspondiente a cada lenguaje, se usan los magic commands. Estos permiten extender la funcionalidad de Python.
Tipos de Jupyter Notebook
Jupyter Notebook se ejecuta en cualquier servidor con acceso SSH o HTTP.
Ejecución en la computadora
Se debe contar con Python y la biblioteca Jupyter cargada. Para instalar el programa, ingresa el siguiente comando en una ventana de terminal:
pip3 install jupyter
Esto activará la utilidad de instalación — pip. Sus tareas son desarchivar, instalar y actualizar paquetes de software.
Otra forma de ejecutar Notebook en una computadora es por medio de Anaconda, un conjunto de archivos con software útil: Python, Jupiter, NumPy, Pandas y Matplotlib.
Ejecución en la nube
Si quieres escribir un código de forma inmediata, ejecuta Notebook en la nube. Con un servicio como Google Colab, puedes escribir con Python en cualquier navegador. No se requieren configuraciones especiales, simplemente sigue las instrucciones y escribe el código.
Una desventaja de este formato es que los programas de un servidor local funcionan más rápido que en la nube. Además, estos últimos tienen un conjunto limitado de bibliotecas. Si se necesitan recursos adicionales, el proyecto puede ser un fracaso.
Crea tu primer notebook
Crea un nuevo notebook — así se llama un proyecto en Jupyter .
Ejecución de Jupyter
Usa el comando: jupyter notebook. Se abrirá una nueva pestaña en el navegador y se iniciará el programa. La URL de la aplicación se verá así:
https://localhost:8888/tree
Interfaz de Jupyter
A continuación te explicamos de forma breve las herramientas básicas de la interfaz de Jupyter.
Todos los notebooks están marcados con un icono de cuaderno. Para crear un nuevo notebook, selecciona New → Python 3 en el menú superior. Junto al logo de Jupyter aparecerá Untitled. Este será el nombre del notebook.
Cada notebook usa una nueva pestaña en la que puedes abrir al menos cien proyectos al mismo tiempo. Para encontrar todos los notebooks, haz clic en la pestaña Running. Los proyectos iniciados tendrán un ícono verde, los proyectos que no están en uso tendrán uno gris.
Celda
Abre un nuevo notebook. El campo con el contorno verde y etiquetado In [ ], es la celda con la línea del código. Un contorno verde significa que la celda está en modo de edición.
Las celdas son el ADN de un notebook, y están divididas en las de código y el markdown.
Escribe una expresión de salida usando la sintaxis de Python. Haz clic en Run y ¡felicitaciones! Acabas de crear tu primer fragmento de código.
Nota que In [ ] se ha convertido en In [1]. Este es el número de secuencia inicial de la celda. El contorno azul significa modo comando. La primera celda del notebook siempre es una celda de código.
Para crear una nueva celda, haz clic en + en la barra de herramientas. Corta, copia, elimina y edita celdas usando la pestaña Edit.
Atajos de teclado
Encuentra la lista completa de atajos de teclado en la sección Help → Keyboard Shortcuts.
- shift + enter ejecuta la celda
- esc abre el modo comando
Modo comando
- A agrega una celda arriba
- B agrega una celda debajo
- M cambia el tipo de celda a Markdown
- Y vuelve a la celda de código
- D (doble clic)borra una celda
- Z deshace la eliminación de la celda
- Enter pasa del modo comando al modo edición
Otros atajos
- Shift + tab muestra la documentación del objeto agregado a la celda
- Esc + F busca y reemplaza la información en el código
- Esc + 0 cambia la salida de la celda
- Shift + J o Shift + abajo selecciona una celda debajo
- Shift + K o Shift + arriba selecciona una celda arriba
- seleccionar las celdas con Shift y luego presionar m combina celdas
Markdown
Es un lenguaje de marcado de textos. Se utiliza para asignar comentarios, títulos y listas, así como para convertir textos a formato HTML. Para saltar a la celda Markdown, haz clic en la sección Code y selecciona el comando Markdown.
Los títulos se crean con el símbolo #. Usando el carácter del número uno, agrandarás un título superior, con el dos lo harás más pequeño. Así:
# <h1> ## <h2> ### <h3> #### <h4> ##### <h5> ###### <h6>
Kernel
El kernel es un tipo de motor computacional que arranca el código escrito. Este mecanismo controla todos los cálculos. Cuando abres un nuevo notebook y ejecutas una celda con código, el kernel muestra la salida en la pantalla. Cada lenguaje de programación usa un kernel separado. Por ejemplo, el código de Python es IPython.
Para ver los comandos básicos del kernel, ve a la pestaña Kernel:
- Interrupt detiene el funcionamiento de la celda
- Restart reinicia el kernel
- Restart Clear Output reinicia el kernel y restablece los datos de las celdas actuales
- Restart Run All reinicia el kernel, restablece los datos de las celdas actuales y las reinicia en el orden especificado
- Reconnect se necesita para volver a conectarse al kernel
- Shutdown apaga el kernel.
Jupyter Notebook en la práctica
Empecemos a escribir código y veamos cómo va.
Nombre
Primero, ponle un nombre al proyecto. Ya que estás entrenando, llamemos al cuaderno “Test”. Para hacer esto, ve a la pestaña File y selecciona el comando Rename o haz doble clic en el título.
Ajuste
Ahora configura una celda para importar. Si quieres subir nuevos archivos, hay que agregarlos en modo edición y reiniciar la celda. Ingresa los siguientes comandos:
import pandas as pd import matplotlib.pyplot as plt %pylab inline
Has importado pandas para análisis de datos y matplotlib para visualizaciones. El comando %pylab inline se necesita para darle al kernel el visto bueno para usar gráficos.
Función de guardar y el punto de control
Veamos la barra de herramientas:
El icono superior izquierdo es el comando “Guardar el punto de control” (Ctrl + S). El punto de control es el archivo de texto. Se guarda el contenido del cuaderno, o notebook, en formato JSON. Los datos se actualizan cada vez que los guardes de nuevo. El punto de control es un almacenamiento de respaldo en caso de fuerza mayor. Por ejemplo, si de repente tu gato se tumba sobre tu teclado, esta función te ayudará a no perder ningún dato.
Estudio del conjunto de datos
Crea un proyecto nuevo basado en datos reales ― las lecturas del telescopio espacial Hubble. La celda para importar ya está configurada. Queda por cargar la tabla de datos.
data = pd.read_csv(“hubble_data.csv”) data.head()
Como puedes ver, se puede leer un archivo csv con un solo comando: read_csv(). El siguiente — head () muestra datos en la pantalla. Por defecto, la función head() solo muestra las primeras cinco líneas. Necesitamos más, por lo tanto, transformamos el comando en head(25), donde 25 es el número de líneas deseado.
Pandas es una biblioteca inteligente. Reconoce los títulos y muestra esos datos en la celda. Si no hay títulos, escríbelos en el código.
headers = [“dist”,”rec_vel”] data_no_headers = pd.read_csv(“hubble_data_no_headers.csv”, names=headers) data_no_headers.head()
Los headers son nuestros propios títulos. El comando names=headers le comunica a pandas que los use a ellos.
Asimismo, se crea la siguiente tabla:
Gráficas
Ahora todo está listo para construir un gráfico. En primer lugar, elimina los índices de la primera columna:
data.set_index(“distance”, inplace=True) data.head()
Ahora nuestra tabla se ve así:
Los datos ahora se pueden representar fácilmente como los ejes “”X” e “Y”. Estable los comandos necesarios:
data.plot() plt.show()
Y ve el gráfico que aparece:
Lo más importante sobre Jupyter Notebook
- Jupyter Notebook es una aplicación web para ver fragmentos de código mientras estás escribiendo.
- Jupyter Notebook se utiliza más que nada para visualizar datos en big data y ciencia de datos. Es compatible con la mayoría de los lenguajes de programación pero con Python es lo máximo.
- Jupyter Notebook se ejecuta en la nube o en una computadora. La primera forma es más fácil, pero la segunda es más eficiente.
Python para análisis de datos
Aprende uno de los lenguajes de programación más versátiles y accesibles en la analítica, maneja grandes cantidades de datos de forma automatizada. Agiliza tu trabajo con esta poderosa herramienta, integra tus sistemas, procesa datos más rápido y en diferentes formatos.