12 abr

Balanceo de servicios con Marathon en Mesos

Dentro de la temática de los últimos post sobre Mesos, esta vez vamos a explicar como conseguir balanceo de servicios con Marathon en Mesos o sea tener un montón de servicios corriendo a través de Marathon en nuestro cluster de Mesos y poder trabajar con ellos a lo unisono.

Primero de todo debemos ver donde esta el problema, tenerlo claro para entender la solución.

Imaginemos que tenemos un servidor web, como hemos explicado en los post anteriores este servicio puede correr en cualquier puerto en cualquier nodo del cluster, es mas podemos tener mil servicios iguales en el mismo nodo corriendo en diferentes puertos. Como es de esperar esto hace muy difícil poder utilizarlos todos como si fuera uno solo (idea principal)

Vamos a verlo en una imagine

Balanceo de servicios con Marathon en Mesos

Balanceo de servicios con Marathon en Mesos

  1. Tenemos dos Slaves
  2. Tenemos los servicios (SVC 1 y 2) corriendo en los puertos 31000 y 31200, como sabemos estoy puertos son asignados aleatoriamente por Marathon.
  3. Nos interesa que cuando accedamos al puerto X este nos envíe a uno de los servicios (SVC) que este corriendo en el cluster.

Ahora que vemos la problemática vamos a ver como al solucionamos, al lío!

Balanceo de servicios con Marathon en apache mesos

Nota: Debemos quedarnos con la idea, la solución propuesta nos puede gustar más o menos

Instalaremos un HAProxy en cada nodo de Slave, Marathon nos ofrece un script que nos facilita la solución.

Instalación balanceo de servicios

Descargamos e instalamos en cada nodo el siguiente script, lo que hace es conectarse a la api de Marathon para sacar información de en qué puerto esta corriendo los servicios.


wget https://raw.githubusercontent.com/mesosphere/marathon/master/bin/haproxy-marathon-bridge

Necesita saber las urls y puertos donde esta corriendo Marathon, en nuestro caso esta en los nodos master, para ello crearemos un fichero y pondremos la información

/etc/haproxy-marathon-bridge/marathons

Y añadimos

marathon1.company.com:8080
marathon2.company.com:8080
marathon3.company.com:8080

Por último, deberemos añadir un cron que se ejecute cada minuto, de tal manera que se conecte a la API de Marathon vea en que puertos esta corriendo nuestros servicios y nos lo añada a la configuración de HA proxy.

./haproxy-marathon-bridge install_cronjob

Vamos a ver un ejemplo de como funciona esta solución.

Primero de todo os explico la situación inicial, para que podáis entender rápidamente el gif que hay mas abajo.

Balanceo de servicios con Marathon en Mesos

Balanceo de servicios con Marathon en Mesos

Tenemos un json que nos crea en el cluster de Mesos instancias http con python a través de Marathon, en la situación inicial tenemos 1 instancia corriendo únicamente.

Haremos incrementar el numero de instancias a 10, de tal manera que tendremos 10 instancias en el cluster corriendo en puertos aleatorios, y veremos como la configuración de HAProxy se actualiza con las nuevas instancias.

Por último veremos como atacando al puerto 8080 (puerto que decidimos donde queríamos tener el servicio corriendo), veremos el slave host, donde estamos atacando y veremos como se van balanceando las peticiones.

Tendremos

  • Panel 0 : Donde lanzaremos el curl para incrementar el numero de instancias.
  • Panel 1 : Número de servicio http que tenemos en un salve, situación inicial 1
  • Panel 2 : Curl al servicio web donde veremos como entre en el balanceo un nuevo salve.
  • Panel 3 : Configuración de HAProxy
Balanceo de servicios con Marathon en Mesos

Balanceo de servicios con Marathon en Mesos

Como podemos ver, con esta solución lo que conseguimos es poder escalar nuestras aplicaciones sin necesidad de “preocuparnos” del puerto en el que esta corriendo.

El concepto cambia, escalamos aplicaciones, no escalamos servidores para montar aplicaciones.

Ahora reflexionemos sobre ello.

16 mar

Marathon framework para Apache-Mesos

Después de explicar qué es Apache-Mesos y cómo se instala llega el momento de poner a funcionar el sistema, para ello lo que vamos a instalar es Marathon y lo utilizaremos para correr aplicaciones en los slaves de Apache-Mesos.

Pues vamos al lio

¿Qué es Marathon?

Marathon es un framework que corre junto a Mesos y que nos permite lanzar a través de él aplicaciones de larga duración, o sea que vayan a estar tiempo dando servicio, por ejemplo un Apache, servicios Python …, viene siendo un init para el cluster de Mesos, a más a más dispone de una API que hace la gestión realmente sencilla.

¿Cómo se instala Marathon?

Siguiendo con la arquitectura de los post anteriores, tenemos en nuestras maquinas Centos añadidos los repositorios de Mesosphere, asi pues que la instalacion es tan sencilla como lanzar en todos los masters del cluster de Mesos el siguiente comando

yum install marathon

Al utilizar el paquete que nos da Mesosphere la configuración es automática, por defecto nos utilizara el mismo ZooKeeper que tenemos configurado para Mesos.

Únicamente me encontré con un problema a la hora de configurarlo y fue que me hacia falta cambiar el puerto por el cual estaba escuchando ya que se solapaba con otros servicios, esto se hace de una forma muy fácil.

Las opciones que nos encontramos en http://mesosphere.github.io/marathon/docs/command-line-flags.html se activan creando un fichero de configuración de la siguiente manera, por ejemplo para modificar el puerto por el cual escucha

cat /etc/marathon/conf/http_port
7070

¿Cómo se trabaja con Marathon?

Una vez instalado comprobamos que el servicio esta corriendo.

marathon.service - Marathon
Loaded: loaded (/usr/lib/systemd/system/marathon.service; enabled)
Active: active (running) since Sun 2015-03-15 09:14:58 UTC; 7min ago
Main PID: 1352 (java)
CGroup: /system.slice/marathon.service
├─1352 java -Djava.library.path=/usr/local/lib -Djava.util.logging.SimpleFormatter.format=%2$s%5$s%6$s%n -Xmx512m -cp /usr/local/bin/marathon mesosphere.marathon.Main --http_port 7070 --zk zk://172.3...
├─1368 logger -p user.info -t marathon[1352]
└─1369 logger -p user.notice -t marathon[1352]

Tenemos dos formas de trabajar, a través de una web o por command line.

Interfaz web

Para conectarnos a Marathon iremos a la ip de nuestro master y el puerto por defecto 8080.

Veremos algo tal que así, en mi caso ya dispongo de algunas tareas corriendo.

marathon

Por la interfaz web podemos hacer cosas muy sencillas, por ejemplo si le damos a New App nos permitirá lanzar una aplicación con algunos parámetros base.

marathon2

Por ejemplo podemos hacer una tarea que lace un echo y se espere 5 segundos, como hemos dicho, Marathon se asegurara que esa tarea siempre este corriendo en el cluster de Mesos, a más a más como explicamos en los post anteriores nos asegurará que tendremos los recursos que nos hacen falta, en este caso un 10% de la cpu disponible 16MB de Ram y sin disco necesario.

marathon task

Como hemos dicho sin nos fijamos en el gif, esta tarea tiene un final, pero el cluster se encargara de que siempre este funcionando, cuando se detecte que la tarea se finalizo se volverá a lanzar.

runAPP.gif

Si le damos encima de la aplicación podemos ver datos muy interesantes como por ejemplo, cuando se lanzo, en que nodo del cluster se encuentra o que versión esta desplegada. Cada cambio que apliquemos en las condiciones que queremos que corra nuestra aplicación (por ejemplo aumentarle la RAM) será una nueva versión, de tal manera que podremos volver atrás en las configuraciones.

Información de la tarea

infotaskConfiguración

configure

 

Hasta aquí la parte sencilla, ahora vamos al command line y vamos a explicar como se mueven las aplicaciones por el cluster.

Marathon como no podría ser de otra manera tiene una API para gestionar las tareas, las peticiones sobre las tareas nuevas o ya existentes se realizan envío de ficheros json, tenemos diferentes opciones todas están descritas aquí.

Vamos a poner ejemplo de las más comunes.

Creación y modificación de aplicaciones a través de la REST API.

Lo primero es generar un json con las opciones que queramos, en la doc oficial podemos ver que pueden tener un montón de opciones diferentes. https://mesosphere.github.io/marathon/docs/rest-api.html#post-/v2/apps

Aquí voy a poner unos cuantos ejemplos y explicaré las opciones que me resultaron mas útiles.

Ports

{
"cmd": "echo `hostname` test.txt ; /usr/bin/python -m SimpleHTTPServer $PORT0",
"id": "/python",
"instances": 3,
"mem": 0.001,
"cpus": 0.001,
"disk": 0,
"ports": [
80
]
}

Este es muy sencillo, pero es interesante ver como podemos pasar un puerto a la lina de ejecución, en este caso nos interesa que nuestro servidor HTTP siempre se ejecute en el puerto 80, esta característica será imperativo para que la aplicación pueda correr en un slave, o sea que dicho slave tenga el puerto 80 libre. Con esto nos permite poder correr diferentes servidores web en el cluster. La variable $PORT0 será un puerto aleatorio que asignara mesos, cuando explique la alta disponibilidad de Marathon veremos como podemos saber ese puerto en todo momento.

HealthChecks

"healthChecks":[
{
"protocol":"TCP",
"gracePeriodSeconds":3,
"intervalSeconds":5,
"portIndex":1,
"timeoutSeconds":5,
"maxConsecutiveFailures":3
}

Podemos asignar HeathCheck a la tarea, por defecto cuando el pid de la tarea desaparece se da por finalizada y se vuelve a lanzar, pero como sabemos esto no siempre es significativo, podemos entonces verificar el funcionamiento de nuestra aplicación a través de un check TCP o una respuesta HTTP

upgradeStrategy

"upgradeStrategy": {
"minimumHealthCapacity": 1
},

Esta opción es muy interesante, con ella le diremos el número mínimo de instancias que debe haber en el caso que realicemos un cambio de configuración, cuando se realiza dicho cambio las tareas se vuelven a lanzar, imaginemos que tenemos 100 apaches, y queremos aumentarle la memoria, en el caso que no hubiéramos puesto esta opción nos encontraríamos que el cluster apagaría todas las instancias para volver a lanzarlas con la nueva configuración.

uris y env

{
"cmd": "env ; /tmp/env ; gzip -d server.gz ; bash server $PORT0",
"cpus": 0.2,
"id": "artifact",
"instances": 1,
"mem": 1,
"disk": 15000,
"backoffSeconds": 1,
"upgradeStrategy": {
"minimumHealthCapacity": 1
},
"tasksRunning": 3,
"tasksStaged": 0,
"ports": [
0
],
"uris": [
"http://172.30.0.145/server.gz"
],
"env": {
"TEST": "ENVIO DE VARIABLE"
}

Como explicamos en los post anteriores cuando lanzamos una tarea Mesos crea un nuevo container, este nuevo espacio aislado tiene sus propias variables de entorno, estas variables se las podemos pasar como vemos en el ejemplo, la  variable TEST.

A más a más dentro del proceso de desligue de la aplicación le podemos decir que se descarga algo de una web, por ejemplo el código de la aplicación. ;)

Constraints

{
"id": "kafka",
"cmd": "/opt/kafka/bin/kafka-server-start.sh /opt/kafka/config/server.properties",
"mem": 12,
"cpus": 0.001,
"instances": 1,
"constraints": [
["hostname", "UNIQUE"]
]
}

Nos puede interesar tener diferentes servicios en diferentes nodos del cluster, por ejemplo si tenemos un mysql corriendo no nos interesara que los slaves y el master puedan estar en la misma máquina, UNIQUE es nuestro amigo.

Vamos a ver como lanzamos una tarea.

Crearemos una sencilla, un servidor python que correrá en cualquier puerto, la linea de hostname no es necesaria, pero es útil para cuando expliquemos el HA de marathon, le decimos que nos arranque 3 instancias.

{
"cmd": "echo `hostname` ; test.txt ; /usr/bin/python -m SimpleHTTPServer $PORT0",
"id": "/zpython",
"instances": 3,
"mem": 0.001,
"cpus": 0.001,
"disk": 0,
"ports": [
80
]
}
curl -H "Content-Type: application/json" -d @python.json http://localhost:7070/v2/apps

Como podemos ver en el gif la tarea se crea y se despliegan 3 instancias

deployAPP.gifSi nos vamos a la web del cluster de Mesos vermeos las tareas corriendo.

runtask

 

Escalada de aplicaciones 

Imaginemos que ahora en vez de 3 necesitariamos 100, pues la cosa seria tan sencilla como modificar la opcion instance y volver a lanzar el curl.

{
"cmd": "echo `hostname`; test.txt ; /usr/bin/python -m SimpleHTTPServer $PORT0",
"id": "/zpython",
"instances": 50,
"mem": 0.001,
"cpus": 0.001,
"disk": 0,
"ports": [
80
]
}
curl -H "Content-Type: application/json" -d @python.json http://localhost:7070/v2/apps

Como podéis ver los valores de mem y cpu no tienen sentido, pero los puse asi para que podamos crear aplicaciones sin control.

scalationAPP.gif

Esto es una maravilla a mi parecer.

50

Una vez creadas las 50 tareas, si nos conectamos a un slave como se reparten con un simple ps

[[email protected] centos]# ps aux | grep python
root 471 0.0 0.5 549976 18140 ? Ssl 08:59 0:00 /usr/bin/python -Es /usr/sbin/tuned -l -P
root 24059 0.0 0.0 115216 1472 ? Ss 10:33 0:00 sh -c echo `hostname` >> test.txt ; /usr/bin/python -m SimpleHTTPServer $PORT0
root 24062 0.0 0.2 201072 9676 ? S 10:33 0:00 /usr/bin/python -m SimpleHTTPServer 31631
root 24283 0.0 0.0 115216 1472 ? Ss 10:41 0:00 sh -c echo `hostname` >> test.txt ; /usr/bin/python -m SimpleHTTPServer $PORT0
root 24286 0.0 0.2 201072 9676 ? S 10:41 0:00 /usr/bin/python -m SimpleHTTPServer 31394
root 24301 0.0 0.0 115216 1468 ? Ss 10:41 0:00 sh -c echo `hostname` >> test.txt ; /usr/bin/python -m SimpleHTTPServer $PORT0
root 24304 0.0 0.2 201072 9680 ? S 10:41 0:00 /usr/bin/python -m SimpleHTTPServer 31905

Podemos ver como se han ido asignando puertos “aleatorios” en los servicios, si hacemos una petición a ese puerto buscando el fichero test.txt nos deberá dar el hostname de la maquina donde esta corriendo.

[[email protected] centos]# curl localhost:31842/test.txt
ip-172-30-0-116.us-west-2.compute.internal

Si queremos volver a dejar todo como estaba el procedimiento es el mismo, cambiamos el 50 por 3 y listos.

decrecerAPP
Vamos a ver que pasaría en el caso que uno de nuestros servicios python dejará de funcionar repentinamente, ya que dijimos que siempre deberíamos tener 50 corriendo.

killAPP

Como podemos ver es muy rapida.

Por último vamos a ver donde podemos encontrar nuestras aplicaciones dentro de los slaves, si no le hemos dicho lo contrario todos los contenedores son creados en /tmp.

Si nos vamos a ese nivel y hacemos un find del fichero txt podremos ver lo siguiente.

[[email protected] mesos]# find . -name test.txt
./slaves/20150315-085909-1862278828-5050-809-S1/frameworks/20150109-162856-2449481388-5050-10637-0000/executors/python.504a72d9-caf2-11e4-82c6-0233785b9264/runs/72d62e43-101c-4e20-89b6-f0b93b1baa94/test.txt
./slaves/20150315-085909-1862278828-5050-809-S1/frameworks/20150109-162856-2449481388-5050-10637-0000/executors/python.53d3e7ba-caf2-11e4-82c6-0233785b9264/runs/3798405d-b0d4-40ed-9939-7b29eb40c68b/test.txt
./slaves/20150315-085909-1862278828-5050-809-S1/frameworks/20150109-162856-2449481388-5050-10637-0000/executors/python.c2094b5c-caf3-11e4-8d09-02f82bce2403/runs/6c67ef7b-1bac-44cf-850e-209b99517c08/test.txt
...
[[email protected] mesos]# pwd
/tmp/mesos

La ruta que vemos es el mismo identificador que vemos en la pagina de Mesos Cluster
taskid

 

En el siguiente post explicaremos como montar HA para las aplicaciones de Marathon.

22 feb

¿Cómo instalar Apache-Mesos?

En el post anterior explicamos qué es Mesos y como funciona internamente, así que, como no puede ser de otra manera, toca instalarlo.

La mejor manera que encontré de instalar Apache-Mesos es utilizando los paquetes de mesosphere.

Nuestro excenario inicial es:

  • 3 servidores Mesos master y ZooKeeper cluster
  • 3 servidores mesos slave
  • Centos 7
  • Y lo montaremos en EC2

Pues al lío.

Empezarnos por los nodos master, estos pasos los debemos hacer en todos los nodos master que tengamos

Instalación de paquetes

Añadimos el repositorio

sudo rpm -Uvh http://repos.mesosphere.io/el/7/noarch/RPMS/mesosphere-el-repo-7-1.noarch.rpm

Actualizamos

yum update

Instalamos Mesos

sudo yum -y install mesos

Instalamos zookeeper

sudo yum -y install mesosphere-zookeeper

Configuración de ZooKepeer

Antes de nada deberemos configurar ZooKepeer, deberemos añadir un numero diferente en cada servidor master, entre el 1 y el 255, en nuestro caso lo añadiremos en

/var/lib/zookeeper/myid

Ahora en todos los nodos de ZooKepeer deberemos decirle donde estan los otros nodos del cluster, esto se hace de la siguiente manera.

vi /etc/zookeeper/conf/zoo.cfg

Añadimos con las ips correctas

server.1=1.1.1.1:2888:3888
server.2=2.2.2.2:2888:3888
server.3=3.3.3.3:2888:3888

Y arrancamos ZooKepeer

sudo systemctl start zookeeper

Configuración de Mesos

Estos pasos también los haremos en todos los miembros master del cluster

Configuramos Mesos para que trabaje con ZooKeeper

vi /etc/mesos/zk

Añadimos las ips de los servidores de ZooKepeer

zk://1.1.1.1:2181,2.2.2.2:2181,3.3.3.3:2181/mesos

Defeninimos el quorum que queremos

vim /etc/mesos-master/quorum
2

Por ultimo debilitamos el servicio de mesos-slave que se nos instalo con el paquete y arrancamos mesos-master.

systemctl stop mesos-slave.service
systemctl disable mesos-slave.service
sudo service mesos-master restart

Comprobamos que el servicio este levantado correctamente.

<pre> systemctl status mesos-master -l
mesos-master.service - Mesos Master
   Loaded: loaded (/usr/lib/systemd/system/mesos-master.service; enabled)
   Active: active (running) since Sun 2015-02-15 11:22:50 UTC; 7min ago
 Main PID: 1156 (mesos-master)
   CGroup: /system.slice/mesos-master.service
           ├─1156 /usr/sbin/mesos-master --zk=zk://172.30.0.111:2181,172.30.0.145:2181,172.30.0.146:2181/mesos --port=5050 --log_dir=/var/log/mesos --quorum=1 --registry=in_memory --work_dir=/var/lib/mesos
           ├─1168 logger -p user.info -t mesos-master[1156]
           └─1169 logger -p user.err -t mesos-master[1156]

Feb 15 11:26:03 ip-172-30-0-111.us-west-2.compute.internal mesos-master[1169]: I0215 11:26:03.540731  1171 master.cpp:1263] The newly elected leader is [email protected]:5050 with id 20150205-134012-1862278828-5050-813
Feb 15 11:26:08 ip-172-30-0-111.us-west-2.compute.internal mesos-master[1169]: I0215 11:26:08.747304  1175 http.cpp:478] HTTP request for '/master/state.json'
Feb 15 11:26:12 ip-172-30-0-111.us-west-2.compute.internal mesos-master[1169]: I0215 11:26:12.015610  1176 detector.cpp:138] Detected a new leader: (id='51')
Feb 15 11:26:12 ip-172-30-0-111.us-west-2.compute.internal mesos-master[1169]: I0215 11:26:12.015688  1176 group.cpp:659] Trying to get '/mesos/info_0000000051' in ZooKeeper
Feb 15 11:26:12 ip-172-30-0-111.us-west-2.compute.internal mesos-master[1169]: I0215 11:26:12.016731  1176 detector.cpp:433] A new leading master ([email protected]:5050) is detected
Feb 15 11:26:12 ip-172-30-0-111.us-west-2.compute.internal mesos-master[1169]: I0215 11:26:12.016767  1176 master.cpp:1263] The newly elected leader is [email protected]:5050 with id 20150215-111558-2432704172-5050-808
Feb 15 11:26:19 ip-172-30-0-111.us-west-2.compute.internal mesos-master[1169]: I0215 11:26:19.730078  1171 http.cpp:478] HTTP request for '/master/state.json'
Feb 15 11:26:27 ip-172-30-0-111.us-west-2.compute.internal mesos-master[1169]: I0215 11:26:27.725008  1171 http.cpp:344] HTTP request for '/master/redirect'
Feb 15 11:27:12 ip-172-30-0-111.us-west-2.compute.internal mesos-master[1169]: I0215 11:27:12.129428  1170 http.cpp:344] HTTP request for '/master/redirect'
Feb 15 11:30:02 ip-172-30-0-111.us-west-2.compute.internal systemd[1]: Started Mesos Master.

La salida de systemctl me parece de lo mas interesante, podemos ver información muy útil, como por ejemplo los nodos de zookeeper o quien es el líder del cluster “Detected a new leader”. 

A más a más, Apache-Mesos dispone de una interfaz web, a la cual podemos acceder por el puerto 5050 y veremos cosas como esta.

main

Podemos ver información, casi en tiempo real de la situación del cluster, vemos los recursos utilizados y disponibles, las tareas activas etc etc, si quisiéramos podemos incluso ver el log del sistema (también esta en /var/log/mesos)

main3En la pestaña Slaves también podemos ver (obvio) el estado de los slaves, que recordemos que son los responsables de ejecutar las tareas.

main2Y por ultimo los Frameworks que tenemos registrados, en nuestro caso tenemos Marathon, un framework muy interesante que explicaré en las siguientes entradas.

 





15 feb

¿Qué es Apache-Mesos?

mesos

Este es el primero de una serie de post donde explicaré:

  1. ¿Cómo funciona Mesos?
  2. ¿Cómo se instala?
  3. ¿Cómo se instalan Frameworks?
  4. ¿Cómo se lanzan aplicaciones en el cluster a través de Marathon?
  5. ¿Cómo se escalan esas aplicaciones?

Mesos nos ofrece una capa de abstracción entre los servidores y los recursos, es un concepto un poco diferente, pero a mi parecer cuando lo entiendes me parece excepcioal. Por otro lado Mesos te proporciona una gestión de cluster y como una una gestión de los recursos del cluster.

O sea que básicamente lo que tendremos es un lugar donde correr nuestras aplicaciones (Frameworks, después explicamos que es esto) sin preocuparnos de los servidores que tenemos por debajo.

¿Qué ofrece Mesos?

  1. Escalabilidad hasta 10000 nodos
  2. Alta disponibilidad de los servidores Master y los servidores Slaves a traves de Zookeeper
  3. Soporta de forma nativa Docker
  4. Aislamiento de recursos entre procesos en el cluster, o sea que que aseguramos que no se pisen entre ellos o que no puedan acceder los unos a los otros.
  5. Podemos desarollar Frameworks  en Java, Python y C++.

Esta es la teoría por encima, a partir de aquí viene la parte técnica

Venga al lío.

Funcionamiento de Apache-Mesos

Mesos

Esta es la estructura básica para tener un cluster de mesos, donde tendremos:

1.- Tres Mesos master, uno en activo y dos en Standby

2.- Tres Zookeepers

3.- Tres Mesos Slave

Nodos masters

Dentro del un cluster de Mesos tendremos los nodos Master, de todos los que podamos tener solo uno será el que este en activo, los demás estarán en una posición pasiva, a la espera de que el nodo activo pueda fallar y entonces asumir el role de master activo, esta flujo de trabajo se realiza a través de zookeeper, que es  el punto de unión de los nodos Master, a través del cual todos saben el estado del resto de nodos master.

Nodos slaves

Los nodos slaves son los encargados de correr las tareas de los Frameworks, estos reportan su estado directamente al nodo master activo, ya que saben cual es a través de zookeeper.

Frameworks

Los Frameworks  son instalados en los nodos master, y a través de ellos trabajaremos con los recursos de los slaves, estos se puede desarrollar a nuestro antojo http://mesos.apache.org/documentation/latest/app-framework-development-guide/ o utilizar los que ya existen

Frameworks

http://mesos.apache.org/documentation/latest/mesos-frameworks/

Pongamos un ejemplo para entenderlo mejor, imaginemos que optamos por un Framework  de Big Data Processing por ejemplo Storm, pues instalaremos el storm-mesos en los masters, cuando queramos hacer una petición se lo realizaremos al Framework, que a su vez hablara con el master y este se encargara de enviar la tarea a uno o varios slaves. Estas tareas puede ser de corta o larga duración.

¿Cómo funciona las peticiones de recursos?

architecture-example

El funcionamiento es sencillo

  1. Pongamos que el framework 1 solicita recursos para lanzar dos tareas (la cual puede ser un cron o un servicio como Jboss y Apache o Storm, etc etc …)
  2. Los nodos slaves reportan al master el número de recursos libres que disponen, en nuestro ejemplo el slave 1 le comenta al master que tiene 4cpu y 4gb libres.
  3. Cuando el framework pide recursos, el master le dice que tiene  4cpu y 4gb disponibles, entonces el framework envía las tareas con el los recursos necesarios.
    1. Task 1, 2 cpu 1gb
    2. Task 2, 1cpu 2gb

4. El master se encarga de enviar las tareas a los slaves (mesos-executor) y este las empieza a ejecutar.

5. Si un segundo Framework solicita recursos, el master sabe que aún le sobra 1cpu y 1gb en el slave 1.

¿Cómo funciona internamente los slaves?

isolation

Como hemos comentado  las tareas que se lanzan en los slaves estas aisladas, este aislamiento por defecto se hace con cgroups linux, también docker de forma nativa, cuando la tarea llega al slave, este crea un nuevo recurso cgroups y se lo asigna a la tarea.

Pongamos un caso practico, imaginemos que tenemos una replica de mysql corriendo en un slave, con el paso del tiempo esta repica tendra datos, caches y de mas informaicón necesaria para que el servicio corra, entonces podemos pensar que en el caso que el slave falle seria un problema.

Para eso Mesos ofrece una serie de paliativos.

Checkpoints

  • Los slaves realizan checkpoints sobre el estado de la tarea, son como copias de seguridad del estado, para que en el caso que tengamos que reiniciar el slave la recuperación sea mas rápida.

Cache executor

  • En el caso de que el servicio de mesos-slave no este disponible, las nuevas tareas y peticiones serán guardadas en una cache, cuando el servicio este recuperado se empezaran a tramitar

Conexion

  • Una tarea que ya se ejecuto anteriormente tendrá mas posibilidades de volverse a ejecutar en el mismo cgroups y el mismo slave que lo hizo la ultima vez, de esta manera la información se podrá recuperar.

Fallo del salve

  • En el caso de fallo completo de un slave, el framework solicitará volver a montar la tarea en un nuevo slave.

En el siguiente post explicare como se instala Apache-Mesos en Centos7

 Referencias

http://mesos.apache.org/

23 nov

Instalación de Graphite en HA

Graphite en HA

Instalar Graphite para HA

Vamos a explicar como montar un sistema de Graphite en HA , en esta entrada explicaba como hacer la instalación inicial de graphite , así que partimos de un escenario donde ya tenemos un Graphite instalado y lo que queremos es asegurarnos que en el caso que caiga no nos quedemos sin sistema de métricas.

Por último antes de empezar, el sistema de alta disponibilidad que vamos a montar es tipo mirror.

Pues vamos al lío…

Partes de Graphite

Graphite se compone de una serie de demonios que trabajan al unisono para poder generar las graphicas, vamos a explicar que papel tiene cada uno de ellos, ya que será interesante para entender como montar el sistema de alta disponibilidad.

Carbon-Relay: Es el encargado de tratar la métrica que recibimos en primera instancia, decidira a que carbon-cache enviara la metrica segun el tipo de balanceo que le hayamos dicho (consistent-hashing o relays-rules)

  • Consistent-hashing : Este método se utiliza cuando las métricas siempre irán a los mismos carbón-caches y tenemos más de uno, básicamente lo que hacemos en un balanceo tipo Round-Robin
  • Relays-rules: Dependiendo del patron de la metrica el relay enviará el dato a un o otro carbon-cache(o a otro relay).

/opt/graphite/conf/carbon.conf

# Use relay-rules.conf to route metrics to destinations based on pattern rules
#RELAY_METHOD = rules
#
# Use consistent-hashing for even distribution of metrics between destinations
#RELAY_METHOD = consistent-hashing

Carbon Cache : Este demonio tiene dos funciones, por un lado es el encargado de escribir la métrica en disco y por otro lado es el encargado de recibir las peticiones de la webapp.

Whisper: Es el sistema de escritura que se utiliza por defecto, las métricas se grabaran en fichero wsp (whisper) de forma secuencial.

Webapp : Esta es la parte con la que veremos las metricas, es un django servido por un apache.

Arquitectura deseada.

Donde queremos llegar.

Graphite HA structure

Vamos a explicar el flujo de datos que tendremos y después explicaremos como se configura esta arquitectura.

  1. Los servidores 1 y 2 serán iguales y los servidores 3-4 también.
  2. La estructura se compone de 4 servidores, los 4 tendrán configurado Graphite con la instalación normal (así resulta mas fácil)
  3. Tendremos un balanceador para que nos enviara las peticiones en round robin a los primeros Carbon-relays (Servidor 1 y 2)

Flujo de envío de datos.

  1. Enviaremos las métrias al balanceador
  2. El balanceador en RoundRobin enviara cada métrica a un Carbon-relays de los servidores 1 y 2
  3. Los servidores 1 y 2 enviaran la métrica recibida a los Carbon-relays de los servidores 3-4 a través, NO es roundrobin, tendremos factor de replicación 2 con dos servidores, así que la métrica se enviara dos veces.
  4. Los Carbon-relays de los sservidores 3 y 4 recibirán la métrica, estos se encargaran de enviarlos a los Carbon-cache, tendremos 2 por máquina (un Carbon-cache una Cpu), en este caso con factor de replicación 1, una métrica para cada Carbon-cache (RoundRobin).
  5. Carbon-Cache recibirá la métrica y la grabará en whisper.

 Flujo de consulta de datos

  1. La peticiones las enviaremos a los servidores 3-4.
  2. La peticion llegará al balancedador, este por RoundRobin enviara a uno de los dos sevidores (3-4)
  3. La Webapp recibirá la petición, primero de todo irá al Memcache de los servidores 1-2 para comprobar que no tenga el dato. (Memcache no es necesario, pero aligera la carga)
  4. Si el dato no se encuentra lanzará la petición a los Carbon-cache del mismo servidor por los puertos 7102 y 7002.
  5. Carbon-cache ira a disco  buscar el dato y lo entregará a la webapp

 

Como podemos ver lo que estamos haciendo es simplemente repartir el dato que recibimos entre dos sistemas, de esta manera tendremos un espejo de la arquitectura de Graphite, los servidor 1-3 y los servidores 2-4, pudiendo romper cualquier elemento sin perder servicio.

 

Configuración de la alta disponibilidad

Como hemos visto la arquitectura es simétrica, así pues la configuración de los servidores 1-3 será la misma que la de los servidor 2-4.

Configuración de carbon-relay (Servidores 1-2)

Estos servidores los configuraremos exclusivamente en la sección relay del fichero de configuración de carbon.conf

Le diremos configuraremos el puerto normal y el puerto donde enviaremos las métricas Pickle, (altamente recomendado enviar todo lo que podamos por Pickle)

/opt/graphite/conf/carbon.conf

LINE_RECEIVER_INTERFACE = 0.0.0.0
LINE_RECEIVER_PORT = 2003
PICKLE_RECEIVER_INTERFACE = 0.0.0.0
PICKLE_RECEIVER_PORT = 2014

Seleccionaremos el método de balanceo que queramos, en nuestro caso como queremos un espejo tendremos que activar consistent-hashing

RELAY_METHOD = consistent-hashing

Ahora el factor de replicación, en estos Carbon-relays deberá ser 2, ya que queremos que cada métrica se envíe a ambos grupos de servidores (2-4)


REPLICATION_FACTOR = 2

Como es lógico le tendremos que decir donde están esos servidores, los puertos que ponemos serán los puertos Pickle, ya que todas las comunicaciones que se muevan en el sistema deberían ser Pickle

DESTINATIONS = Servidor3:2014, Servidor4:2014

Esta configuración sera igual en los servidores 1 y 3

Configuración de carbon-relay (Servidores 3-4)

La métrica que se envía desde los servidores 1-2 deberá ser recibida por los Carbon-relay de los servidores 3-4, en este caso ponemos un Carbon-relay por delante ya que vamos a tener mas de un Carbon-cache y nos interesa que podamos balancear entre ellos.

En el fichero carbon.conf de los servidores 3-4 en la seccion [relay], deberemos poner lo siguiente:

/opt/graphite/conf/carbon.conf
PICKLE_RECEIVER_INTERFACE = 0.0.0.0
PICKLE_RECEIVER_PORT = 2014

Donde el PICKLE_RECEIVER_PORT deberá ser el mismo que hemos puesto en los destinos de los primeros Carbon-relay,

</pre>
RELAY_METHOD = consistent-hashing

Ahora el factor de replicación, en estos Carbon-relays deberá ser 1, ya que queremos que cada métrica se envíe a solo un Carbon-cache de los que tenemos en la misma máquina, o sea que consiguiremos un RoundRobin.

 

REPLICATION_FACTOR = 1

Como es lógico le tendremos que decir donde están esos servidores, los puertos que ponemos serán los puertos Pickle, ya que todas las comunicaciones que se muevan en el sistema deberían ser Pickle

DESTINATIONS = 127.0.0.1:2004, 127.0.0.1:2014

Configuración de carbon-cache (Servidores 3-4)

Como vemos en el esquema por cada servidor tendremos dos Carbon-cache, deberemos estar atentos a este punto ya que cambia un poco la configuración estándar.
Deberemos localizar dentro de la sección [cache] en el fichero carbon.conf de los servidores 3 y 4 los siguientes valores.

[cache]
PICKLE_RECEIVER_PORT = 2004
CACHE_QUERY_PORT = 7002

Podremos para el primer Carbon-cache los puertos donde podremos enviar las métricas PICKLE_RECEIVER_PORT, que deberá ser el mismo que hemos configurado en los Carbons-relay de los servidores 3-4.
Y el CACHE_QUERY_PORT que será el puerto por el que la Webapp enviará las consultas.

Con esto tendremos la configuración del primer Carbon-cache de un servidor, ahora deberemos configurar el segundo, tal que así.

[cache:b]
PICKLE_RECEIVER_PORT = 2104
CACHE_QUERY_PORT = 7102

Con esto creamos un nuevo carbón cache b siguiendo la misma lógica que con el primero

Por ultimo deberemos decirle al sistema que levante los dos Carbon-cache.

Podemos tener un init.d tal que así

#!/bin/sh
# !!! generated by puppet !!!

### BEGIN INIT INFO
# chkconfig: 2345 99 80
# Provides: carbon-cache
# Required-Start: $remote_fs $network $time
# Required-Stop: $remote_fs $network
# Default-Start: 2 3 4 5
# Default-Stop: 0 1 6
# Short-Description: Start/Stop carbon-cache
# Description: Enables Graphites carbon-cache data collecting engine
### END INIT INFO

case "$1" in
start)
python /opt/graphite/bin/carbon-cache.py --instance=a start
python /opt/graphite/bin/carbon-cache.py --instance=b start
;;
stop)
python /opt/graphite/bin/carbon-cache.py --instance=a stop
python /opt/graphite/bin/carbon-cache.py --instance=b stop
;;
status)
python /opt/graphite/bin/carbon-cache.py --instance=a status
python /opt/graphite/bin/carbon-cache.py --instance=b status
;;
restart)
$0 stop ; sleep 3 ; $0 start
RC=$?
exit $RC
;;
*)
echo "Usage: $0 {start|stop|restart|status}"
exit 1
;;
esac

exit

Esta configuración será la misma para el servidor 4

Configuración de la Webapp

Ya solo nos queda la Webapp esta se configura en un fichero diferente

Deberemos tocar las siguientes opciones:

vim  /opt/graphite/webapp/graphite/local_settings.py
MEMCACHE_HOSTS = ['Servidor1:11211','Servidor2:11211',]
CARBONLINK_HOSTS = ["127.0.0.1:7002:a", "127.0.0.1:7102:b"]

En el caso que utilicemos Memcache deberemos decirle donde esta y donde encontrara los carbon-query para hacer peticiones de datos, en nuestro esquema se encuentran en la misma máquina.

Esta configuración es la misma para servidor 4

Y con eso ya tendremos el sistema montado, si todo salio bien, en el momento que le enviemos un métrica al Carbon-relay servidor 1 o 2 esta se repartirá entre los servidores 3 y 4

03 ago

LXC integrado con ZFS

Sin títuloNunca trabajé muy seriamente con lxc hasta ahora, total que estuve mirando para aprender sobre el tema y resulta que sacaron lxc 1.0.3, con un monton de cosas muy molonas, entre ellas la posibilidad de que se integre con sistemas de ficheros, desconozco si las versiones anteriores ya podían hacer, yo parto de la 1.0.3 y todo lo anterior esta obsoleto :).

Total que esta integración la tiene con bastantes sistemas, pero me pareció muy interesante dos de ellos btrfs (que también empece a trabajar con el y me parece muy interesante) y por supuesto zfs. Así que no hay mejor forma de entender que leer y después probar.

 

Este post me centrare en hacer trabajar lxc con zfs de forma celestial .

Pues venga al lío que se nos va el Domingo.

Instalación de LXC y ZFS

Primero de todo instalaremos lxc y zfs, la parte de zfs la podéis encontrar explicada en en Instalar OpenZFS en LINUX


[email protected]:~# apt-get install ubuntu-zfs lxc

En mi caso la máquina tiene un disco principal de 8GB y vamos añadir dos más de 10GB cada uno, para poder hacer raidz-1 con zfs, y allí es donde montaremos nuestros lxc,  lo haremos en dos partes, primero zfs.

Los discos que tenemos son los siguientes.

ZFS


Disk /dev/sdb: 10.7 GB, 10737418240 bytes
255 heads, 63 sectors/track, 1305 cylinders, total 20971520 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x00000000

Disk /dev/sdb doesn't contain a valid partition table

Disk /dev/sdc: 10.7 GB, 10737418240 bytes
255 heads, 63 sectors/track, 1305 cylinders, total 20971520 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x00000000

Haremos el pool con los dos de 10GB, sdb y sdc


[email protected]:~# zpool create -f containers raidz /dev/sdb /dev/sdc


[email protected]:~# df -h

containers      9.8G     0  9.8G   0% /containers

Pues ya tenemos el sitio donde meter los containers, ahora a por lxc

LXC

Primero de todo tenemos que decirle a lxc que coloque los containers en el pool de zfs, lo haremos con dos directivas en el fichero

vim /etc/lxc/lxc.conf

lxc.lxcpath = /containers/lxc
lxc.bdev.zfs.root = /containers/lxc

lxc.lxcpath -> Path donde estarán todos los container

lxc.bdev.zfs.root -> Nombre por defecto del zfs root

Deberemos crear el directorio lxc dentro del pool containers,  sino mal asunto.


[email protected]:~# zfs create containers/lxc

[email protected]:~# df -h

containers             9.8G 128K 9.8G  1%     /containers
containers/lxc    9.8G 128K 9.8G  1%    /containers/lxc

Y con esto ya tenemos el entorno montado, ahora es el momento de probar!

LXC más ZFS

Vamos a crear un container de forma normal, pero le daremos la opción -B zfs, es el valor predeterminado del directorio, pero si asignamos zfs o btrfs o lvm, lo que nos debería hacer es que el sistema de ficheros sea zfs y nos generara un nuevo volumen por contenedor y –zfsroot donde le diremos donde esta el container.


[email protected]:~# lxc-create -t ubuntu -n test -B zfs --zfsroot containers/lxc

Como es el primer container, esta descargando la imagen y eso lleva un ratillo… una vez termine nos dice este mensaje que es muy interesante y útil.


##
# The default user is 'ubuntu' with password 'ubuntu'!
# Use the 'sudo' command to run tasks as root in the container.
##

Pues vamos a ver como quedo la situación


[email protected]:~# zfs list
NAME                 USED AVAIL REFER MOUNTPOINT
containers           318M 9.47G 31K /containers
containers/lxc       318M  9.47G 34K /containers/lxc
containers/lxc/test  318M 9.47G 318M /containers/lxc/test/rootfs

Ahí lo tenemos test esta listo para arrancar, no la hagamos esperar mas.


lxc-start --name test

Y ya tenemos el tema andando, ahora por último lo que vamos hacer es sacarle un poco de jugo al zfs, que para eso lo hemos montado, vamos a jugar con la compresión, deduplicacion y snapshots.

Tenemos más detalle de los mismos en post anteriores, así que aquí vamos a ir al lío directamente.

Deduplicacion y compresion

Snapshots

Compresion, deduplicacion y snapshots


zfs set dedup=on containers

zfs set compression=lz4 containers

zpool set listsnapshots=on containers

La compresión en lz4 que es lo que se lleva ahora ;).

Comprobamos que este todo activado.


[email protected]:~# zfs get compression
NAME                PROPERTY    VALUE SOURCE
containers          compression lz4   local
containers/lxc      compression lz4   inherited from containers
containers/lxc/test compression lz4   inherited from containers
[email protected]:~# zfs get dedup
NAME                 PROPERTY VALUE SOURCE
containers           dedup on local
containers/lxc       dedup on inherited from containers
containers/lxc/test  dedup on inherited from containers

Pues venga a jugar!!!

Vamos a crear otro container a ver como se comporta la deduplicacion y la compresion.


lxc-create -t ubuntu -n test2 -B zfs --zfsroot containers/lxc

Una vez creado si comprobamos nos llevaremos una sorpresa


[email protected]:~# zfs get compressratio

containers/lxc/test compressratio 1.00x -
containers/lxc/test2 compressratio 2.10x -


[email protected]:~# zpool list

containers 19.9G 947M 19.0G 4% 1.01x ONLINE -

Uno de los containers esta comprimido pero el otro no, y aún por encima no aplico nada de deduplicacion :(, esto es sencillamente porque hemos aplicado esas características después de crear “test”, así que hay que tenerlo en cuenta.

Vamos hacer un snapshot y crear un nuevo container, ahí si que veremos que la deduplicacion surge efecto.

Creamos el snapshot.


[email protected]:~# zfs snapshot [email protected]
[email protected]:~# zfs list -t snapshot
NAME USED AVAIL REFER MOUNTPOINT
[email protected] 0 - 31K -

Creamos test3


lxc-create -t ubuntu -n test3 -B zfs --zfsroot containers/lxc

Y comprobamos


[email protected]:~# zpool list
containers 19.9G 962M 18.9G 4% 2.02x ONLINE -

Ahora si, tenemos test2 y test3 ocupando como si solo fuera 1 a más a más como están comprimidos el tamaño es inferior respecto test1


containers/lxc/test  319M  4% /containers/lxc/test/rootfs
containers/lxc/test2 153M  2% /containers/lxc/test2/rootfs

Por ultimo los snapshots, como habeis visto hemos realizado un snapshot con zfs, pues otra de las cosas molonas que trae esta version de lxc es que puede controlar los snapshots de zfs, btrfs, lo podemos comprobar haciendo.

[email protected]:~# lxc-snapshot -n test3 -L
snap0 (/containers/lxcsnaps/test3) 2014:08:02 04:53:18
snap1 (/containers/lxcsnaps/test3) 2014:08:02 04:53:33

Ahí los tenemos :)

Podemos crear snapshot de zfs directamente de lxc en un container especifico.


[email protected]:~# lxc-snapshot -n test2
could not find any snapshots to destroy; check snapshot names.

[email protected]:~# zfs list -t snapshot -o name,creation
NAME CREATION
[email protected] Sat Aug 2 4:58 2014

Lo lanzamos con lxc y lo comprobamos con zfs, al revés que en el caso anterior, parece que si que se entienden(que era el objetivo del post :) )

Pues ya tenemos el sistema montado…

Ale a desfrutarlo!

15 jun

Instalar FreeBSD en Raspberry

Pues parece ser que tenemos una versión estable de FreeBSD para Raspberry, y como no puede ser de otra manera debemos probarla.

En este post lo que os voy a explicar es como intalarla en Raspberry de una forma un poco diferente y como dejar el sistema a punto, (red, actualizaciones, paquetes etc …)

Pues venga al lío que se nos va el día.

Instalación

Tenéis diferentes formas de instalar, la “oficial” seria iros a la pagina de FreeBSD https://wiki.freebsd.org/FreeBSD/arm/Raspberry%20Pi, tenemos diferentes métodos, pero os recomiendo que bajéis al final de la pagina a la sección de Binary snapshots, que creo que es la forma mas sencilla de instalar.

Seleccionamos la imagen de todo el listado, pero ESPERAR, no la bajéis todavía. ¿Cual es el problema que yo me encontré?, pues que una vez instalada esa imagen nos encontramos que necesitamos tener conectada la raspberry a un monitor y con un teclado, ya que viene con ssh activado, pero no permite el login externo, si optais por este metodo tendréis que:

Método 1 (descargar la imagen de la pagina oficial)

  1. Monitor
  2. Teclado compatible

Método 2 (descarga imagen con el login ssh habilitado)

  1. Red

El problema que yo tuve es que no tenia en casa ningún teclado compatible que me permitiera hacer login, asi que no podía habilitar el login de root por ssh y no podía hacer nada, total que cuando conseguí un teclado, cambie esa opción y me cree una imagen, la cual permite login por ssh y tiene DHCP por defecto. (plug and play)

Os recomiendo el método 2.

La podéis bajar de aquí  https://mega.co.nz/#!JJxHwarR!WfhEqUZZVaR0GO-ae9mqj_eCaJJbe4OVVcw-J03Ujfo

Una vez tengamos la imagen debemos volcarla en la SD (la imagen esta pensada para un SD de 8GB), tal que así

dd if=20140621_freebsd_raspberry.dd of=/dev/sdx
Dónde el of será el nombre de nuestro dispositivo SD.
Una vez finalice la colocamos en la Raspberry y arrancamos,  deberemos comprobar la ip que nos haya dada el router.
Hacemos login con el  usuario root y contraseña toor
Instalación hecha.

Configuración base del sistema

Lo primero que tendremos que hacer es cambiar la contraseña de root, crearnos un usuario y (recomiendo) deshabilitar el acceso de root por ssh.

Pues vamos a ello.

Primero creamos el grupo de nuestro usuario

[email protected]:~ # pw groupadd name

Después el usuario

[email protected]:~ # adduser mauso
Username: name
Full name: name
Uid (Leave empty for default):
Login group [name]:
Login group is name. Invite mauso into other groups? []:
Login class [name]:
Shell (sh csh tcsh nologin) [sh]:
Home directory [/home/name]:
Home directory permissions (Leave empty for default):
Use password-based authentication? [yes]:
Use an empty password? (yes/no) [no]:
Use a random password? (yes/no) [no]:
Enter password:
Enter password again:
Lock out the account after creation? [no]:

OK? (yes/no): yes
adduser: INFO: Successfully added (name) to the user database.
Add another user? (yes/no): no
Goodbye!
Ahora ya podremos hacer login con nuestro usuario, pero no podremos pasar a root, debemos añadir el usuario al grupo wheel.
pw user mod username -G wheel
Comprobamos que podemos entrar y cambiar al usuario root con
su -
Y (recomendación) desactivamos PermitRootLogin yes en el fichero /etc/ssh/sshd_config
Por ultimo podemos añadir una ip estática al sistema de la siguiente forma.
Iremos a /etc/rc.conf y añadiremos lo siguiente.
vi /etc/rc.conf
hostname="FreeBSD"
ifconfig_ue0="inet 192.168.1.101 netmask 255.255.255.0"
defaultrouter="192.168.1.1"
sshd_enable="YES"

Configurar Ports

Tenemos diferentes formas de instalar paquetes en FreeBSD, pero la que voy a explicar y la que más me gusta es a través de ports, aquí tengo una explicación mas extensa que os recomiendo que visitéis.
Lo primero que deberemos conseguir es la colleccion de Ports.
Los pasos son fáciles
  • Descargar los instantánea comprimida
portsnap fetch
  • Extraer
 portsnap extract
  • Actualizar
portsnap update

Disfrutar :)

Si queréis saber más sobre Ports pasaros por aquí

Con esto ya tendremos el sistema montado y listo para empezar a jugar, por último recordaros que FreeBSD tiene una documentación genial, donde podéis ampliar más información sobre los puntos que aquí explique.

 

Fuentes

08 ene

Gestión de Snapshots con OpenZFS

Dentro de la sorpresa y la emoción de OpenZFS, voy a explicar cómo funcionan los snapshots y los clones de ZFS, es un post continuación del Instalar OpenZFS en Linux, y complemento de los anteriores:

  1. Comandos zpool
  2. Optimización de ZFS
  3. Tipos de caches en ZFS

Situación

  • Un pool con dos discos, en nuestro caso en RAID 0 a lo loco.
[email protected]:~# df -h
other                          9,8G      0  9,8G   0% /other
[email protected]:~# zpool iostat -v 2
other        748K  9,94G      0      0      0      0
sdf1       448K  4,97G      0      0      0      0
sde1       301K  4,97G      0      0      0      0

Actualmente en ese recurso no tenemos nada, así que vamos a hacer diferentes snapshots para ver claramente el concepto.

Creación de snapshots

Vamos a crear un snapshot con el nombre snap1, del pool other, pensar que donde ponemos poner snap1 puede ser el día de la semana o el mes o algo más descriptivo

[email protected]:/storage# zfs snapshot [email protected]

Ahora podemos verlo listando, para ver todos los que tenemos en cualquier pool, haremos

zfs list -t snapshot

Para ver únicamente los de nuestro pool, haremos

[email protected]:/storage# zfs list -r -t snapshot -o name,creation other
NAME         CREATION
[email protected] lun dic  9 15:56 2013

Ya tenemos un snapshot, lo que nos puedo interesar hacer es ver que diferencias tenemos entre el snapshot y la situación actual.

[email protected]:/storage# zfs diff -FHt [email protected]
[email protected]:/storage#

Como es lógico no nos sale nada, pues vamos a cambiar cosas para que esto se nos mueva un poco.

Vamos a hacer, por ejemplo, la creación de ficheros, en ese pool

while (true); do; /other/file.$RANDOM; sleep 1; done

Lo dejamos un rato y volvemos mirar las diferencias, donde ahora si que veremos cosas.

[email protected]:/other# zfs diff -FHt [email protected]
1386601533.500608604    M       /       /other/
1386601529.484608700    +       F       /other/file.18132
1386601530.488608676    +       F       /other/file.15910
1386601531.488608652    +       F       /other/file.18620
1386601532.492608628    +       F       /other/file.14556
1386601533.500608604    +       F       /other/file.799

Donde podemos ver como nos dice que todos esos “file” están en el disco “+” y no en el snapshot.

Ahora vamos a hacer otro snapshot y después eliminaremos uno de los ficheros y veremos lo que nos dice.

[email protected]:/storage# zfs snapshot [email protected]
[email protected]:rm -rf /other/file.14556

 

[email protected]:/other# zfs diff -FHt [email protected]
1386601765.588603052    M       /       /other/
1386601532.492608628    -       F       /other/file.14556

Y como es lógico (menos mal) nos enseña el fichero que hemos borrado, y nos dice que ese fichero no existe en el snap2.

Comprobamos que supone hacer un snapshot cuando el sistema tiene bastante carga, y lo hacemos con un dd y ¡un gif súper chulo!
snap
El snapshot tarda un poco más, pero no se corta el dd ni baja significativamente el rendimiento.

Pues ahora que tenemos 3-4 snapshot vamos a jugar como ellos.

Rolling back

Aquí tenemos que tener claro que por ejemplo en nuestro caso tenemos 4 snapshots, su volvemos por ejemplo al 2, no podemos volver ni al 3 ni al 4 y estos los perderemos, pongamosnos en la situación que queremos recuperar el fichero file.14556, que borramos unos pasos más atrás.

[email protected]:/other# zfs diff -FHt [email protected]
1386602119.328594591    M       /       /other/
1386601532.492608628    -       F       /other/file.14556
1386602227.756591997    +       F       /other/prueba3.dd
[email protected]:/other# zfs diff -FHt [email protected]
1386602227.756591997    M       F       /other/prueba3.dd
[email protected]:/other# zfs diff -FHt [email protected]
1386602119.328594591    M       /       /other/
1386601532.492608628    -       F       /other/file.14556
1386602227.756591997    +       F       /other/prueba3.dd
[email protected]:/other# ll /other/file.14556
ls: no se puede acceder a /other/file.14556: No existe el archivo o el directorio
[email protected]:/other#

ROLLBACK!!!

[email protected]:/other# zfs rollback -r [email protected]
[email protected]:/other# ll /other/file.14556
-rw-r--r-- 1 root root 0 dic  9 16:05 /other/file.14556
[email protected]:/other#

Pues ahí lo tenemos, ¿Cuál es el problema? Pues muy claro que hemos perdido también todos los cambios que hemos hecho desde el snap2 hacia adelante, e incluso nuestro querido prueba3.dd, entonces lo que esta claro es que tenemos que tener alguna forma de recuperar ese fichero sin perder el resto… pues lo explico más abajo, no nos desviemos!

Vamos a eliminar el snap1 que no nos sirve para nada

Eliminación de Snapshots

[email protected]:/other# zfs list -r -t snapshot -o name,creation other
NAME         CREATION
[email protected] lun dic  9 15:56 2013
[email protected] lun dic  9 16:07 2013
[email protected]:/other# zfs destroy [email protected]
[email protected]:/other# zfs list -r -t snapshot -o name,creation other
NAME         CREATION
[email protected] lun dic  9 16:07 2013

Y ya esta solo queda 1…

Ahora pongamosnos en la situación que tenemos un snapshot del sábado que no queremos borrar bajo ningún concepto, pues lo que podremos hacer es bloquear el snapshot, de la siguiente forma!

[email protected]:/other# zfs snapshot [email protected]
[email protected]:/other# zfs hold noborrar [email protected]
[email protected]:/other# zfs destroy [email protected]
cannot destroy snapshots in [email protected]: dataset is busy
[email protected]:/other# zfs release noborrar [email protected]
[email protected]:/other# zfs destroy [email protected]
[email protected]:/other#

Con la opción hold ponemos un tag (noborrar) en el snapshot, de esta manera evitamos que pueda ser borrado, si nos fijamos cuando intentamos lanzar el destroy nos da un error “cannot destroy snapshots in [email protected]: dataset is busy”, para liberarlo deberemos lanzar el comando release y después el destroy.

También podemos ver la lista de tags con el comando zfs holds

[email protected]:/other# zfs holds [email protected]
NAME         TAG       TIMESTAMP
[email protected] noborrar  lun dic  9 17:48 2013

Clones

Bueno volvemos al caso anterior donde hemos hecho la restauración de un snapshot y por consiguiente hemos perdió los cambias desde el snapshot hasta el momento actual, ¿Cómo evitaremos esto? pues con los clones!!

Vamos a ver un ejemplo:

Tenemos el recurso other, el cual vamos a crear ficheros y haremos un snapshot, después creamos más ficheros e intentamos recuperar el primer snapshot sin perder los datos hasta el momento actual.

Utilizamos el mismo while que hemos utilizado antes.

  while (true); do   ; /other/file.$RANDOM   ; sleep 1; done  

Vamos a listar los ficheros que no tenemos snapshot clone1, respecto a la base, para así saber que es lo que vamos a recuperar.

Imaginemos que queremos recuperar el fichero file.3984, que no esta en la lista, bueno pues vamos a “montar” el clone en una directorio, para poder acceder a los ficheros.

zfs clone [email protected] [email protected]:/other/clone1#
ls -la /other/clone1/file.3984
-rw-r--r-- 1 root root 0 dic 17 10:41 /other/clone1/file.3984

Y ahí lo tenemos, en un directorio a parte, podemos ver que tenemos un nuevo recurso montado con la carpeta clone1.

[email protected]:/other/clone1# df -h | grep clone1
other/clone1                   9,8G      0  9,8G   0% /other/clone1

Una vez terminado de recuperar los datos pues eliminamos el clone…

zfs destroy other/clone1

Vamos a poner otro ejemplo, pensemos que hemos estado trabajando con el clone1 y ahora se convirtió en importante y queremos empezar a utilizarlo como sustitución del recurso actual, o sea, queremos promocionarlo.

Promocionar clone

Vamos a cambiar el escenario, vamos hacerlo con números para que se entienda bien, o sea, “uno” sera el recurso de producción, “dos” el clone restaurado y “tres” el rename de “uno”

Creamos un nuevo recurso

[email protected]:~# zfs create other/uno

Realizamos el snapshot con el que trabajaremos y lo promocionaremos

[email protected]:~# zfs snapshot [email protected][email protected][email protected][email protected]                         

Ahora lo montamos en un directorio llamado dos

[email protected]:~# zfs clone [email protected] other/dos

Y lo promocionamos.

[email protected]:~# zfs promote other/dos

De la forma más lógica cambiamos el nombre recurso uno a tres, para poder liberar el nombre de uno y ponérselo al dos, que actualmente es nuestra copia.

root@openzfs:~# zfs rename other/uno other/tres

Y con esto ya tenemos restaurado la versión del recurso que nos interesaba

root@openzfs:~# zfs rename other/dos other/uno

Pues con esto ya podemos empezar a jugar con los snapshot de openZFS

23 dic

Resizing an Online Multipath Device

Vamos a ampliar una disco conectado por FC a una cabina, de tal manera que deberemos rehacer la particion o disco del servidor para disfrutar del nuevo tamaño, lo haremos sin reiniciar el servidor.

Situación inicial

Lun presentada desde una cabina NetAPP por FC.

Montada en un RedHat con multipath, 4 paths

MySQL_Slave1 (360a980006470484f576f737278463034)
dm-0 NETAPP,LUN [size=120G][features=1 queue_if_no_path][hwhandler=0][rw]
_ round-robin 0 [prio=50][active] _ 5:0:1:0 sdc 8:32  [active][ready]
_ round-robin 0 [prio=50][enabled] _ 6:0:1:0 sde 8:64  [active][ready]
_ round-robin 0 [prio=10][enabled] _ 5:0:0:0 sdb 8:16  [active][ready]
_ round-robin 0 [prio=10][enabled] _ 6:0:0:0 sdd 8:48  [active][ready]

Tamaño inicial

/dev/mapper/MySQL_Slave1 119G   92G   21G  82% /mnt/mysql55-slave1

Resizing an Online Multipath Device without partition

Una vez que hemos aumentado la LUN desde el servidor

Vamos a comprobar que el servidor detecta el nuevo tamaño, para ello hacemos un rescan de los discos.

echo '- - -' > /sys/class/scsi_host/host5/rescan
multipathd -ll  MySQL_Slave1 (360a980006470484f576f737278463034)
dm-0 NETAPP,LUN [size=201G][features=1 queue_if_no_path][hwhandler=0][rw] _ round-robin 0 [prio=50][active]
_ 5:0:1:0 sdc 8:32  [active][ready] _ round-robin 0 [prio=50][enabled] _ 6:0:1:0 sde 8:64  [active][ready]
_ round-robin 0 [prio=10][enabled] _ 5:0:0:0 sdb 8:16  [active][ready] _ round-robin 0 [prio=10][enabled]
_ 6:0:0:0 sdd 8:48  [active][ready]

Desmontamos la unidad en el caso que la tengamos montada, en el caso de que no este montada o sea desmontada ya no hace falta que la desmontemos :)

Haremos el primer resize a través del multipath tal que así:

multipathd -k'resize map MySQL_Slave1' ok

Y ahora rápidamente un resize molón del disco, como esta lun no tiene particiones lo haremos directamente, contando que si es ext2 o ext3 utilizaremos resize2fs y si es ext4 como en nuestro caso, utilizaremos resize4fs

e4fsck /dev/mapper/MySQL_Slave1 resize4fs /dev/mapper/MySQL_Slave1

Comprobamos

/dev/mapper/MySQL_Slave1  198G 92G 96G 49% /mnt/mysql55-slave1

Resizing an Online Multipath Device with partition

La situación ahora es que tenemos un disco conectado a una cabina por FC, pero esta vez el disco que ve el sistema tiene un partición, en este caso el método es un poco distinto.

La primera parte igual, ampliamos la LUN en la cabina y hacemos el rescan en el sistema.

echo '- - -' > /sys/class/scsi_host/host5/rescan
multipath -ll MySQL_Master (360a980006470484f576f74346e446e56)<strong> dm-0
NETAPP,LUN [size=200G][features=1 queue_if_no_path][hwhandler=0][rw]
_ round-robin 0 [prio=50][active]  _ 5:0:1:0 sde 8:64  [active][ready]
_ round-robin 0 [prio=50][enabled]  _ 6:0:1:0 sdk 8:160 [active][ready]
_ round-robin 0 [prio=10][enabled]  _ 5:0:0:0 sdb 8:16  [active][ready]
_ round-robin 0 [prio=10][enabled]  _ 6:0:0:0 sdh 8:112 [active][ready]

El disco que vemos es el dm-0, vemos con un fdisk -l que tiene una partición que es la que queremos ampliar.

Disk /dev/dm-0: 200 GB,
214749413376 bytes 255 heads, 63 sectors/track, 26108 cylinders Units = cylinders of 16065 * 512 = 8225280 bytes
Device Boot      Start         End      Blocks   Id
System /dev/dm-0p1               1       xxxxx   xxxxxx+

Pues ahora que lo tenemos todo localizado vamos a ampliar la partición, desmontamos primero. y lo que haremos es eliminar la partición actual y volverla a crear, pero esta vez veremos que el end de la partición es superior, ya que el tamaño es superior, la practica es tal que así.

umount /dev/dm-0p1
fdisk -u /dev/sdc < d [Enter] n [Enter] p [Enter] 1 [Enter] w [Enter]
d = delete
n = new
p = primary
1 = la primera
fsck -f /dev/dm-0p1
resize2fs /dev/dm-0p1

Cuando termine ya tendremos la nueva partición con el tamaño deseado, por ultimo le diremos al sistema que vuelva a escanear la tabla de particiones.

partprobe -s /dev/dm-0

Y con esto ya tenemos el disco ampliado sin necesidad de reiniciar.

Fuentes

https://access.redhat.com/site/documentation/en-US/Red_Hat_Enterprise_Linux/6/html/DM_Multipath/MPIO_admin-troubleshoot.html

http://www.redhat.com/advice/tips/rhce/partprobe.html

16 dic

Instalación de Proxmox y creación de container

Vamos a explicar cómo se instala proxmox y crearemos nuestro primer container!

¿Qué es proxmox?

Proxmox es una distribución de virtualización que ofrece la posibilidad de gestionar servidores virtuales (VPS) con tecnologías OpenVZ y Linux KVM al mismo tiempo. La gestión se realiza fácilmente en unos clics a través del interfaz web, accesible directamente tras la instalación del servidor.

¿Qué es un OpenVZ?

OpenVZ permite que un servidor físico ejecute múltiples instancias de sistemas operativos aislados, conocidos como Servidores Privados Virtuales (SPV o VPS en inglés) o Entornos Virtuales (EV).

Creación de USB instalación.

Nos bajamos la iso desde http://www.proxmox.com/downloads/item/proxmox-ve-3-1-iso-installer-bittorrent , y muy sencillo una vez descargado lo único que debemos hacer es volcarlo en un usb a nivel de bloque, con dd por ejemplo.


dd if=/isoproxmox.iso of=/dev/sdx

Tenemos que tener el usb desmontado y debemos lanzar el dd al dispositivo no a la partición(en el caso que tenga)

Ahora conectamos el usb y vamos a por la instalación, que es muy sencilla.

Instalación

Seleccionaremos el disco donde queremos instalarlo, después si tenemos más de un datastore, podremos asignar datastores a roles, por ejemplo, isos, VM, containers…

3

Nos leemos la EULA, por si son unos pájaros y seleccionamos la zona horaria

2 4

Ponemos el password del usuario que utilizaremos para entrar tanto al servidor por ssh como por la página web

5

La ip y el nombre FQDN

6

E instalando

7 8

Creación de un container

Ahora entraremos por la ip que hemos puesto por el puerto 8006 https. https://ip:8006, usuario root.

El tipo de container que vamos a montar es sobre OpenVZ que es un poco diferente a los LXC, mas información aquí https://es.wikipedia.org/wiki/OpenVZ

Bien, debemos subir OS template, como sabemos existen unas plantillas ya montadas, no podemos hacer containers con el el SO que queramos, la lista la tenemos aquí http://download.openvz.org/template/precreated/

Vamos a seleccionar por ejemplo un debian-7.0-x86_64.tar.gz, pues primero de todo nos conectamos por ssh al servidor de proxmox y nos vamos al directorio /vz/template/cache y ahí descargamos el fichero.


cd  /vz/template/cache

wget http://download.openvz.org/template/precreated/debian-7.0-x86_64.tar.gz

También lo podemos hacer por la interfaz, nos vamos al disco dentro de la sección del servidor y seleccionamos contenido. Tenemos dos opciones o plantillas o subir, en la sección de plantillas tenemos un montos de plantillas divididas por secciones, por ejemplo tenemos sistemas operativos, pero también turnekeylinux especificas a servicios.

Nosotros empezaremos por el sistema operativo, de momento…

templatesSeleccionamos el que queramos y le damos a descargar.

Ahora le daremos a create CT y rellenamos los huecos, como un cuestionario…., VM ID, deberá ser único en el host/cluster

cont

Aquí seleccionaremos la plantilla que queramos, en nuestro caso la que bajamos…

plantillaY los recursos que le queramos dar al container.

resY por último la red, tenemos dos opciones.

red

Bridged : Si queremos que utilice la tarjeta del servidor o sea a nivel 2

Routed mode: Como si fuera un servidor mas de la red, link a nivel 3

creacion

Y esperamos que la cree, ahora vamos a conectarnos al nuevo containers.

Podemos verlo por consola o conectarnos por ssh directamente a la máquina.

final

Así de fácil y sencillo.

Fuentes

http://pve.proxmox.com/wiki/Downloads#Proxmox_Virtual_Environment_3.1_.28ISO_Image.29

http://pve.proxmox.com/wiki/Install_from_USB_Stick

http://es.wikipedia.org/wiki/LXC

http://www.proxmox.com/