Datos, datos y AÚN más datos. Pt.2

En nuestro post de la semana pasada, nos introdujimos en el maravilloso mundo de los datos y como en Transparent CDN hacemos uso de las últimas tecnologías del mercado y cómo utilizamos el entorno ELK (ElasticSearch, Logstash & Kibana).

Teniendo la base para que usamos y que son cada una de ellas, en nuestro #juevesdeblog del día de hoy, os hablaremos de las ventajas y desventajas de cada uno de ellos y como desde Transparent CDN hemos aprovechado estos sistemas para brindarles el mejor servicio de datos para vuestro negocio. 

Ventajas / Desventajas

 

VentajasDesventajas
ElasticSearchEscalabilidad, Alto Rendimiento, Indexación inmejorable, Multilingüe, Orientado a Documentos JSON, Auto-completado y búsqueda de instancias, Libre de esquemas, RESTful API, Consultas Complejas y afinadas, Multi-colección.NO hay soporte para formatos como CSV, XML… Pérdida de datos y colisiones en casos de ingente cantidad de datos (TB’s). Curva de aprendizaje pronunciada, Importancia de nodos para un entorno de producción mínimo 3-nodos/2-réplicas. 
LogstashFlexibilidad, Gran cantidad de plugins, Documentación de calidad y clara, Configuración sencilla, variedad de casos de uso, Gran prototipado,Rendimiento, Consumo de las fuentes de datos (1GB por defecto), sigue siendo más lento que otras alternativas.
KibanaGran definición en visualizaciones, Dashboard principal, Herramientas de desarrollo, Reportes, Filtros y Búsqueda de consultas, Plugins, Cardinalidad y Geo-Maps, Línea del tiempo (Timeline) y Canvas.Problemas de versionado a la hora de añadir plugins. Puede ser muy tedioso. Complejas migraciones y gran aparición de problemas (issues) entre versiones más antiguas a nuevas. Ej. v1.X.X -> 7. X

 

* A pesar de las desventajas que presentan estas herramientas Open Source, hay que recalcar la  gran diferencia que existe con su competencia y otras alternativas, ya que en cuanto a escalabilidad, seguridad y rendimiento es la mejor opción del mercado actualmente.

En Transparent CDN procesamos al día más de 5 mil millones de requests (peticiones) realizadas desde los websites de nuestros clientes distinguidos como: El Español, ADSLZone, RTVE, La Razón, El Confidencial, Sunmedia y muchos más.

Esto se traduce en aproximadamente entre 50K – 60K peticiones por segundo de media. Ante este gran reto debemos de proporcionar una plataforma estable, rápida y eficaz para procesar, indexar y almacenar esta gran cantidad de datos relacionadas con las peticiones. Para esto nos servimos de productos como ElasticSearch, Logstash, RSyslog y Kibana para proporcionar al cliente la mejor experiencia y consumo de sus propios logs.

Nuestra plataforma está basada en una red de más de 30 servidores distribuidos alrededor de todo el mundo conformando nuestra CDN con los más altos estándares en materia de seguridad, rapidez y accesibilidad. Bajo este paraguas de servidores disponemos de una plataforma para el entorno ELK donde utilizamos las últimas tecnologías y plugins como:

La disponibilidad en tiempo real para nuestros clientes y también en el uso del día a día es una de nuestras primas por lo que para este proceso todos nuestros nodos están conectados directamente con nuestro entorno ELK donde optimizamos y configuramos para obtener el máximo rendimiento disponible. Toda esta red de nodos procesan en tiempo real y de manera simultánea todos los logs generados en cada uno de ellos.

De esta manera ElasticSearch se encarga del sharding, la replicación, la indexación que con nuestra configuración a nivel bajo (incluso tocando la Máquina Virtual de Java) obtenemos los mejores resultados posibles.

Todo este proceso se realiza bajo HTTPS y de forma interna primando la seguridad, además el entorno ELK está restringido a aceptar conexiones única y exclusivamente de nuestros nodos.

Así que ante la demanda exhaustiva de nuestros clientes con un crecimiento exponencial, nos adaptamos de una manera escalable y segura a sus requerimientos. Obviamente no es lo mismo tener miles de peticiones por segundo que cientos de miles, por lo que Transparent CDN proporciona todos sus servicios escalabilizados sin perder el enfoque en la optimización y eficacia de sus nodos.

Pensando en nuestros clientes y brindar el mejor servicio, Transparent CDN decidió implementar RSyslog y prescindir totalmente de Logstash ya que este último dejaba una huella de memoria notable en comparación con su alternativa más eficiente y eficaz que es RSyslog, como se puede leer en este artículo.

Aportando más potencia y almacenamiento a nuestro entorno ELK, decidimos optimizar al máximo posible esta variable consiguiendo un caso de éxito excepcional utilizando e interconectando de manera productiva, en un entorno de alto rendimiento todo este grupo de tecnologías: Red Distribuida de Servidores (CDN), RSyslog, ElasticSearch, Kibana… 

Connection, accepted.