Los “felices años veinte” de los datos necesitan un #almacenamiento rápido de archivos y objetos

203 0

Por Julio César Castrejón, Country Manager para México de Pure Storage

Esta década se perfila como el periodo histórico de “los felices años veinte” de los datos no estructurados. De acuerdo con Gartner, las tasas de crecimiento de datos no estructurados han alcanzado el 30% anual, lo que significa que los volúmenes totales de datos no estructurados casi se cuadriplicarán para 2027.

Tal crecimiento de datos es un desafío en sí mismo, pero los datos no estructurados también vienen en una variedad de tamaños y se pueden almacenar como archivos u objetos, con necesidades de rendimiento de almacenamiento cada vez más exigentes. Esto ha resultado en una nueva categoría de almacenamiento emergente para proporcionar un almacenamiento rápido y unificado de archivos y objetos.

¿Qué impulsa la necesidad de un almacenamiento rápido de archivos y objetos?

El contexto es el crecimiento de los datos no estructurados, que pueden comprender cantidades muy grandes de archivos u objetos muy pequeños, a menudo miles de millones de ellos. Los datos no estructurados también pueden presentarse como una cantidad menor de archivos u objetos mucho más grandes, como videos o imágenes de alta definición.

También podría ser una combinación de los dos. Los flujos de trabajo de análisis modernos, por ejemplo, pueden necesitar acceder a una amplia variedad de tipos de datos de diferentes tamaños.

Archivo y objeto rápidos: rendimiento y rendimiento de E/S

Otro impulsor clave del almacenamiento rápido de archivos y objetos es el rendimiento del almacenamiento para acceder a estos datos no estructurados. Hemos visto una explosión en el análisis y el aprendizaje automático, impulsada por la necesidad de extraer valor de enormes cantidades de datos sin procesar.

Mientras tanto, las imágenes digitales son un caso de uso de rápido crecimiento, como PACS (sistemas de archivo y comunicación de imágenes) en la industria de la salud.

Un ejemplo aquí es el uso pionero del aprendizaje automático para el diagnóstico del cáncer por parte de Paige, con sede en EUA, que necesita una capacidad de almacenamiento a escala de petabytes con acceso rápido y alto rendimiento para permitir el reconocimiento automático de millones de imágenes en muestras de tejido de pacientes. Esto exige un acceso de alto rendimiento a los datos de archivos y objetos.

Además, la copia de seguridad y la protección de datos pueden producir una gran cantidad de archivos y objetos de varios tamaños. Si bien es posible que las copias de seguridad se hayan consignado alguna vez al almacenamiento más lento, ahora se requieren velocidades de restauración muy rápidas para ayudar a recuperar los datos rápidamente en caso de un ataque de ransomware.

Archivo rápido y objeto: ¿Por qué el y?

La incorporación del almacenamiento rápido de objetos es una innovación clave. Durante décadas, el almacenamiento de archivos ha sido una opción principal, con soluciones NAS de escalamiento horizontal que aumentan la capacidad y el rendimiento para admitir datos no estructurados, pero el almacenamiento de objetos se está volviendo cada vez más importante y bien establecido, impulsado por la web y el auge de la Nube.

Los archivos y objetos pueden contener los mismos tipos de contenido. Pero, mientras que los sistemas de archivos usan un sistema jerárquico basado en directorios, el almacenamiento de objetos usa una estructura “plana” con objetos a los que se les asigna un identificador individual y metadatos que se pueden usar para contextualizar estos objetos.

Históricamente, el objeto ha sido el tipo de almacenamiento de menor rendimiento y ha formado una categoría de producto bastante separada. Esta visión del almacenamiento de objetos está cambiando, ya que los clientes necesitan interrogar cada vez más grandes cantidades de datos no estructurados que pueden estar en formato de objeto y de archivo.

Además, a medida que las aplicaciones y los casos de uso evolucionan del acceso a archivos a objetos, las organizaciones requieren una plataforma que pueda admitir ambos métodos de acceso y garantizar la protección de la inversión durante y después de esta transición. Todos estos factores han llevado al surgimiento de soluciones de almacenamiento de alto rendimiento que combinan el acceso a archivos y objetos.

Beneficios de archivos y objetos rápidos

A diferencia de los datos estructurados tradicionales, como una base de datos compatible con un sistema ERP, que tiende a ser bastante estático, los datos no estructurados pueden abarcar muchas ubicaciones y métodos de acceso durante su ciclo de vida.

Los productos emergentes de almacenamiento de objetos y archivos rápidos de la actualidad son compatibles con los protocolos de archivos del sistema de archivos de red (NFS) y del bloque de mensajes del servidor (SMB), que son compatibles con la forma en que se escriben muchas aplicaciones empresariales existentes.

Además, las soluciones rápidas de archivos y objetos también pueden manejar datos no estructurados en formatos de acceso a objetos que son el resultado de sus orígenes en la Nube, como Amazon S3. Por lo tanto, el almacenamiento rápido de archivos y objetos también es ideal para Nubes híbridas, con datos no estructurados que pueden hacer la transición entre ubicaciones en el sitio y en la nube.

¿Qué deben buscar los clientes en un producto rápido de almacenamiento de archivos y objetos?

En primer lugar, la capacidad. La plataforma debe adaptarse a sus necesidades, que para muchas empresas podrían ser petabytes. Dado que los datos no estructurados pueden crecer rápidamente, escalar la solución también debe ser fácil y no implicar una configuración de red compleja o tareas manuales de reequilibrio de datos.

En segundo lugar, debe tener acceso al almacenamiento de archivos y objetos, ofreciendo los protocolos clave como NFS y SMB para archivos y S3 para acceso a objetos.

En tercer lugar, debe construirse para un acceso rápido y un alto rendimiento. Se requiere baja latencia, especialmente para operaciones de lectura y acceso a metadatos, para desbloquear el potencial de AI/ML, así como muchos marcos de análisis modernos. El almacenamiento all-flash ofrece este acceso rápido gracias a su naturaleza de estado sólido.

La velocidad es clave

Ya sea para analizar conjuntos de datos muy grandes o para realizar una operación de restauración masiva después de un ataque de ransomware, los datos no estructurados pueden requerir un rendimiento de acceso muy alto. La baja latencia debe combinarse con un alto rendimiento. Para el análisis de datos, esto significa velocidades medidas en decenas de gigabytes por segundo.

Cuando se trata de restaurar sistemas después de una interrupción o un ataque de ransomware, los clientes empresariales deben buscar números de rendimiento que se acerquen a los 300 TB por hora, para limitar el tiempo de inactividad y el daño financiero y de reputación que conlleva.

Además, la plataforma debe proporcionar un alto rendimiento, tanto desde el punto de vista de la latencia como del rendimiento, de forma automática y sin ajustes. El mundo de los datos no estructurados y el análisis moderno está evolucionando tan rápidamente que es difícil predecir qué herramientas, formato de archivo, tamaño de conjunto de datos o métodos de acceso se necesitarán mañana.

Cualquier solución de almacenamiento que requiera configuración o ajuste manual para ofrecer un alto rendimiento para un caso de uso dado sofocará la innovación y retrasará los proyectos.

El mundo del almacenamiento de datos realmente se está embarcando en los locos años veinte. El crecimiento explosivo de la analítica moderna, el aprendizaje automático, la inteligencia de imágenes y videos, así como los ataques de ransomware, requerirán soluciones de almacenamiento creadas para grandes volúmenes de datos no estructurados, con niveles de rendimiento increíbles y flexibilidad en términos de métodos de acceso.

Las plataformas rápidas de almacenamiento de archivos y objetos son la respuesta a los desafíos de datos actuales y futuros, y están diseñadas para ayudar a las empresas a aprovechar el valor de los datos no estructurados.

Related Post