Modelo de detección de tipos de archivo mejorado con IA, versión 3

Por OPSWAT

25 de septiembre de 2025 Última actualización: 29 de septiembre de 2025

Comparte esta publicación

La suplantación de archivos sigue siendo una de las técnicas más eficaces que utilizan los atacantes para eludir los controles de seguridad tradicionales. El año pasado, OPSWAT un motor de detección de tipos de archivo mejorado con IA para subsanar las deficiencias de las herramientas heredadas. Este año, con el modelo de detección de tipos de archivo v3, hemos mejorado esa capacidad centrándonos en los tipos de archivo en los que la precisión es más importante y en los que los sistemas tradicionales basados en la lógica suelen fallar.

El modelo de detección de tipos OPSWAT v3 está diseñado para abordar el reto específico que supone la clasificación fiable de archivos ambiguos y no estructurados, especialmente formatos basados en texto, como scripts, archivos de configuración y código fuente. A diferencia de los clasificadores generalizados, este modelo se ha creado específicamente para casos de uso en ciberseguridad, en los que clasificar erróneamente un script de shell o no detectar un documento que contenga macros incrustadas —como un archivo de Word con código VBA— puede suponer un riesgo de seguridad significativo.

Por qué es fundamental la detección del tipo de archivo real

La mayoría de los sistemas de detección se basan en tres métodos habituales:

Extensión de archivo: Este método comprueba el nombre del archivo para determinar su tipo basándose en la extensión, como .doc o .exe. Es rápido y ofrece una amplia compatibilidad entre plataformas. Sin embargo, es fácil de manipular. Un archivo malicioso puede renombrarse con una extensión que parezca segura, y algunos sistemas ignoran por completo las extensiones, lo que hace que este método no sea fiable.
Bytes mágicos: se trata de secuencias fijas que se encuentran al principio de muchos archivos estructurados, como los PDF o las imágenes. Este método mejora la precisión con respecto a las extensiones de archivo, ya que examina el contenido real del archivo. El inconveniente es que no todos los tipos de archivo tienen patrones de bytes bien definidos. Los bytes mágicos también pueden ser falsificados, y la falta de uniformidad en los estándares entre las distintas herramientas puede generar confusión.
Análisis de distribución de caracteres: este método analiza el contenido real de un archivo para deducir su tipo. Resulta especialmente útil para identificar formatos basados en texto con una estructura poco definida, como guiones o archivos de configuración. Aunque ofrece una visión más detallada, conlleva unos costes de procesamiento más elevados y puede generar falsos positivos con contenidos inusuales. Además, es menos eficaz con archivos binarios que carecen de patrones de caracteres legibles.

Estos métodos funcionan bien con formatos estructurados, pero pierden fiabilidad cuando se aplican a archivos no estructurados o basados en texto. Por ejemplo, un script de shell con un número mínimo de comandos puede parecerse mucho a un archivo de texto sin formato. Muchos de estos archivos carecen de encabezados claros o marcadores consistentes, lo que hace que la clasificación basada en patrones de bytes o extensiones resulte insuficiente. Los atacantes aprovechan esta ambigüedad para camuflar scripts maliciosos como documentos o registros inofensivos.

Las herramientas tradicionales, como TrID y LibMagic, no se diseñaron para este nivel de detalle. Aunque resultan eficaces para la clasificación general de archivos, se optimizaron para abarcar un amplio espectro y ofrecer rapidez, no para la detección especializada bajo restricciones de seguridad.

Cómo funciona el modelo de detección de tipos de archivo v3

El proceso de entrenamiento del modelo de detección de tipos de archivo v3 consta de dos fases. En la primera fase, se lleva a cabo un preentrenamiento adaptado al dominio mediante el modelado de lenguaje enmascarado (MLM), lo que permite al modelo aprender la sintaxis y los patrones estructurales específicos del dominio. En la segunda fase, el modelo se ajusta sobre un conjunto de datos supervisado en el que cada archivo está anotado explícitamente con su tipo de archivo real.

El conjunto de datos es una combinación seleccionada de archivos comunes y muestras de amenazas, lo que garantiza un equilibrio óptimo entre la precisión en el mundo real y la relevancia para la seguridad. OPSWAT el control sobre los datos de entrenamiento, lo que permite un perfeccionamiento continuo de los formatos que más importan para las operaciones de seguridad.

El componente de IA se aplica con precisión, no de forma generalizada. El modelo de detección de tipos de archivo v3 se centra en tipos de archivo ambiguos y no estructurados que los métodos de detección tradicionales no pueden gestionar de forma eficaz, como scripts, registros y texto con un formato poco definido, en el que la estructura es inconsistente o inexistente. El tiempo medio de inferencia se mantiene por debajo de los 50 milisegundos, lo que lo hace eficiente para flujos de trabajo en tiempo real en subidas seguras de archivos, aplicación de políticas en terminales y procesos de automatización.

Resultados de las pruebas de rendimiento

Hemos comparado el motor de detección de tipos OPSWAT con las principales herramientas de detección de tipos de archivo utilizando un conjunto de datos amplio y variado. La comparación incluyó puntuaciones F1 de 248 000 archivos y aproximadamente 100 tipos de archivo.

Figura 1: Comparación de la puntuación F1 de diferentes enfoques

El motor de detección de tipos OPSWAT integra múltiples técnicas, entre las que se incluyen TrID, LibMagic y tecnologías propias OPSWAT, como analizadores sintácticos avanzados y el modelo de detección de tipos de archivo v3. Este enfoque combinado ofrece una clasificación más sólida y fiable tanto en formatos estructurados como no estructurados.

En las pruebas comparativas, el motor alcanzó una precisión global superior a la de cualquier herramienta por sí sola. Aunque TrID, LibMagic y Magika v3 ofrecen buenos resultados en determinados ámbitos, su precisión disminuye cuando faltan los encabezados de los archivos o el contenido es ambiguo. Al combinar la detección tradicional con un análisis profundo del contenido, OPSWAT un rendimiento constante incluso cuando la estructura es débil o está diseñada para inducir a error.

Archivos de texto y de script

Los formatos basados en texto y scripts suelen estar relacionados con amenazas transmitidas a través de archivos y con el movimiento lateral. Hemos llevado a cabo una prueba específica con 169 000 archivos de diversos formatos, tales como .sh, .py, .ps1, y .conf.

Figura 2: Comparación de diferentes enfoques para el formato basado en texto

TrID y LibMagic mostraron limitaciones a la hora de detectar estos archivos no estructurados. Su rendimiento se deterioró rápidamente cuando el contenido de los archivos se desviaba de los patrones de bytes esperados.

Modelo de detección de tipos de archivo v3 frente a Magika v3

Hemos comparado el modelo de detección de tipos OPSWAT v3 con Magika v3, el clasificador de IA de código abierto de Google, en 30 tipos de archivos de texto y de script utilizando el mismo conjunto de datos de 500 000 archivos.

Figura 3: Comparación F1 entre el modelo de detección de tipos de archivo v3 y Magika v3

Observaciones principales:

El modelo de detección de tipos de archivo v3 igualó o superó a Magika en casi todos los formatos.
Los mayores avances se registraron en formatos vagamente definidos, como .bat, .perl, .html, y .xml.
A diferencia de Magika, que está diseñado para la identificación general, el modelo de detección de tipos de archivo v3 está optimizado para formatos de alto riesgo en los que una clasificación errónea tiene graves consecuencias para la seguridad.

Principales casos de uso

Cargas, descargas y transferencias Secure

Evita que archivos camuflados o maliciosos entren en tu entorno a través de portales web, archivos adjuntos de correo electrónico o sistemas de transferencia de archivos. La detección mejorada con IA va más allá de las extensiones y los encabezados MIME para identificar scripts, macros o ejecutables incrustados en archivos renombrados.

Cadenas de DevSecOps

Detenga los archivos peligrosos antes de que contaminen sus entornos de compilación o implementación de software. Al validar el tipo de archivo real basándose en su contenido, MetaDefender Core que solo los formatos aprobados pasen por los procesos de CI/CD, lo que reduce el riesgo de ataques a la cadena de suministro y garantiza el cumplimiento de las prácticas de desarrollo seguro.

Aplicación de las normas

La detección precisa del tipo de archivo es esencial para cumplir con normativas como HIPAA, PCI DSS, el RGPD y NIST 800-53, que exigen un control estricto sobre la integridad de los datos y la seguridad de los sistemas. Detectar y bloquear los tipos de archivo falsificados o no autorizados ayuda a aplicar políticas que evitan la exposición de datos confidenciales, mantienen la preparación para auditorías y evitan costosas sanciones.

Reflexiones finales

Los clasificadores de archivos de uso general, como Magika, resultan útiles para la categorización general de contenidos. Sin embargo, en ciberseguridad, la precisión es más importante que la amplitud. Un solo script clasificado erróneamente o una macro etiquetada incorrectamente pueden marcar la diferencia entre la contención y la vulneración de la seguridad.

El motor de detección de tipos OPSWAT ofrece esa precisión. Al combinar el análisis de tipos de archivo mejorado con inteligencia artificial con métodos de detección probados, proporciona una capa de clasificación fiable allí donde las herramientas tradicionales fallan, especialmente en formatos ambiguos o no estructurados. No se trata de sustituirlo todo, sino de reforzar los puntos débiles críticos de su infraestructura de seguridad con una detección en tiempo real que tiene en cuenta el contexto.

Solicitar una demostración

Etiquetas:

MetaDefender Core

Últimas publicaciones

El «Patch Tuesday» de julio de 2026 de Microsoft supone una llamada de atención para los proveedores independientes de software Endpoint
24 de julio de 2026
Una experiencia coherente, una gestión centralizada y escalabilidad bajo demanda: lo que MetaDefender™ Storage Security .5.0 aporta a tu equipo
24 de julio de 2026
Aprovecha ahora, descifra después: por qué la distribución de claves cuánticas es importante hoy en día
24 de julio de 2026
Patch Management proactiva Patch Management empresariales Patch Management una única consola
24 de julio de 2026
My Central Management .7.26062
23 de julio de 2026

Suscríbete al OPSWAT de OPSWAT

Recibe las últimas novedades OPSWAT , junto con información sobre eventos y las noticias que impulsan el avance del sector.

Inscríbeme

Síguenos en Media sociales

¡Sigue a OPSWAT LinkedIn, Facebook, Twitter y YouTube para estar al día!

¡Mantente al día con OPSWAT!

Regístrate hoy mismo para recibir las últimas novedades de la empresa, historias, información sobre eventos y mucho más.