Other • 12/08/2024

Texto creado por IA mediante SynthID marca agua

Martín Sepúlveda

Anunciamos nuestro nuevo método de marca de agua para texto y vídeos generados por IA, y cómo estamos incorporando SynthID en productos principales de Google. Las herramientas generadas por IA han capturado la imaginación del público debido a sus tareas creativas, ya que se convierten rápidamente en parte de productos utilizados por millones de personas en su vida diaria. A medida que estas tecnologías se vuelven más populares, el riesgo aumenta de personas que difunden información errónea o realizan actividades maliciosas como phishing. Es por eso que lanzamos SynthID, nuestra herramienta digital para marcar agua en contenido generado por IA.

Hoy en día, estamos expandiendo las capacidades de SynthID para marcar texto y vídeos generados en aplicaciones como Gemini y Veo, nuestro modelo de vídeo generativo más capaz. SynthID para texto está diseñado para complementar modelos de generación de texto más ampliamente disponibles y para su implementación en escala, mientras que SynthID para vídeo se basa en nuestros métodos de marca de agua de imagen y audio para incluir todos los fotogramas de los videos generados. Este método innovador no afecta la calidad, precisión, creatividad o velocidad del proceso de generación de texto o vídeo. SynthID no es una solución para identificar contenido generado por IA, pero es un componente importante en el desarrollo de herramientas de identificación más confiables y puede ayudar a millones de personas a tomar decisiones informadas sobre cómo interactuar con el contenido generado por la IA. Más tarde este verano, estamos abriendo fuentes de SynthID para la marcación de agua de texto, lo que permite a los desarrolladores construir con esta tecnología e incorporarla en sus modelos. Cómo funciona la marca de agua de texto Los modelos de lenguaje grandes generan secuencias de texto cuando se les da un prompt como, “Explicar cuántica mecánica para mí como si tuviera cinco años” o “¿Cuál es tu fruta favorita?”. Los LLM predicen qué token más probable sigue a otro, uno por uno. Los tokens son los bloques de construcción que un modelo generativo utiliza para procesar la información. En este caso, pueden ser un solo carácter, palabra o parte de una frase. Cada token posible se le asigna una puntuación, que es el porcentaje de probabilidad de que sea el correcto. Tokens con puntajes más altos son más propensos a ser usados. Los LLM repiten estos pasos para construir una respuesta coherente. Este sistema está diseñado para insertar marcas de agua indetectables directamente en el proceso de generación de texto. La información sobre la distribución de documentos se regula mediante la modulación de las probabilidades de que se genere un documento, sin comprometer la calidad, precisión, creatividad o velocidad de la generación del texto. SynthID ajusta la puntuación de probabilidad de tokens generados por un modelo de lenguaje grande.

El patrón final de las puntuaciones para las opciones de palabras del modelo combinado con las puntuaciones ajustadas se consideran como la marca de agua. Este patrón de puntuaciones se compara con el patrón esperado de puntuaciones para texto con y sin marca de agua, ayudando a SynthID a detectar si una herramienta de IA generó el texto o podría provenir de otras fuentes. Un trozo de texto generado por Géminis con la marca de agua resaltada en azul. La técnica SynthID funciona mejor cuando un modelo de lenguaje genera más tiempo respuestas y en diversas maneras, como en las solicitudes de generar ensayos, guiones de teatro o variaciones en correos electrónicos. También funciona bien incluso bajo algunas transformaciones, tales como recortes de texto, modificaciones de palabras y parrafeados leves. Sin embargo, sus puntuaciones de confianza pueden ser reducidas cuando un texto generado por IA es completamente reescrito o traducido a otro idioma. La marca de agua SynthID es menos eficaz en respuestas a preguntas de tipo fáctico porque hay menos oportunidades de reglar la distribución de documentos sin afectar la exactitud de los hechos, como en indicaciones como ‘cuál es el capital de Francia?’ y en preguntas donde se espera poca o ninguna variación. Las herramientas de detección de IA utilizan algoritmos para etiquetar y clasificar datos, conocidos como clasificadores. Cuando el mismo clasificador es aplicado en diferentes tipos de plataformas y contenido, su rendimiento no siempre es confiable o consistente, lo que puede llevar a un texto mal etiquetado, lo que puede causar problemas, por ejemplo, donde el texto podría ser identificado incorrectamente como generado por IA. SynthID funciona eficazmente por sí mismo, pero también se puede combinar con otros enfoques de detección de IA para ofrecer una mejor cobertura entre los tipos de contenido y plataformas. Técnica no se construye para detener directamente adversarios motivados como ciberataques o hackers, pero puede hacerlo más difícil de usar contenido generado por IA para propósitos maliciosos. Explicamos cómo funciona la marca de agua de vídeo. En este año anunciamos Veo, nuestro modelo de generación de video más capaz. Las tecnologías de generación no están tan extendidas como las de generación de imagen, pero están evolucionando rápidamente y serán cada vez más importantes para ayudar a la gente a saber si un vídeo es generado por una IA o no. Por lo tanto, desarrollamos una técnica de marca de agua inspirada en nuestro SynthID para herramienta de imagen.

Esta técnica incorpora una marca de agua directamente en los píxeles de cada fotograma de vídeo, de forma que sea imperceptible al ojo humano pero detectable para la identificación. Empoderar a las personas con conocimiento de cuándo están interactuando con los medios generados por IA puede jugar un papel importante en ayudar a saber si un vídeo es real o no. A partir de hoy, todos los vídeos generados por Veo en VideoFX serán marcados con SynthID. La tecnología de marca de agua de SynthID está diseñada para ser compatible con la mayoría de modelos de IA de generación de texto y escalar entre diferentes tipos de contenido y plataformas. Estamos trabajando en llevar esta tecnología al ecosistema de IA en general. Este verano, planificamos publicar más sobre nuestra tecnología de marca de agua de texto en un documento de investigación detallado, y abriremos el código SynthID de marcas de agua de texto a través de nuestro Manual de IA Generativa Responsable actualizado, que proporciona orientación y herramientas esenciales para crear IA más segura aplicaciones, para que los desarrolladores puedan construir con esta tecnología e incorporarla en sus modelos.

News.Streetflow.cl

Texto creado por IA mediante SynthID marca agua

Palantir y Lumen Technologies anuncian alianza estratégica multimillonaria para servicios empresariales de IA

Usuarios denuncian ante la FTC daños psicológicos causados por ChatGPT

General Motors lanzará sistema de conducción autónoma nivel 3 en 2028

General Motors revoluciona la arquitectura eléctrica de sus vehículos para competir en la era del software

Palantir y Lumen Technologies anuncian alianza estratégica multimillonaria para servicios empresariales de IA

Usuarios denuncian ante la FTC daños psicológicos causados por ChatGPT

General Motors lanzará sistema de conducción autónoma nivel 3 en 2028

General Motors revoluciona la arquitectura eléctrica de sus vehículos para competir en la era del software

Amazon lanza programa de becas de doctorado en IA con inversión de 68 millones de dólares

Video

Categories

Tags