Google представила технологию для маркировки и распознавания текстов, созданных генеративными моделями ИИ. Инструмент под названием SynthID Text не повлияет на качество и скорость генерации контента, и будет доступен совершенно бесплатно для разработчиков и компаний.
SynthID Text работает следующим образом. При генерации текста модель предсказывает, какой «токен» (символ или слово) будет следующим, основываясь на вероятности появления каждого токена, и добавляет дополнительную информацию в распределение этих вероятностей, модулируя скорректированные символы. В конечном итоге из них формируется водяной знак (watermark), который помогает определить, был ли текст создан ИИ. «Окончательный паттерн вероятностей слов, выбранных моделью, в сочетании с изменёнными оценками вероятностей будет считаться водяным знаком», — объясняется в блоге компании.
Google утверждает, что SynthID Text, который уже весной был интегрирован в Gemini, не влияет на качество, точность или скорость генерации. При этом текст, который был обрезан, перефразирован или изменён может обрабатываться несколько хуже. Что касается фактов, то «в ответах на слишком определённые и однозначные вопросы меньше возможностей для корректировки распределения токенов без ущерба для фактической точности».
Стоит отметить, Google — не единственная компания, работающая над технологией нанесения водяных знаков на текст, созданный ИИ. Например, OpenAI также разрабатывала методы нанесения «вотермарков», но отложила их запуск из-за технических препятствий и коммерческих соображений.
Если технология будет широко внедрена, то возможно получится переломить ситуацию с неточными, но все более популярными «детекторами ИИ», которые ошибочно определяют студенческие работы или эссе как сгенерированные нейросетью. Как пишет TechCrunch, «вопрос остаётся открытым». Однако в некоторых странах уже принимаются меры. Например, правительство Китая ввело обязательную маркировку контента, созданного ИИ, а штат Калифорния (США) собирается последовать этому примеру.
Источник: