La llegada de inteligencias artificiales generativas a nuestras vidas encabezadas por ChatGPT ha hecho lo obvio: que muchas otras empresas se suban al carro y haya una buena cantidad de alternativas y herramientas similares. Ideogram o el propio Copilot de Microsoft son prueba de ello.
Y el ritmo no para, porque hay una IA que no deberíamos ignorar en toda esta revolución. Se llama Whisper V3, es capaz de transcribir cualquier audio que le mandes y lo podemos utilizar sin problemas incluso desde el iPhone.
Qué es Whisper V3
Whisper V3 es un modelo de reconocimiento de voz basado en IA, capaz de transcribir audios donde haya conversaciones. Es capaz de hacerlo en varios idiomas, incluyendo el español; y a diferencia de otros motores es open source. Su código puede consultarse por cualquier persona desde Github.
El motor de Whisper V3 no es ninguna broma: es el resultado de aprender reconocimiento de voz a partir de más de un millón de horas de audio, y se han afinado tanto las correcciones que en el caso del español su margen de error baja ya del 5%. Incluso detecta las pausas en las conversaciones, traduciéndolas en forma de signos de puntuación en el texto.
El potencial es enorme: para profesionales puede servir para llevarnos un vídeo o una entrevista completa a texto puro, transcrito automáticamente y eliminando mucho trabajo mecánico. A nivel doméstico podría ser la evolución de herramientas como LuzIA, que ya nos ofrecen transcribir a texto los audios que nos manden; y una herramienta de traducción excelente de varios idiomas. Porque sí, Whisper V3 también es capaz de traducir.
Cómo usar Whisper V3 en el iPhone
Para usar Whisper V3 desde el iPhone basta con que abramos un navegador desde él y accedamos a esta página web. En ella veremos una sección desde donde podremos subir un archivo de audio, que previamente habremos guardado de modo que podamos acceder a él desde la aplicación archivos. Puedes hacer una prueba rápida grabando un audio con la aplicación Notas de Voz y exportándolo con la opción 'Guardar en Archivos', por ejemplo.
En Whisper, toca en la sección 'Audio' para añadir un archivo de audio. En el menú que te va a aparecer, toca en 'Seleccionar archivo' y selecciona el archivo de audio que tengas guardado en la aplicación Archivos (lo más sencillo es que lo tengas en iCloud Drive).
Una vez el audio se haya subido, selecciona 'es' en el menú 'Language' para hacerle ver a Whisper V3 que el audio que has subido está en Español. Finalmente, toca sobre el botón 'Run':
En mis pruebas, Whisper V3 ha tardado unos ocho minutos en transcribir casi a la perfección un audio de 22 minutos. El texto aparece en la propia web una vez el proceso ha terminado, y puedes copiarlo y pegarlo a la aplicación que quieras para poder trabajar con él:
Por supuesto, al estar hablando de una web, todo este proceso puede hacerse también desde un iPad o un Mac. Por mi parte, no creo que necesite transcribir manualmente una entrevista nunca más.
Imagen | CDX
En Applesfera | Hemos pedido a un IA que nos diga cómo sería Steve Jobs o Tim Cook si fueran personajes de Pixar y este es el resultado
En Applesfera | Apple encara unos resultados financieros complicados mientras redobla su apuesta en IA: "estamos invirtiendo mucho"
Ver 5 comentarios