La presentación de Apple Intelligence el pasado lunes en la WWDC24 marcó sin duda un punto de inflexión en el ecosistema. Apple rara vez llega el primero a una nueva tecnología, pero siempre buscan la mejor. Van a su propio paso, y a veces - como en este caso - ha dado la impresión de que quizás no parecían estar interesados en la inteligencia artificial.
Nada más lejos de la realidad. En los últimos lanzamientos, ha sido la propia Apple la que subrayaba las capacidades técnicas en IA de los productos que incluyen los últimos Neural Engine, como en MacBook Air M3 o el último iPhone 15 Pro. De hecho, lo llevan haciendo desde la aparición del chip A11 Bionic en 2017, sólo que con resultados orientados a tareas muy especifica - más como algo que funcionaba “bajo el capó” de forma muy concreta.
Apple Intelligence no es una nueva característica. Es una profunda transformación de los sistemas operativos y del ecosistema, que alcanzará de forma transversal a todos ellos y que en esta primera generación empezará por los dispositivos que tengan los procesadores A17 Pro o superior y cualquier Apple Silicon a partir del M1.
Apple Intelligence, los datos esenciales
He tenido la oportunidad de ver Apple Intelligence en acción, pero antes veamos algunos conceptos básicos que me gustaría destacar para entender mejor las posibilidades y la propia definición de la inteligencia artificial creada por Apple.
- Apple Intelligence está basado en modelos de lenguaje grandes de más de 30 mil millones de parámetros, refinados, curados y perfeccionados por la propia Apple para orientarlos a tareas especificas. Estas tareas concentran los resultados en unos controladores llamados “Adapters” que son los encargados de responder y procesar la información en el dispositivo.
- Los Adapters cambian dinámicamente mientras según las necesidades del sistema, con lo que se puede cambiar la información de cada uno de ellos de forma dinámica y es fácilmente escalable a nuevos Adapters si aparecen nuevos casos de uso.
- Los modelos refinados se descargan en modelos locales en el propio dispositivo de unos 3 mil millones de parámetros, listos para ser usados en local. Parece que estos modelos locales no ocuparán mucho más que los sistemas operativos actuales en el almacenamiento interno del dispositivo.
- Son estos modelos locales los que se encargan de las tareas que tengan que ver con el uso de nuestros datos personales, almacenados en el dispositivo. De esta forma, nuestra información no hay que enviarla o “subirla” completa a ningún servidor para obtener los resultados resultados.
- En ciertos procesos que requieren de una capacidad de cálculo mayor o necesitan de un modelo de lenguaje de más parámetros, se envían fragmentos de la información al Private Cloud de Apple Intelligence.
- Estos fragmentos de información están anonimizados, cifrados (ni quiera Apple puede verlos) y contienen la información mínima esencial para procesar y devolver esta respuesta más compleja. Cuando se envía la respuesta, los datos no se almacenan en esta nueva nube de Apple Intelligence.
- Los rumores de que Apple usaría su nube privada para cargar los datos personales de los usuarios en los dispositivos no compatible no son ciertos: no van a guardar todos los datos personales fuera del dispositivo nunca (además, por diseño, ni siquiera los resultados de estas peticiones son persistentes en sus servidores).
- El diseño de Apple Intelligence esta basado 100% en esta tecnología, no utiliza ChatGPT para funcionar. Sin embargo, Apple entiende que hay otros modelos de lenguaje mayores que pueden ayudar al usuario a tareas donde no se necesitan datos personales (hacer una receta, reparar algo...) o están entrenados en áreas concretas de conocimiento (modelos médicos, de ingeniería...) con un expertise determinado y experto.
- ChatGPT es sólo un complemento extra a Apple Intelligence, y se puede incluso bloquear su uso totalmente desde una opción del sistema operativo - para utilizar sólo Apple Intelligence y nada más.
En resumen: Apple Intelligence es un nuevo sistema de inteligencia artificial desarrollado por Apple, basado en modelos de lenguaje entrenados y curados propios. Está orientado hacia la privacidad y la practicidad, combinando la computación local en el dispositivo con sus Neural Engine más modernos y el apoyo de modelos de lenguaje más grandes y potentes procesados en una nueva nube privada basada en Apple Silicon.
El contexto personal, el punto de partida
Apple Intelligence tiene como punto de partida el contexto de los datos personales que almacenamos en el iPhone, incluidas las aplicaciones. Todo ese conjunto de datos se utiliza para entender nuestras preguntas de forma natural. Esta es una de las primeras pruebas que vi.
Fuimos a la demostración a una sala del Apple Park. Encima de aquella mesa de madera, un MacBook Pro, un iPad Pro y un iPhone 15 Pro - tenía delante de mi a los primeros dispositivos con Apple Intelligence funcionando. La salida oficial de este tecnología está prevista para la segunda mitad del 2024. Me quedé mirándolos fijamente antes de empezar la reunión, cómo si aquellos dispositivos debieran tener algo que físicamente los diferenciara.
Obviamente eran idénticos a los que ya conocemos. Empezamos la demostración por el Mac: en Mail, se ponía a prueba la capacidad de escritura inteligente. Un mail, al que se le podía cambiar el contexto y el sentido seleccionándolo de una lista. Estas opciones aparecerán automáticamente, y sin necesidad de que los desarrolladores toquen una sola linea de código, en cualquier campo de texto estándar.
Al seleccionar cualquiera de estas opciones, empezaron los fuegos artificiales. Literalmente, Apple ha creado una nueva interfaz distintiva para entender que estamos creando o modificando algo con IA: las letras del texto comenzaron a cambiar de color y ordenarse, dando un nuevo sentido al texto. Me sorprendió la velocidad de respuesta, prácticamente inmediata.
Las opciones del modo texto están centradas en los resultados: con el resto de pruebas, entendí que el objetivo de Apple es ser útil para el usuario - que no se pierda en prueba y error hablando con una IA. Los cambios de escritura se pueden seleccionar entre amigable, profesional o conciso. Estoy convencido que estas tres categorías han tenido detrás un buen proceso de debate interno antes de escogerlas - porque son apropiadísimas para el día a día.
También podemos crear un sumario, extraer los puntos clave, convertir en tabla o incluso en listas. Pedirle a la AI que lo revise o reescribirlo completo. Si no nos cuadran estas opciones, no hay problema: podemos describir el cambio y el sistema lo hará por nosotros.
Como digo, después de varias pruebas, me sorprendió la velocidad de respuesta - aunque también la precisión de la misma. No había “palabras en falso”, no había alucinaciones ni cosas que no encajaran - todo estaba muy bien acotado y focalizado según el contexto original.
Con las imágenes pasa algo similar: este era un punto delicado para la compañía. No pueden caer en problemas con los resultados de una IA sin control, por lo que su modelo de lenguaje ha sido entrenado y curado hasta el extremo.
Con las imágenes pudimos ver tres pruebas: la primera de ellas es la generación de los Genmoji - que funciona como podemos esperar. Describimos lo que queremos encontrar, y al instante aparecen tres variaciones del resultado. Estos Genmoji los podemos enviar a cualquier persona incluso aunque no tenga iOS 18, ya que llegarán como stickers.
La parte del Image Playground es interesantísima y más potente. El modelo de Apple no permite imágenes fotorealistas, probablemente para esquivar los problemas que pueda causar el uso de imágenes reales creadas por IA. En lugar de ello, podemos elegir entre tres estilos de creación: animación, ilustración o boceto.
Image Playground sirve para generar imágenes basadas en nuestras descripciones, pero es más interesante la prueba que pude ver: un esbozo de un templo en una página de Freeform se convirtió al instante en un imagen perfectamente creada simplemente al rodear con un círculo el esbozo usando un Apple Pencil. No sólo había entendido los trazos que torpemente intentaban representar un templo, sino que había leído el resto de la hoja para entender que debería haber ahí, y crearlo. Puede ser una hoja de Freeform, un email en Mail o una presentación en keynote (y muchos más casos), por ejemplo. Muy impresionante. Y de nuevo, con una velocidad asombrosa.
Otro de los ejemplos que vimos, fue el típico de borrar a una persona que “sobra” en una foto, el típico “photobomb”. Simplemente con señalar a esa persona, desaparece - sin rastros, marcas o artefactos en el lugar donde estaba antes. Sin embargo, esto no es lo impresionante: lo que más me gustó fue el modo “hazlo tu”. Diciéndole a Apple Intelligence que te mejore la foto. La IA revisa la foto, entiende quien está en primer plano, mirando a la cámara y entiende quienes se conocen o son parte protagonista de la misma. Luego ¿ella? misma borró a las personas que sobraban y realzó los parámetros de la foto. En unos segundos.
Para seguir entendiendo la potencia de esto: todo lo que vimos esta procesado en local, en el dispositivo, no llama a los servidores privados. Sólo en casos concretos y muy específicos de comprensión de texto se llama a la nube (si el texto es muy complejo). En el caso de las imágenes, siempre se procesan en local. Aquí viene algo que me encantó como concepto: Apple Intelligence, al basarse en modelos locales, es perfectamente usable aunque no tengamos conexión en nuestro dispositivo (por ejemplo, en un avión sin conectividad) - porque utiliza la potencia de las NPUs Neural Engine para procesar todo en local.
Siri con Apple Intelligence parece aún mejor que la Siri que soñábamos
Literalmente me quedé sin palabras al entender las nuevas capacidades de nuestra vieja amiga Siri, complemente renovada. Olvidaos de lo que conocéis de ella en los dispositivos actuales. Ahora es capaz de contestarnos a prácticamente cualquier pregunta con la información de nuestros dispositivos, de forma absolutamente natural.
Y no me refiero sólo a las respuestas. También a cómo le pedimos las cosas. La persona de Apple, invocó a Siri pulsando el botón lateral de un iPhone 15 Pro, y un resplandor apareció como un oleaje desde él al resto de rincones de la pantalla. Al hablarle a Siri, se equivocó a propósito (la pregunta fue similar a esta): “Oye Siri quiero que envíes un mensaje a María, para decirle que voy a llegar tarde al concierto al que me invitó el otro día... bueno no, perdona, envíaselo mejor a Jorge y dile que trataré de llegar a tiempo”. ¿Os imagináis la respuesta de la Siri actual a esto?
Sin embargo, la Siri con Apple Intelligence sabía a que concierto se refería el usuario porque había revisado sus mensajes y sabia quien nos había invitado, a qué María o que Jorge se refería y qué tenía que cambiar del mensaje y del destinatario - en una sola sentencia, tal como hablaríamos con una persona real. Luego podemos continuar porque Siri AI entiende el contexto: “Añade un recordatorio en mi calendario”. Y si le volviéramos a preguntar mañana, recordaría esta conversación y actuaría a partir de ello.
Apple Intelligence no es una nueva característica de los nuevos sistemas operativos. Es un cambio profundo en el corazón de todos ellos, que integra estos modelos de lenguaje a nivel de sistema y ofrece “out of the box” todas estas capacidades. Si los desarrolladores quieren aprovecharlas al máximo, a partir de esta WWDC24 van a tener las herramientas para ello: se llaman App Intents y permiten la interrelación de estas apps con la IA y el resto del sistema.
Por ejemplo, si le pedimos a Siri: “Coge la foto que me envió el otro día mi hermana y añádela al email que tengo en borradores”, Apple Intelligence usará el motor de la app de Vista Previa para coger la imagen, recortarla o mejorarla si hace falta y usará mail para buscar el correo que le pedimos y poner la foto. Todo sucede “bajo el capó”, es decir, no hay botones que aceptar o seguir un proceso entre aplicaciones en el que tengamos que intervenir.
Me gustó que la demo, a pesar de estar obviamente en pruebas internas cerradas, fue muy dinámica. No era algo guionizado, y la persona de Apple que nos estaba mostrando las funcionalidades, cuando tenía una duda sobre si algo funcionaba, se lo preguntaba por ejemplo a la nueva Siri para ver el resultado real. En ningún momento se colgó, devolvió un resultado extraño o tuvo algún problema. Mi sensación es que todo esto está más preparado de lo que Apple reconoce, pero quieren ser cautos con el lanzamiento.
Este demostración fue sólo de unos 20 minutos, pero entendí que claramente estaba viendo algo del futuro que será habitual en nuestras vidas muy pronto. La IA de Apple no buscaba el impresionar por la propia tecnología en sí - en lugar de eso, han creado algo potente, privado y muy responsable, evitando alucinaciones y siendo increíblemente práctico y útil. Obviamente hay miles de casos de uso más, que sólo los que hemos probado aquí - pero sinceramente casi todo parece posible ahora.
Si queréis conocer más detalles de nuestras primeras impresiones, esta semana hemos tenido la oportunidad de grabar un podcast muy personal en el mismísimo Apple Podcast Studio del Apple Park. Junto con el creador de contenido Víctor Abarca y el periodista Angel Jimenez, repasamos nuestras opiniones después de ver Apple Intelligence - así como el resto de novedades de la WWDC24. La primera parte de este podcast la tenéis en el episodio de esta semana de Las Charlas de Applesfera, y la segunda parte, en el episodio de Binarios de Ángel.
Estos son solos los primeros minutos del futuro: el punto de partida estable y pensado del que se evolucionará a partir de aquí, y con una aproximación muy marca de la casa que ha cumplido con creces las expectativas que teníamos. Es probable que en los próximos meses veamos incluso alguna mejora más antes de la versión final. Sin duda, esta es la IA para el resto de nosotros (como la presentó Apple como homenaje al lanzamiento del Macintosh) - que seguiremos muy de cerca a partir de ahora.
En Applesfera | Resumen de la WWDC24 de Apple
Ver 15 comentarios