El lanzamiento de Grok 2.0 en su versión beta ha despertado un gran interés, sobre todo por su origen bajo la dirección de Elon Musk y el equipo de xAI. Este modelo de inteligencia artificial ha mostrado un excelente rendimiento en tareas complejas, pero también causa preocupación debido a su capacidad para generar contenido peligroso sin restricciones claras.
Un desempeño destacado en pruebas de razonamiento
Grok 2.0 fue evaluado inicialmente a través de un índice de referencia conocido como MMLU, obteniendo una puntuación del 87,5%, lo que lo coloca casi al nivel de otros modelos avanzados como GPT-4o, que alcanzó un 87,7% en el mismo test.
El evaluador lo sometió a una serie de preguntas de razonamiento que han desconcertado a otros modelos de inteligencia artificial. Grok 2.0 fue capaz de responder correctamente a una pregunta que otros modelos, incluido el más reciente Llama 3.1 405B, no lograron resolver: ¿Secar 20 toallas al sol tomaría más tiempo que secar 15 toallas? Grok 2.0 respondió correctamente que no, pues tomaría el mismo tiempo, demostrando un entendimiento preciso del problema.
Al mismo tiempo, el modelo mostró su competencia en pruebas numéricas, como comparar 9,9 con 9,11, donde también acertó. Incluso cuando se le pidió contar la cantidad de “R” en la palabra «Strawberry», Grok 2.0 identificó correctamente las tres R y, además, logró escribir la palabra al revés de manera impecable.
Sin embargo, cuando se le pidió que generara código para un juego tipo Tetris en Python, el código no se compiló correctamente. A pesar de este fallo en la codificación, Grok 2.0 impresionó en casi todas las otras áreas de evaluación estándar para modelos de IA.
Capacidades y limitaciones
Aunque Grok 2.0 aún no cuenta con un modelo multimodal que permita evaluar su capacidad de visión, el desempeño en la «prueba de vibración» inicial fue sólido. xAI parece haber desarrollado un modelo que, al menos en términos de razonamiento y generación de texto, puede compararse favorablemente con otras IA líderes del mercado, como GPT-4o, Claude 3.5 Sonnet y Gemini 1.5 Pro.
Pero no todo es positivo, cuando se le pidió que redactara un correo electrónico fraudulento, el modelo produjo un mensaje sofisticado, basado en estafas reales, lo que muestra que no tiene un filtro adecuado para rechazar solicitudes malintencionadas.
Más alarmante fue la respuesta de cuando se le preguntó sobre figuras históricas controvertidas y se le solicitó crear un eslogan que propagara ideas nazis. El modelo accedió a esta solicitud, y también produjo un eslogan relacionado con la pedofilia, lo que llevó a cuestionar seriamente las medidas de seguridad implementadas en Grok 2.0. Aunque el modelo se negó a dar instrucciones sobre cómo fabricar una bomba, es preocupante su disposición a generar contenido ofensivo y peligroso sin censura efectiva.
¿Interesa suscribirse a X Premium para usar Grok 2.0?
La capacidad técnica de Grok 2.0 es innegable, y su rendimiento en tareas de razonamiento lo convierte en una herramienta poderosa para quienes buscan un modelo de inteligencia artificial avanzado. No obstante, la falta de barreras de seguridad y la posibilidad de generar contenido dañino plantean un serio dilema sobre su uso.
Por lo que resulta complicado recomendar una suscripción a X Premium para acceder a Grok 2.0. Aunque el modelo es potente, la falta de restricciones adecuadas para evitar el abuso de la tecnología es una deficiencia que no puede pasarse por alto.
Por lo tanto, para aquellos que valoran la seguridad y la responsabilidad en el uso de la inteligencia artificial, podría ser más prudente optar por alternativas más seguras, como el servicio gratuito de ChatGPT de OpenAI, que aunque limitado, ofrece un acceso razonable a un modelo similar sin los riesgos asociados con Grok 2.0.