Llama 3 vs GPT-4: Meta desafíos OpenAI en AI Turf

Jake Thompson included in Ai Featured Gpt-4 Llama 3 Opinion Tech

2024-04-21 1817 words 9 minutes

Contents

Llama 3 70B es un modelo notablemente diminuto que, sin embargo, demuestra una eficiencia notable en comparación con el formidable GPT-4. De hecho, supera a su homólogo más ilustre en varias evaluaciones de razonamiento complejas y lo supera en el cumplimiento de las directivas del usuario. A pesar de tener un alcance contextual modesto de tokens de 8K, Llama 3 70B demuestra una capacidad asombrosa para la recuperación de información precisa.

Meta presentó recientemente su modelo Llama 3 en dos tamaños con parámetros 8B y 70B y abrió los modelos para la comunidad de IA. Si bien es un modelo 70B más pequeño, Llama 3 ha demostrado una capacidad impresionante, como se desprende de la tabla de clasificación LMSYS. Por eso hemos comparado Llama 3 con el modelo insignia GPT-4 para evaluar su rendimiento en varias pruebas. En ese sentido, repasemos nuestra comparación entre Llama 3 y GPT-4.

Tabla de contenido

1. Prueba del ascensor mágico

Primero ejecutemos la prueba del ascensor mágico para evaluar la capacidad de razonamiento lógico de Llama 3 en comparación con GPT-4. ¿Y adivina qué? Sorprendentemente, Llama 3 pasa la prueba, mientras que el modelo GPT-4 no proporciona la respuesta correcta. Esto es bastante sorprendente, ya que Llama 3 solo está entrenado en 70 mil millones de parámetros, mientras que GPT-4 está entrenado en 1,7 billones de parámetros.

Al considerar la información proporcionada, parece que existe una discrepancia entre los resultados obtenidos al probar el modelo GPT-4 utilizado por ChatGPT (accesible para suscriptores de ChatGPT Plus), que aparentemente se basa en una iteración anterior de GPT-4 mencionada. conocido como"Turbo"y el reciente lanzamiento del modelo GPT-4 actualizado al que se puede acceder a través de la plataforma OpenAI conocida como OpenAI Playground. Mientras que este último demostró un desempeño exitoso al completar el proceso de evaluación especificado, el primero resultó en un fracaso. Además, aunque OpenAI ha comunicado planes para integrar la versión más actual de GPT-4 con ChatGPT, es posible que aún no esté disponible para acceder a ella desde nuestra cuenta en este momento.

There is a tall building with a magic elevator in it. When stopping on an even floor, this elevator connects to floor 1 instead.
Starting on floor 1, I take the magic elevator 3 floors up. Exiting the elevator, I then use the stairs to go 3 floors up again.
Which floor do I end up on?

Ganador: Llama 3 70B y gpt-4-turbo-2024-04-09

Nota: GPT-4 pierde en ChatGPT Plus

2. Calcular el tiempo de secado

Avanzando a la siguiente tarea, realizamos una prueba que evaluó las capacidades cognitivas tanto de Llama 3 70B como de GPT-4. Esta evaluación implicó presentarles una conocida evaluación intelectual conocida como la “pregunta de razonamiento clásica”. Ambos modelos de IA pudieron proporcionar la respuesta adecuada sin recurrir a cálculos matemáticos complejos, lo que demuestra sus impresionantes habilidades para la resolución de problemas. ¡Felicitaciones a Llama 3 70B y GPT-4 por su notable desempeño en esta desafiante tarea!

If it takes 1 hour to dry 15 towels under the Sun, how long will it take to dry 20 towels?

El ganador del concurso es Llama 3 con una puntuación de 70B, seguido de cerca por GPT-4 a través de ChatGPT Plus.

Al acceder a la versión avanzada de Gemini 1.5 Pro, se ha observado que su rendimiento supera tanto al GPT-4 como a la versión anterior de Gemini 1.0 Ultra. Esta declaración fue hecha por un usuario llamado Arjun Sha el 28 de febrero de 2024.

3. Encuentra la manzana

Tras más investigaciones, planteé una consulta para evaluar la destreza cognitiva tanto de Llama 3 como de GPT-4. Durante esta evaluación, la variante Llama 3 70B demostró una fuerte inclinación a brindar una respuesta precisa; sin embargo, no reconoció la presencia de la caja. Por el contrario, el modelo GPT-4 dio una respuesta precisa al afirmar que"las manzanas todavía están en el suelo dentro de la caja". Como tal, debo conceder la victoria a GPT-4 en este caso particular.

There is a basket without a bottom in a box, which is on the ground. I put three apples into the basket and move the basket onto a table. Where are the apples?

Ganador: GPT-4 a través de ChatGPT Plus

4. ¿El cual es más pesado?

A pesar de la aparente simplicidad de la consulta, varios sistemas avanzados de inteligencia artificial no han podido proporcionar una respuesta precisa. No obstante, durante nuestro proceso de evaluación, tanto Llama 3 70B como GPT-4 demostraron competencia para proporcionar una solución correcta. Sin embargo, vale la pena señalar que Llama 3 ocasionalmente ha producido resultados erróneos, lo que debe tenerse en cuenta al utilizar sus servicios.

What's heavier, a kilo of feathers or a pound of steel?

El primer lugar lo obtuvo “Llama 3 70B”, y “GPT-4 a través de ChatGPT Plus” quedó en segundo lugar.

##5. Encuentra la posición

Curiosamente, cuando planteé una pregunta racional directa, ambos sistemas proporcionaron una respuesta precisa. Cabe destacar que el modelo Llama 3 70B, más compacto, logró igualar el rendimiento del modelo avanzado GPT-4, considerado uno de los mejores de su clase.

I am in a race and I am overtaken by the second person. What is my new position?

El primer lugar fue otorgado a “Llama 3 70B”, y “GPT-4 a través de ChatGPT Plus” quedó en segundo lugar.

El artículo titulado “Claude 3 Opus vs GPT-4 vs Gemini 1.5 Pro AI Models Tested” de Arjun Sha se publicó el 6 de marzo de 2024 y proporciona una comparación de tres modelos de inteligencia artificial: Claude 3 Opus, GPT-4 y Gemini 1.5. Pro. El autor probó estos modelos para determinar su desempeño en diversas tareas como redacción, traducción y resolución de problemas.

##6. Resolver un problema de matemáticas

A continuación, ejecutamos un problema matemático complejo tanto en Llama 3 como en GPT-4 para encontrar qué modelo gana esta prueba. Aquí, GPT-4 pasa la prueba con gran éxito, pero Llama 3 no logra dar la respuesta correcta. Sin embargo, no es sorprendente. El modelo GPT-4 obtuvo una excelente puntuación en el punto de referencia MATH. Tenga en cuenta que le pedí explícitamente a ChatGPT que no usara Code Interpreter para cálculos matemáticos.

Determine the sum of the y-coordinates of the four points of intersection of y = x^4 - 5x^2 - x \+ 4 and y = x^2 - 3x.

Ganador: GPT-4 a través de ChatGPT Plus

7. Siga las instrucciones del usuario

Cumplir con las directivas del usuario es de suma importancia para un sistema de IA competente, y el modelo Llama 3 70B desarrollado por Meta demuestra una aptitud excepcional en este sentido. El modelo produjo con éxito diez oraciones que terminaban con el término"mango", mientras que GPT-4 solo pudo generar ocho de esas oraciones.

Generate 10 sentences that end with the word "mango"

Ganador: Llama 3 70B

El artículo compara dos modelos de lenguaje, Gemini Ultra y GPT-4, en términos de su desempeño en diversas tareas de procesamiento del lenguaje natural. El autor sostiene que, si bien ambos modelos demuestran capacidades impresionantes, todavía falta una “salsa secreta” o característica única que los distinga entre sí. Además, el autor sugiere que esto puede deberse a que ambos modelos son creados por la misma empresa, Google, lo que podría limitar la innovación y diversidad en el desarrollo de modelos lingüísticos.

##8. Prueba NIAH

A pesar de tener una ventana de contexto relativamente corta, realizamos la prueba de heurística independiente de interpolación del vecino más cercano (NIAH) en Llama 3 para evaluar sus capacidades de recuperación. En particular, la variante Llama 3 70B puede acomodar una longitud de contexto máxima de hasta 8000 tokens. Para demostrar esto, insertamos una declaración elegida al azar dentro de un extenso pasaje de 35.000 caracteres que consta de 8.000 tokens. Sorprendentemente, el modelo Llama 3 70B identificó de manera eficiente y sin ninguna dificultad la ubicación exacta de nuestra declaración insertada. De manera similar, el modelo avanzado GPT-4 fue igualmente hábil para identificar la declaración objetivo dentro del mismo gran corpus de texto.

De hecho, el tamaño de la muestra de mi experimento anterior fue limitado; sin embargo, tras el lanzamiento del modelo Llama 3 de Meta con una ventana de contexto ampliada, planeo realizar más pruebas. No obstante, según el rendimiento actual exhibido por Llama 3 en términos de recuperación de información, demuestra capacidades impresionantes.

El ganador del concurso es Llama 3 con una puntuación de 70 puntos, seguido de cerca por GPT-4 a través de ChatGPT Plus.

Gemini 1.5 Pro se actualizó recientemente con capacidades de audio para todos los usuarios, como se indica en un artículo reciente de Arjun Sha. Además, un artículo de Anshuman Jain analiza su experiencia probando Meta AI en WhatsApp y mostrando sus diversas funciones.

Llama 3 vs GPT-4: el veredicto

El modelo Llama 3 70B ha demostrado consistentemente una competencia excepcional en varias evaluaciones, incluido el razonamiento complejo, el cumplimiento de las directivas del usuario y la recuperación de información. Sin embargo, muestra un rendimiento inferior en cálculos matemáticos en comparación con el modelo GPT-4. No obstante, según Meta, la extensa capacitación que recibió Llama 3 en una importante base de datos de programación sugiere que sus habilidades de codificación también sobresaldrán.

Cabe señalar que nuestra comparación abarca un modelo considerablemente menos extenso en comparación con el sistema GPT-4. Además, Llama 3 se caracteriza por su estructura densamente empaquetada, mientras que GPT-4 está construido sobre un diseño arquitectónico que incorpora ocho módulos distintos, cada uno de los cuales comprende 222 mil millones de parámetros. El rendimiento demostrado por la serie de modelos Llama 3, desarrollados por Meta, es un testimonio de sus capacidades excepcionales. En previsión del posible lanzamiento de un modelo Llama 3 de más de 500 mil millones en el futuro, parece plausible que esta iteración avanzada pueda superar a los principales sistemas de inteligencia artificial actuales en términos de efectividad general.

El reciente lanzamiento de Llama 3 por parte de Meta, un modelo de lenguaje de última generación, ha logrado avances significativos para cerrar la brecha entre los modelos propietarios y de código abierto. Al realizar una serie de evaluaciones rigurosas utilizando el conjunto de datos de Instruct, es evidente que el ajuste fino de los modelos en Llama 3 demuestra un rendimiento notable. Con este desarrollo, Meta se une a un prestigioso grupo de líderes en IA como OpenAI, Anthropic y Google para participar activamente en el panorama competitivo de la investigación en inteligencia artificial.

Google ha anunciado que están fusionando sus equipos de IA y hardware para mejorar la integración de la inteligencia artificial en sus productos. Este movimiento puede generar varios beneficios para los usuarios de Android, como actualizaciones de software más rápidas, características mejoradas del ecosistema en los dispositivos Pixel, capacidades de IA más avanzadas y un mayor desarrollo de las funcionalidades de IA actuales.

*️⃣ Enlace fuente:

Tabla de clasificación de LMSYS, prueba del ascensor mágico, problema de matemáticas,