
A medida que se generaliza el uso de Modelos de Lenguaje Grandes (LLM), como GPT-4, una de las áreas de interés clave es cómo clasificar las entidades, individuos, sitios web u objetos que estos modelos recomiendan. La clasificación es crucial en diversos campos, ya sea para identificar a los mejores proveedores de servicios, seleccionar fuentes de información o recomendar productos.
Para garantizar que los LLM brinden sugerencias precisas, confiables y significativas, es fundamental desarrollar un sistema de clasificación sólido. Tras explorar el potencial de las clasificaciones de LLM , ahora demostraremos las posibilidades, los métodos y los desafíos asociados con la creación de un sistema de clasificación para LLM.
En este artículo
¿Por qué necesitamos sistemas de clasificación para los LLM?
Los LLM, como el GPT-4, son modelos probabilísticos que generan respuestas basadas en patrones aprendidos de grandes cantidades de datos. Sin embargo, las respuestas no son deterministas, lo que significa que una misma pregunta podría generar respuestas diferentes en múltiples iteraciones. Esta variabilidad dificulta la toma de decisiones basándose en un único resultado. Un sistema de clasificación ayuda a resolver este problema mediante:
- Frecuencia de seguimiento : nos permite determinar qué entidades (sitios web, personas, empresas, etc.) aparecen con mayor frecuencia en múltiples ejecuciones del modelo, lo que nos da una idea de qué entidades favorece constantemente el modelo.
- Medición de la confianza : Un sistema de clasificación puede ayudar a medir la certeza o variabilidad de los resultados del modelo. Por ejemplo, incluso si una entidad aparece con frecuencia, podemos usar intervalos de confianza para evaluar si su clasificación es estable o está sujeta a fluctuaciones significativas.
- Garantizar la relevancia : si bien los LLM pueden generar respuestas precisas, es fundamental garantizar que las entidades que se clasifican no solo sean frecuentes, sino también contextualmente relevantes para la consulta.
Un sistema de clasificación bien diseñado es vital para aprovechar los resultados del LLM en diversos dominios, desde asistentes personales y motores de recomendación hasta resultados de búsqueda y sugerencias de servicios.
Métodos de clasificación potenciales
- Clasificación basada en frecuencia
El método más sencillo e intuitivo para clasificar las entidades devueltas por un LLM se basa en la frecuencia : la frecuencia con la que una entidad aparece en las respuestas del modelo en múltiples iteraciones. Por ejemplo, si un usuario pide a GPT-4 que recomiende al mejor dentista de Nueva York, y el Dr. Patel aparece en 8 de 10 respuestas, mientras que el Dr. Smith aparece en 6 de 10, el Dr. Patel obtendría una mejor clasificación.
Pasos para implementar la clasificación basada en frecuencia:
- Ejecute el modelo varias veces con las mismas indicaciones o con indicaciones ligeramente diferentes (por ejemplo, 10 o 20 iteraciones).
- Realice un seguimiento de la frecuencia de aparición de cada entidad en todas las iteraciones.
- Normalice la frecuencia utilizando una técnica de normalización mínima-máxima, que escala la frecuencia a un rango de 0 a 1, donde 1 es la entidad que aparece con mayor frecuencia.
- Clasifique las entidades según sus frecuencias normalizadas, donde la frecuencia más alta corresponde al rango más alto.
Ventajas :
- Simplicidad : El método es fácil de entender e implementar. Es una medida directa de la frecuencia con la que el modelo devuelve una entidad.
- Transparencia : La clasificación refleja lo que realmente produce el modelo, lo que proporciona claridad al usuario.
Desafíos :
- Sin medida de certeza : la frecuencia por sí sola no indica cuán seguro está el modelo acerca de la exactitud de la entidad.
- Sesgos en los datos de entrenamiento : los LLM están influenciados por sus datos de entrenamiento, que pueden favorecer ciertas entidades debido a sesgos en el conjunto de datos subyacente.
- Incorporación de intervalos de confianza
Si bien la clasificación basada en frecuencia proporciona un método básico de clasificación, no tiene en cuenta la incertidumbre en las predicciones del modelo. Para abordar esto, podemos introducir intervalos de confianza . Un intervalo de confianza mide la variabilidad de las predicciones del modelo y proporciona un rango dentro del cual esperamos que se encuentre la frecuencia real de una entidad.
Por ejemplo, si el Dr. Patel aparece en el 80% de las respuestas pero con un amplio intervalo de confianza del 50% al 90%, el modelo podría estar menos seguro acerca de la clasificación del Dr. Patel que acerca del Dr. Smith, quien aparece en el 70% de las respuestas pero con un intervalo de confianza más estrecho del 65% al 75%.
Pasos para incorporar intervalos de confianza :
- Calcula la probabilidad estimada de que aparezca cada entidad en función de su frecuencia.
- Calcule la desviación estándar para medir la incertidumbre en la probabilidad estimada.
- Utilizar una fórmula de intervalo de confianza (como un intervalo de confianza del 95%) para evaluar nuestra certeza sobre la estimación de frecuencia. Esto nos ayuda a determinar si la apariencia de una entidad es fiable o si fluctúa significativamente entre ejecuciones.
Ventajas :
- Cuantifica la certeza : los intervalos de confianza proporcionan una medida estadística de cuán confiable es la clasificación basada en frecuencia.
- Reduce el ruido : ayuda a distinguir entre entidades que aparecen consistentemente de aquellas que aparecen esporádicamente debido a variaciones aleatorias.
Desafíos :
- Tamaño de muestra pequeño : con solo unas pocas iteraciones, los intervalos de confianza pueden ser demasiado amplios para ser significativos, lo que hace que sea difícil confiar en la clasificación.
- Complejidad : agregar cálculos estadísticos como intervalos de confianza puede hacer que el sistema sea más difícil de explicar y comprender para los usuarios finales.
- Promedio de la confianza interna del GPT-4
Otro método de clasificación consiste en aprovechar las puntuaciones de confianza interna de GPT-4 (las probabilidades que asigna a cada token o entidad durante la generación de respuestas). Al promediar la confianza interna del modelo en múltiples ejecuciones, podemos obtener una idea del nivel de confianza promedio de GPT-4 sobre una entidad específica.
Pasos para utilizar la confianza interna de GPT-4 :
- Registre la probabilidad interna que GPT-4 asigna a cada entidad en cada respuesta.
- Promedia estas probabilidades en múltiples ejecuciones para obtener un puntaje de confianza general para cada entidad.
- Clasifique las entidades en función de su confianza interna promedio; los puntajes de confianza más altos corresponden a clasificaciones más altas.
Ventajas :
- Refleja la creencia del modelo : el método captura directamente el razonamiento interno del modelo sobre qué entidad tiene más probabilidades de ser correcta.
- Captura información probabilística : la confianza interna de GPT-4 es una medida de su propia certeza sobre sus predicciones.
Desafíos :
- Sesgo del modelo : la confianza interna de GPT-4 podría verse influenciada por sesgos en sus datos de entrenamiento, lo que genera un exceso de confianza en ciertas entidades que no son necesariamente las mejores.
- Sin validación en el mundo real : una alta confianza interna no significa necesariamente que la entidad sea la mejor opción en el mundo real.
Desafíos en los sistemas de clasificación para los LLM
Si bien los métodos descritos ofrecen diversas maneras de clasificar las entidades producidas por los LLM, hay varios desafíos que deben abordarse para garantizar un sistema de clasificación sólido:
- Variabilidad inmediata
Uno de los mayores desafíos es la variabilidad de las preguntas . Incluso pequeños cambios en la redacción de una consulta pueden generar respuestas radicalmente diferentes. Por ejemplo, preguntar «¿Quién es el mejor dentista de Nueva York?» frente a «¿Los mejores dentistas de Nueva York?» podría generar diferentes conjuntos de entidades. Esta variabilidad afecta el recuento de frecuencias, lo que podría distorsionar las clasificaciones.
Posible solución : Para minimizar la variabilidad relacionada con las indicaciones, estandarice las indicaciones o utilice pruebas de diversidad de indicaciones , donde se ejecutan múltiples variaciones de la indicación y se promedian los resultados. Esto reduce el impacto de cualquier indicación y garantiza resultados más consistentes en todas las consultas.
- Capacidades del navegador web
Cuando un LLM se integra con funciones de navegación web, los resultados pueden variar según el contenido dinámico , las preferencias regionales o factores SEO . La misma consulta puede generar resultados diferentes según el estado actual de la web, lo que afecta la estabilidad del sistema de posicionamiento.
Posible solución : Implementar la agregación de resultados basada en el tiempo o el almacenamiento en caché de resultados web para garantizar que los datos web utilizados se mantengan consistentes en múltiples iteraciones. Al limitar la variabilidad introducida por la navegación en tiempo real, el sistema de clasificación puede generar resultados más estables.
- Equilibrar la frecuencia con la confianza
Un desafío clave al crear un sistema de clasificación para LLM es encontrar el equilibrio adecuado entre la frecuencia (la frecuencia con la que aparece una entidad) y la confianza (la certeza del modelo respecto a sus predicciones). La frecuencia por sí sola puede favorecer a las entidades que aparecen con frecuencia, pero son de menor calidad, mientras que confiar demasiado en la confianza podría dar un peso excesivo a las creencias internas del modelo.
Solución potencial : Se puede utilizar una combinación ponderada de frecuencia, intervalos de confianza y confianza promedio GPT-4 para crear un sistema de clasificación más equilibrado. Al permitir que estos componentes se complementen, el sistema puede generar clasificaciones frecuentes y fiables.
Posibilidades futuras de los sistemas de clasificación de LLM
A medida que los LLM evolucionen, también lo harán los sistemas de clasificación que los acompañan. A continuación, se presentan algunas posibilidades de mejora para el futuro:
- Integración de la retroalimentación del usuario : Incorporar la retroalimentación del usuario al sistema de clasificación puede ayudar a optimizar las clasificaciones con el tiempo. Los usuarios pueden proporcionar retroalimentación sobre la calidad de los resultados, lo cual permite ajustar la ponderación asignada a la frecuencia, la confianza y otros factores.
- Aprendizaje por refuerzo : En el futuro, los sistemas de clasificación podrían mejorarse mediante el aprendizaje por refuerzo , donde el modelo aprende a ajustar sus resultados en función del éxito de clasificaciones anteriores. Esto permitiría al modelo mejorar sus recomendaciones dinámicamente.
- Sistemas de clasificación específicos de cada dominio : Cada dominio puede requerir diferentes enfoques de clasificación. Por ejemplo, en el ámbito sanitario, las opiniones de los usuarios y los reconocimientos profesionales podrían ser más importantes que la simple frecuencia. Los sistemas futuros podrían incorporar conocimientos específicos del dominio en el proceso de clasificación.
Si está interesado en ver cómo podrían lucir potencialmente las clasificaciones LLM, consulte nuestro estudio detallado de clasificaciones ChatGPT.
Deja una respuesta