markdown
Fijar, Extraer, Evaluar: Una Guía Práctica para Everything‑claude‑code
Reproducir el rendimiento del modelo en tareas de codificación depende de una cosa: disciplina de configuración. Con Claude Code, pequeños cambios en el muestreo o esquemas de herramientas pueden afectar el determinismo, interrumpir llamadas a herramientas o aumentar los costos. Lo que los equipos necesitan es un flujo de trabajo sin conjeturas: fijar una colección de configuración conocida, extraer cada parámetro directamente del repositorio, validar con una prueba de humo, ejecutar referencias de codificación estándar y capturar artefactos para trazabilidad. Esta guía ofrece todo eso de principio a fin.
El recorrido a continuación muestra cómo fijar la última colección de configuraciones en affaan‑m/everything‑claude‑code, extraer automáticamente un manifiesto legible por máquina de cada configuración, ejecutar una prueba de humo con un cliente Claude mínimo, ejecutar HumanEval, MBPP, SWE‑bench y LiveCodeBench, y estructurar ablaciones. También cubre la captura de métricas/registros, la comparación con etiquetas anteriores y configuraciones predeterminadas, la resolución de fallos comunes y el endurecimiento para CI. Terminarás con un pipeline repetible que todo tu equipo puede ejecutar: sin conjeturas, sin desviaciones, sin sorpresas de configuración.
Detalles de Arquitectura/Implementación
Requisitos previos y entorno
Necesitarás:
- Git, GitHub CLI (gh), curl, jq
- Python 3.9+ y pip
- ANTHROPIC_API_KEY exportado en la shell
- Opcional: Docker o sandbox específicos de lenguaje si ejecutas corredores de pruebas localmente
Variables de entorno recomendadas:
- ANTHROPIC_API_KEY configurado en tu shell o almacén de secretos de CI
- GH_TOKEN (opcional) para el CLI de GitHub con límites de API más altos
Fijar la última colección de configuraciones (etiqueta + SHA)
Siempre trabaja con una etiqueta fijada y un SHA de compromiso para que los resultados sean reproducibles.
Clona e inspecciona los lanzamientos:
- gh repo clone affaan-m/everything-claude-code && cd everything-claude-code
- gh release list —limit 50
- gh release view —latest —json tagName,url,publishedAt
Si no existen lanzamientos, vuelve a las etiquetas:
- git fetch —tags && git tag —sort=-creatordate | head -n 10
Fijar a una etiqueta:
- git checkout <TAG_NAME>
- git rev-parse HEAD > COMMIT_SHA.txt
Opcionalmente confirma el compromiso de la colección de configuraciones verificando directorios de configuración:
- git log -n 1 — config/ configs/ settings/ orchestration/ eval/
También puedes consultar los puntos finales REST de GitHub si el uso del CLI está restringido:
- curl -s https://api.github.com/repos/affaan-m/everything-claude-code/releases | jq ’. | {tag_name, published_at, html_url}’
- curl -s https://api.github.com/repos/affaan-m/everything-claude-code/tags | jq ’. | {name, commit}’
Registra tanto la etiqueta legible por humanos como el SHA exacto. Todas las extracciones, pruebas de humo y referencias deben referenciar estos identificadores.
Generar el manifiesto completo de configuración
El objetivo es extraer todos los valores concretos de configuración del repositorio: modelos, parámetros de mensajes, esquemas de herramientas, modo JSON, estrategias de contexto, configuraciones de índices de recuperación, tiempos de espera, reintentos y comandos de sandbox.
Instalar dependencias:
- python -m pip install pyyaml
Crea tools/extract_config.py con el siguiente contenido: