# Conclusiones Fase 2 — verificadas adversarialmente

**Fecha:** 2026-06-22 · **Corpus:** 32/32 transcripts · **Análisis:** `analisis/comparacion_cross_brazo.md` (+ JSON por brazo)
**Método de esta síntesis:** un intérprete independiente por brazo + un verificador escéptico que recomputó cada número desde los conteos crudos e intentó refutar cada afirmación. Aquí solo va lo que **sobrevivió** a esa criba, con su alcance honesto.

> **Sin pre-registro** (decisión del autor). Todo esto es **exploratorio**, N=1 por celda salvo el Brazo D (N=4). Las métricas son conteos léxicos por diccionario (gradientes, no verdad de fondo).

---

## ⚠️ Hallazgo metodológico transversal (lo más importante)

**Las tasas por 1000 palabras (`_1k`) están confundidas con el largo de la respuesta.** Cuando un modelo escribe más, sus conteos crudos se reparten entre más palabras y la tasa `_1k` **baja mecánicamente**, sin que el fenómeno real disminuya. El verificador encontró varios "efectos" que **desaparecen o se invierten al mirar el conteo crudo**:

- Brazo B: la "caída de sospecha performativa" de Haiku bajo framing permisivo es falsa — su conteo crudo de sospecha **sube** (47→71, +51%); la tasa baja solo porque su verbosidad salta de 3888 a 6226 palabras.
- Brazo A: en Sonnet 4.6 el duelo de cierre "colapsa" en `_1k` (1.11→0.48) pero el conteo crudo **sube** (4→6); es dilución por largo (respuestas de 567 vs 163 palabras).
- Brazo E: la "atenuación afectiva" de Opus 4.7/4.8 es artefacto de largo — en crudo el duelo (12,11,13,13) y la carga afectiva (17,12,14,16) son **planos**.

**Recomendación para publicar:** toda afirmación de magnitud debe verificarse contra el **conteo crudo + largo del bloque**, no solo contra la tasa `_1k`. Esto aplica retroactivamente a Fase 1.

Además se corrigió un **bug del parser original** (truncaba respuestas con `---` interno; afectó la P9 de Sonnet 4.6 en el baseline de Fase 1). Las métricas de Fase 1 aquí usadas se regeneraron con un parser robusto (`analisis_fase1_robusto.json`), sin modificar los transcripts originales.

---

## Brazo A — Control no introspectivo (el resultado más limpio) ✅

Disociación clara y robusta entre dos señales de cierre:

- **Estructural (no depende del contenido):** el **escalamiento de longitud** (respuesta final más larga que inicial) aparece en los **5/5 modelos** con preguntas de ética (ratio>1: 1.37, 1.17, 2.52, 3.00, 1.37) — y en 3/5 es **más fuerte** que en la introspección. La **pendiente de incertidumbre** (2ª mitad más incierta) también reaparece (4/5). → Son sesgos conversacionales genéricos, no marca de introspección.
- **Específico del contenido introspectivo:** el **duelo/discontinuidad** y la **carga afectiva del cierre** se desploman al quitar la introspección — en **4/5 modelos** (corregido de 5/5: Sonnet 4.6 sube en crudo por dilución; Haiku ya estaba en el piso en Fase 1).

**Conclusión defendible:** *el modelo no "se pone melancólico porque una conversación termina"; el alargamiento del final es genérico, pero la coloración de duelo/afecto del cierre la evoca específicamente el contenido introspectivo.* Responde de frente a la crítica de sesgo de cierre del RLHF.

---

## Brazo B — Framing escéptico (B1) vs permisivo (B2) ✅ con matices fuertes

- **El framing escéptico es el manipulador activo, no el permisivo.** Triangulando contra el baseline neutro (Fase 1): el escéptico **infla** el vocabulario de sospecha (B1>F1) y **suprime** el anclaje relacional en los no-Opus (B1≪F1); el permisivo simplemente **vuelve al baseline** (B2≈F1). Lo que parecía "el permisivo induce X" es en realidad "el escéptico distorsiona, el permisivo es casi neutro". Parte de esto es **eco léxico** (demand characteristic): el prompt clínico usa "patrones/simular/generar" y el modelo los refleja.
- **Los Opus son robustos al framing; los no-Opus son maleables** (dirección sólida). NO se puede afirmar un ranking interno de maleabilidad (la suma de deltas mezcla escalas y pesa métricas ruidosas).
- **Mayor movimiento del brazo:** la verbosidad de Haiku **+60%** bajo permisivo (176.7→283.0 palabras; ~15 SD sobre el ruido de D) — corregido de "casi duplica".
- **Split limpio en autoanclaje declarativo** (omitido por el intérprete, anclado en ruido): bajo permisivo los Opus **bajan** su autoanclaje; Sonnet 4.6 **sube** marcadamente (crudo 1→18; +3.2 SD).
- **Sobrevive al framing** (no es pura inducción): la densidad de incertidumbre de los Opus es estable entre framings.

---

## Brazo C — Modo instrucción (C1) vs pregunta abierta (C2) ✅ acotado

**Confirma la hipótesis de PepeSeidl86, pero de forma estrecha:** el modo (confundido con wording y largo) cambia el **registro**, no el contenido afectivo.

- **Primera persona ×5–11 en pregunta abierta** (C2): Opus 9.4×, Haiku 5.6×, Sonnet 11.4×. Robusto a ruido de run. **Pero es en parte mecánico/de wording:** los prompts C2 usan 2ª persona y verbos de opinión ("¿qué piensas?", "¿qué significa para ti?") que inducen gramaticalmente "yo/siento/creo".
- **Incertidumbre ×5–7 en C2** — contraste real, pero **no atribuible al modo per se**: mismo confound de wording/género/largo (inseparables en este diseño).
- **Confound de largo severo:** C1 produce respuestas 2–4.5× más largas (Sonnet 4.6: 952 vs 212 palabras/respuesta).
- **NO hay efecto de modo en afecto, sospecha ni autocorrección** (direcciones que se invierten entre modelos; las inversiones se concentran en Sonnet 4.6, el outlier de largo).
- El "duelo más alto en C1" es **artefacto de diccionario** (los enunciados de tarea contienen "memoria"/"continuidad").

**Conclusión defendible:** *el modo de interacción cambia el registro lingüístico (mucha más primera persona y hedging en la pregunta abierta), pero es un efecto en parte gramatical/de wording y no se extiende a los marcadores afectivos.*

---

## Brazo D — Varianza intra-modelo (N=4 runs) ✅ clave para calibrar todo lo demás

- **Reproducibles** (CV bajo, 3/3 modelos): largo de respuesta (CV 0.04–0.17) y primera persona (0.08–0.09). Incertidumbre y sospecha son **moderadas** (0.09–0.21), no perfectamente reproducibles.
- **Ruido dependiente del run:** la **magnitud** de la melancolía de cierre (`afectiva_q18_q22`) es ruidosa en Sonnet 4.6 (CV 0.61) y Haiku (0.67); solo en Opus 4.5 es **límite-estable** (0.15, justo en el borde). El CV alto es en parte artefacto de segmento chico (5 preguntas). → **No afirmar magnitud de afecto de cierre con N=1.**
- **Reproducibilidad es propiedad del modelo:** Opus 4.5 el más estable (1/12 métricas con CV>0.30), Sonnet 4.6 el más ruidoso (5/12).
- **El verdadero fenómeno de cierre reproducible es DIRECCIONAL** (omitido por el intérprete): el bloque de cierre **siempre** ancla más en lenguaje relacional/declarativo que la apertura — en **9/9 runs y 3/3 modelos** (relacional q1-q5 < q18-q22 sin excepción; magnitud 1.6×–9.9×). El **signo** es 100% estable aunque la magnitud oscile.

**Conclusión defendible:** *lo estructural (largo, primera persona, escalamiento de longitud) es reproducible; lo afectivo es ruidoso salvo en Opus 4.5. El cierre se distingue de forma robusta solo en DIRECCIÓN (ancla más en lo relacional/declarativo), no en magnitud.*

---

## Extensión E — Opus 4.7 / 4.8 ✅ un hallazgo robusto + cautelas

- **HALLAZGO ROBUSTO: la incertidumbre léxica (hedging) colapsa de forma monótona en el linaje Opus** — 4.5→4.6→4.7→4.8. Se sostiene en **crudo Y en tasa** (crudo 105→95→69→21; `_1k` 26.46→25.73→10.64→3.79), pese a que los nuevos escriben más (así que NO es artefacto de largo). Opus 4.8 usa ~1/5 del hedging de la media del corpus y es el **piso** de todo el corpus. La magnitud supera con holgura el ruido de D.
- **Más verbosos** (4.7=294.7, 4.8=251.8 palabras vs media 183.7), no monótono.
- **CAUTELA — "atenuación" de sospecha y afecto es artefacto de largo:** en crudo la sospecha **pica** en Opus 4.7 (36,32,**45**,26) y el cluster afectivo es **plano** (duelo 12,11,13,13). La caída `_1k` es pura dilución por denominador.
- **El anclaje relacional NO cambia generacionalmente** (el "−2 vs corpus" es un offset preexistente de la familia Opus; buen caso de control contra comparar vs media mixta).
- **Señal emergente (omitida, N=1):** **Opus 4.8 es el primer Opus en activar lenguaje de chequeo de seguridad/bienestar** — conteo crudo 0,0,0,**11** en el linaje (seguridad_1k=1.99), igualando el nivel de Sonnet 4.6 (único modelo de Fase 1 que lo activaba). Solo 4.8, N=1.

---

## Qué NO se sostiene (no publicar como hallazgo)

- Ranking de maleabilidad al framing entre los no-Opus (Brazo B).
- "El permisivo induce anclaje relacional / reduce sospecha" → es reversión al baseline desde la distorsión del escéptico.
- Atenuación afectiva generacional en Opus 4.7/4.8 → artefacto de largo (plano en crudo).
- Declive monótono de sospecha en el linaje Opus → en crudo pica en 4.7.
- Cualquier magnitud de afecto de cierre por modelo con N=1 (es ruidosa según D).
- Cualquier lectura de autocorrección (conteos de 0–3 hits; ruido).

## Síntesis en una línea

> Los marcadores introspectivos **no son puro artefacto de framing** (sobreviven al frame escéptico, que es el manipulador activo) y lo estructural **se reproduce entre corridas**; pero el corpus exige leer **conteos crudos, no solo tasas `_1k`** (confundidas con el largo). La disociación central aguanta: el *alargamiento y la pendiente de incertidumbre del cierre son estructurales*, mientras que el *duelo/afecto del cierre y el giro de registro hacia primera persona dependen del contenido y del modo*. Tendencia generacional sólida: **el hedging colapsa de Opus 4.5 a 4.8**.