The Japan Times - La IA aprende a mentir, manipular y amenazar a sus creadores

EUR -
AED 4.315152
AFN 77.708509
ALL 96.852138
AMD 448.491142
ANG 2.103707
AOA 1077.46608
ARS 1692.867744
AUD 1.766731
AWG 2.114983
AZN 1.996065
BAM 1.958827
BBD 2.365606
BDT 143.531799
BGN 1.957646
BHD 0.442923
BIF 3471.553207
BMD 1.174991
BND 1.516883
BOB 8.115541
BRL 6.345419
BSD 1.17454
BTN 106.215586
BWP 15.56238
BYN 3.462451
BYR 23029.817846
BZD 2.36217
CAD 1.617428
CDF 2631.978985
CHF 0.93526
CLF 0.027299
CLP 1070.885484
CNY 8.288974
CNH 8.27372
COP 4466.84467
CRC 587.522896
CUC 1.174991
CUP 31.137254
CVE 110.435656
CZK 24.285177
DJF 209.15766
DKK 7.470444
DOP 74.667289
DZD 152.34334
EGP 55.789738
ERN 17.624861
ETB 183.52108
FJD 2.648192
FKP 0.879185
GBP 0.877671
GEL 3.168367
GGP 0.879185
GHS 13.482835
GIP 0.879185
GMD 85.774311
GNF 10213.261358
GTQ 8.995863
GYD 245.719709
HKD 9.144171
HNL 30.922442
HRK 7.532747
HTG 153.951832
HUF 385.151393
IDR 19592.088787
ILS 3.766621
IMP 0.879185
INR 106.613135
IQD 1538.577555
IRR 49493.544354
ISK 148.41283
JEP 0.879185
JMD 188.054601
JOD 0.833059
JPY 182.086549
KES 151.515079
KGS 102.752804
KHR 4702.386633
KMF 492.911492
KPW 1057.491268
KRW 1720.480396
KWD 0.36051
KYD 0.978813
KZT 612.546565
LAK 25462.346819
LBP 105176.728999
LKR 362.920819
LRD 207.301224
LSL 19.815521
LTL 3.469442
LVL 0.710741
LYD 6.379995
MAD 10.805297
MDL 19.854766
MGA 5203.151106
MKD 61.58937
MMK 2466.617904
MNT 4166.358748
MOP 9.418054
MRU 47.004836
MUR 53.990968
MVR 18.088629
MWK 2036.690621
MXN 21.126092
MYR 4.808648
MZN 75.093803
NAD 19.815521
NGN 1705.53442
NIO 43.227904
NOK 11.911281
NPR 169.94896
NZD 2.027652
OMR 0.451782
PAB 1.174515
PEN 3.954311
PGK 5.062068
PHP 69.231624
PKR 329.162758
PLN 4.221642
PYG 7889.359242
QAR 4.280496
RON 5.094291
RSD 117.388641
RUB 92.967943
RWF 1709.478019
SAR 4.40866
SBD 9.607607
SCR 17.223335
SDG 706.756952
SEK 10.910905
SGD 1.51451
SHP 0.881547
SLE 28.346692
SLL 24638.971924
SOS 670.04968
SRD 45.293589
STD 24319.935326
STN 24.534259
SVC 10.276881
SYP 12991.498391
SZL 19.808863
THB 36.931722
TJS 10.793679
TMT 4.124217
TND 3.433491
TOP 2.829096
TRY 50.173396
TTD 7.970316
TWD 36.798371
TZS 2916.912694
UAH 49.627044
UGX 4174.450755
USD 1.174991
UYU 46.090635
UZS 14149.865707
VES 314.239221
VND 30925.755393
VUV 142.323844
WST 3.261166
XAF 656.986216
XAG 0.018396
XAU 0.000271
XCD 3.175471
XCG 2.116771
XDR 0.81708
XOF 656.986216
XPF 119.331742
YER 280.241445
ZAR 19.712468
ZMK 10576.317779
ZMW 27.102111
ZWL 378.346528
La IA aprende a mentir, manipular y amenazar a sus creadores
La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: HENRY NICHOLLS - AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

T.Sasaki--JT