The Japan Times - La IA aprende a mentir, manipular y amenazar a sus creadores

EUR -
AED 4.277424
AFN 76.282379
ALL 96.389901
AMD 444.278751
ANG 2.0846
AOA 1067.888653
ARS 1666.882107
AUD 1.752778
AWG 2.096182
AZN 1.984351
BAM 1.954928
BBD 2.344654
BDT 142.403852
BGN 1.956425
BHD 0.438198
BIF 3455.206503
BMD 1.164546
BND 1.508021
BOB 8.044377
BRL 6.334667
BSD 1.164081
BTN 104.66486
BWP 15.466034
BYN 3.346807
BYR 22825.091832
BZD 2.341246
CAD 1.610276
CDF 2599.265981
CHF 0.936525
CLF 0.027366
CLP 1073.571668
CNY 8.233458
CNH 8.232219
COP 4463.819362
CRC 568.64633
CUC 1.164546
CUP 30.860456
CVE 110.752812
CZK 24.203336
DJF 206.963485
DKK 7.470448
DOP 74.822506
DZD 151.068444
EGP 55.295038
ERN 17.468183
ETB 180.679691
FJD 2.632397
FKP 0.872083
GBP 0.872973
GEL 3.138497
GGP 0.872083
GHS 13.3345
GIP 0.872083
GMD 85.012236
GNF 10116.993527
GTQ 8.917022
GYD 243.550308
HKD 9.065929
HNL 30.604708
HRK 7.535429
HTG 152.392019
HUF 381.994667
IDR 19435.740377
ILS 3.768132
IMP 0.872083
INR 104.760771
IQD 1525.554607
IRR 49041.926882
ISK 149.038983
JEP 0.872083
JMD 186.32688
JOD 0.825709
JPY 180.935883
KES 150.58016
KGS 101.839952
KHR 4664.005142
KMF 491.43861
KPW 1048.083022
KRW 1716.311573
KWD 0.357481
KYD 0.970163
KZT 588.714849
LAK 25258.992337
LBP 104285.050079
LKR 359.069821
LRD 206.012492
LSL 19.73949
LTL 3.438601
LVL 0.704422
LYD 6.347216
MAD 10.756329
MDL 19.807079
MGA 5225.31607
MKD 61.612515
MMK 2445.475195
MNT 4130.063083
MOP 9.335036
MRU 46.419225
MUR 53.689904
MVR 17.938355
MWK 2022.815938
MXN 21.164687
MYR 4.787492
MZN 74.426542
NAD 19.739485
NGN 1688.68458
NIO 42.826206
NOK 11.767853
NPR 167.464295
NZD 2.015483
OMR 0.446978
PAB 1.164176
PEN 4.096293
PGK 4.876539
PHP 68.66747
PKR 326.50949
PLN 4.229804
PYG 8006.428369
QAR 4.240169
RON 5.092096
RSD 117.610988
RUB 88.93302
RWF 1689.755523
SAR 4.37074
SBD 9.584899
SCR 15.748939
SDG 700.4784
SEK 10.946786
SGD 1.508557
SHP 0.873711
SLE 27.603998
SLL 24419.93473
SOS 665.542019
SRD 44.985272
STD 24103.740676
STN 24.921274
SVC 10.184839
SYP 12877.828498
SZL 19.739476
THB 37.119932
TJS 10.680789
TMT 4.087555
TND 3.436865
TOP 2.803946
TRY 49.523506
TTD 7.89148
TWD 36.437508
TZS 2835.668687
UAH 48.86364
UGX 4118.162907
USD 1.164546
UYU 45.529689
UZS 13980.369136
VES 296.437311
VND 30697.419423
VUV 142.156196
WST 3.249257
XAF 655.661697
XAG 0.019993
XAU 0.000278
XCD 3.147243
XCG 2.098055
XDR 0.815205
XOF 655.061029
XPF 119.331742
YER 277.802752
ZAR 19.711451
ZMK 10482.311144
ZMW 26.913878
ZWL 374.983176
La IA aprende a mentir, manipular y amenazar a sus creadores
La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: HENRY NICHOLLS - AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

T.Sasaki--JT