The Japan Times - La IA aprende a mentir, manipular y amenazar a sus creadores

EUR -
AED 4.31088
AFN 73.937945
ALL 95.47446
AMD 432.619759
ANG 2.100643
AOA 1077.382373
ARS 1625.407806
AUD 1.620797
AWG 2.115449
AZN 1.997376
BAM 1.954941
BBD 2.363672
BDT 144.257237
BGN 1.957717
BHD 0.442865
BIF 3491.517666
BMD 1.173619
BND 1.49395
BOB 8.109437
BRL 5.763757
BSD 1.173589
BTN 112.168198
BWP 15.841108
BYN 3.281172
BYR 23002.939917
BZD 2.360263
CAD 1.607682
CDF 2611.302946
CHF 0.91648
CLF 0.02724
CLP 1072.077477
CNY 7.971339
CNH 7.97127
COP 4439.356152
CRC 535.566986
CUC 1.173619
CUP 31.100914
CVE 110.613673
CZK 24.334411
DJF 208.575307
DKK 7.469854
DOP 69.350265
DZD 155.365118
EGP 62.080174
ERN 17.604291
ETB 184.258607
FJD 2.564244
FKP 0.859766
GBP 0.867011
GEL 3.133861
GGP 0.859766
GHS 13.254825
GIP 0.859766
GMD 86.255819
GNF 10304.377879
GTQ 8.954104
GYD 245.522133
HKD 9.188325
HNL 31.241829
HRK 7.532053
HTG 153.323292
HUF 357.660504
IDR 20540.275683
ILS 3.419869
IMP 0.859766
INR 112.414839
IQD 1537.441392
IRR 1539788.630801
ISK 143.603939
JEP 0.859766
JMD 185.43853
JOD 0.832094
JPY 184.980081
KES 151.515321
KGS 102.633286
KHR 4706.213987
KMF 492.920167
KPW 1056.278859
KRW 1751.297875
KWD 0.361604
KYD 0.977958
KZT 544.333172
LAK 25766.813659
LBP 105098.601529
LKR 379.065077
LRD 214.919013
LSL 19.423763
LTL 3.465393
LVL 0.709911
LYD 7.423137
MAD 10.722773
MDL 20.084919
MGA 4899.860612
MKD 61.634202
MMK 2463.3728
MNT 4202.55531
MOP 9.463102
MRU 46.957018
MUR 54.819719
MVR 18.077756
MWK 2043.271917
MXN 20.216176
MYR 4.617041
MZN 75.005946
NAD 19.423237
NGN 1608.985697
NIO 43.071164
NOK 10.770223
NPR 179.468917
NZD 1.972813
OMR 0.451261
PAB 1.173584
PEN 4.029031
PGK 5.105538
PHP 72.303754
PKR 326.999732
PLN 4.252199
PYG 7163.883149
QAR 4.27843
RON 5.203356
RSD 117.38073
RUB 86.63974
RWF 1715.831539
SAR 4.405667
SBD 9.423
SCR 16.310161
SDG 704.76155
SEK 10.92608
SGD 1.493067
SHP 0.876225
SLE 28.900434
SLL 24610.207163
SOS 670.710905
SRD 43.722607
STD 24291.55171
STN 24.910071
SVC 10.268489
SYP 129.719473
SZL 19.434756
THB 38.001966
TJS 10.972779
TMT 4.107668
TND 3.370929
TOP 2.825794
TRY 53.255559
TTD 7.964535
TWD 36.989545
TZS 3042.601635
UAH 51.580059
UGX 4411.062049
USD 1.173619
UYU 46.669496
UZS 14259.475542
VES 591.836961
VND 30911.960942
VUV 138.866694
WST 3.179681
XAF 655.668939
XAG 0.013556
XAU 0.000249
XCD 3.171765
XCG 2.11508
XDR 0.81374
XOF 653.115746
XPF 119.331742
YER 280.084451
ZAR 19.37939
ZMK 10563.989147
ZMW 22.092294
ZWL 377.904963
La IA aprende a mentir, manipular y amenazar a sus creadores
La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: HENRY NICHOLLS - AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

T.Sasaki--JT