The Japan Times - La IA aprende a mentir, manipular y amenazar a sus creadores

EUR -
AED 4.35335
AFN 77.050797
ALL 96.66512
AMD 452.977132
ANG 2.121943
AOA 1087.00321
ARS 1715.259993
AUD 1.706088
AWG 2.136666
AZN 2.019869
BAM 1.955701
BBD 2.406579
BDT 146.012629
BGN 1.990709
BHD 0.449077
BIF 3539.921292
BMD 1.18539
BND 1.513224
BOB 8.256583
BRL 6.231008
BSD 1.19484
BTN 109.724461
BWP 15.634211
BYN 3.403228
BYR 23233.647084
BZD 2.403079
CAD 1.614917
CDF 2684.909135
CHF 0.911322
CLF 0.026011
CLP 1027.058063
CNY 8.240537
CNH 8.248946
COP 4350.080393
CRC 591.67013
CUC 1.18539
CUP 31.412839
CVE 110.259434
CZK 24.334287
DJF 212.769259
DKK 7.470097
DOP 75.226202
DZD 154.463202
EGP 55.903178
ERN 17.780852
ETB 185.61503
FJD 2.613371
FKP 0.865849
GBP 0.861444
GEL 3.194674
GGP 0.865849
GHS 13.089339
GIP 0.865849
GMD 86.533903
GNF 10484.470707
GTQ 9.164537
GYD 249.97738
HKD 9.259024
HNL 31.537408
HRK 7.536597
HTG 156.372106
HUF 381.328619
IDR 19883.141804
ILS 3.663335
IMP 0.865849
INR 108.693763
IQD 1565.320977
IRR 49934.560565
ISK 144.985527
JEP 0.865849
JMD 187.240547
JOD 0.840489
JPY 183.456955
KES 154.262212
KGS 103.662825
KHR 4804.757439
KMF 491.93733
KPW 1066.851144
KRW 1719.768532
KWD 0.36382
KYD 0.99575
KZT 600.939662
LAK 25713.701882
LBP 106998.998316
LKR 369.511346
LRD 215.369127
LSL 18.971842
LTL 3.500149
LVL 0.717031
LYD 7.497621
MAD 10.838453
MDL 20.096985
MGA 5339.730432
MKD 61.636888
MMK 2489.708718
MNT 4227.553379
MOP 9.608515
MRU 47.674593
MUR 53.852723
MVR 18.32658
MWK 2071.895403
MXN 20.70407
MYR 4.672854
MZN 75.580924
NAD 18.971842
NGN 1643.520192
NIO 43.96778
NOK 11.437875
NPR 175.559137
NZD 1.964681
OMR 0.458017
PAB 1.19484
PEN 3.994898
PGK 5.114742
PHP 69.837307
PKR 334.289724
PLN 4.215189
PYG 8003.59595
QAR 4.35638
RON 5.097064
RSD 117.394074
RUB 90.535429
RWF 1743.311992
SAR 4.447217
SBD 9.544303
SCR 17.203132
SDG 713.016537
SEK 10.580086
SGD 1.506161
SHP 0.88935
SLE 28.834661
SLL 24857.038036
SOS 682.865527
SRD 45.104693
STD 24535.182964
STN 24.498763
SVC 10.454472
SYP 13109.911225
SZL 18.966043
THB 37.225573
TJS 11.153937
TMT 4.148866
TND 3.433027
TOP 2.854135
TRY 51.401485
TTD 8.11259
TWD 37.456003
TZS 3076.744675
UAH 51.211415
UGX 4271.784345
USD 1.18539
UYU 46.367659
UZS 14607.262574
VES 410.075543
VND 30749.020682
VUV 140.814221
WST 3.213333
XAF 655.923887
XAG 0.014004
XAU 0.000244
XCD 3.203577
XCG 2.153391
XDR 0.815759
XOF 655.923887
XPF 119.331742
YER 282.508153
ZAR 19.134414
ZMK 10669.938133
ZMW 23.448816
ZWL 381.695147
La IA aprende a mentir, manipular y amenazar a sus creadores
La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: HENRY NICHOLLS - AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

T.Sasaki--JT