The Japan Times - La IA aprende a mentir, manipular y amenazar a sus creadores

Tokyo 7°C

EUR -

AED 4.35335

AFN 77.050797

ALL 96.66512

AMD 452.977132

ANG 2.121943

AOA 1087.00321

ARS 1715.259993

AUD 1.706088

AWG 2.136666

AZN 2.019869

BAM 1.955701

BBD 2.406579

BDT 146.012629

BGN 1.990709

BHD 0.449077

BIF 3539.921292

BMD 1.18539

BND 1.513224

BOB 8.256583

BRL 6.231008

BSD 1.19484

BTN 109.724461

BWP 15.634211

BYN 3.403228

BYR 23233.647084

BZD 2.403079

CAD 1.614917

CDF 2684.909135

CHF 0.911322

CLF 0.026011

CLP 1027.058063

CNY 8.240537

CNH 8.248946

COP 4350.080393

CRC 591.67013

CUC 1.18539

CUP 31.412839

CVE 110.259434

CZK 24.334287

DJF 212.769259

DKK 7.470097

DOP 75.226202

DZD 154.463202

EGP 55.903178

ERN 17.780852

ETB 185.61503

FJD 2.613371

FKP 0.865849

GBP 0.861444

GEL 3.194674

GGP 0.865849

GHS 13.089339

GIP 0.865849

GMD 86.533903

GNF 10484.470707

GTQ 9.164537

GYD 249.97738

HKD 9.259024

HNL 31.537408

HRK 7.536597

HTG 156.372106

HUF 381.328619

IDR 19883.141804

ILS 3.663335

IMP 0.865849

INR 108.693763

IQD 1565.320977

IRR 49934.560565

ISK 144.985527

JEP 0.865849

JMD 187.240547

JOD 0.840489

JPY 183.456955

KES 154.262212

KGS 103.662825

KHR 4804.757439

KMF 491.93733

KPW 1066.851144

KRW 1719.768532

KWD 0.36382

KYD 0.99575

KZT 600.939662

LAK 25713.701882

LBP 106998.998316

LKR 369.511346

LRD 215.369127

LSL 18.971842

LTL 3.500149

LVL 0.717031

LYD 7.497621

MAD 10.838453

MDL 20.096985

MGA 5339.730432

MKD 61.636888

MMK 2489.708718

MNT 4227.553379

MOP 9.608515

MRU 47.674593

MUR 53.852723

MVR 18.32658

MWK 2071.895403

MXN 20.70407

MYR 4.672854

MZN 75.580924

NAD 18.971842

NGN 1643.520192

NIO 43.96778

NOK 11.437875

NPR 175.559137

NZD 1.964681

OMR 0.458017

PAB 1.19484

PEN 3.994898

PGK 5.114742

PHP 69.837307

PKR 334.289724

PLN 4.215189

PYG 8003.59595

QAR 4.35638

RON 5.097064

RSD 117.394074

RUB 90.535429

RWF 1743.311992

SAR 4.447217

SBD 9.544303

SCR 17.203132

SDG 713.016537

SEK 10.580086

SGD 1.506161

SHP 0.88935

SLE 28.834661

SLL 24857.038036

SOS 682.865527

SRD 45.104693

STD 24535.182964

STN 24.498763

SVC 10.454472

SYP 13109.911225

SZL 18.966043

THB 37.225573

TJS 11.153937

TMT 4.148866

TND 3.433027

TOP 2.854135

TRY 51.401485

TTD 8.11259

TWD 37.456003

TZS 3076.744675

UAH 51.211415

UGX 4271.784345

USD 1.18539

UYU 46.367659

UZS 14607.262574

VES 410.075543

VND 30749.020682

VUV 140.814221

WST 3.213333

XAF 655.923887

XAG 0.014004

XAU 0.000244

XCD 3.203577

XCG 2.153391

XDR 0.815759

XOF 655.923887

XPF 119.331742

YER 282.508153

ZAR 19.134414

ZMK 10669.938133

ZMW 23.448816

ZWL 381.695147

La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: HENRY NICHOLLS - AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

TECNOLOGíA 29.06.2025

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

T.Sasaki--JT

The Japan Times - La IA aprende a mentir, manipular y amenazar a sus creadores

La IA aprende a mentir, manipular y amenazar a sus creadores

Destacados

Misión espacial explorará meditación y efectos de microgravedad en los ojos

El vuelo para rotar astronautas de la EEI está previsto para el 11 de febrero, según la NASA

Plataformas en línea buscan combatir el contenido "basura de IA" con filtros

Datavault AI y Sports Illustrated acuerdan crear plataforma para intercambio de activos digitales deportivos