The Japan Times - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

EUR -
AED 4.282286
AFN 72.889506
ALL 95.207603
AMD 430.01375
ANG 2.087753
AOA 1070.42764
ARS 1622.784305
AUD 1.615801
AWG 2.101792
AZN 1.980037
BAM 1.948086
BBD 2.348989
BDT 143.162498
BGN 1.947198
BHD 0.439945
BIF 3468.977203
BMD 1.166043
BND 1.484988
BOB 8.058985
BRL 5.837324
BSD 1.166277
BTN 111.748109
BWP 16.426743
BYN 3.258314
BYR 22854.438042
BZD 2.345552
CAD 1.600621
CDF 2617.765364
CHF 0.914545
CLF 0.02651
CLP 1043.367038
CNY 7.911775
CNH 7.916136
COP 4418.987218
CRC 529.980953
CUC 1.166043
CUP 30.900133
CVE 110.420738
CZK 24.310883
DJF 207.229054
DKK 7.473652
DOP 69.611585
DZD 154.439062
EGP 61.655687
ERN 17.490641
ETB 183.593618
FJD 2.556084
FKP 0.862511
GBP 0.870795
GEL 3.124803
GGP 0.862511
GHS 13.304314
GIP 0.862511
GMD 84.53284
GNF 10237.855419
GTQ 8.897767
GYD 243.990718
HKD 9.133322
HNL 31.040319
HRK 7.5352
HTG 152.719375
HUF 357.85873
IDR 20501.247154
ILS 3.384559
IMP 0.862511
INR 111.602244
IQD 1527.516012
IRR 1533346.225611
ISK 143.609809
JEP 0.862511
JMD 184.399822
JOD 0.82669
JPY 184.674396
KES 150.710561
KGS 101.97073
KHR 4678.163038
KMF 492.06927
KPW 1049.40427
KRW 1743.787798
KWD 0.359712
KYD 0.971947
KZT 552.061604
LAK 25600.468408
LBP 105018.290233
LKR 379.337915
LRD 213.677252
LSL 19.227736
LTL 3.443021
LVL 0.705327
LYD 7.380747
MAD 10.737796
MDL 20.047359
MGA 4871.140463
MKD 61.623214
MMK 2448.532445
MNT 4174.584911
MOP 9.409221
MRU 46.630148
MUR 54.687743
MVR 17.953612
MWK 2030.079949
MXN 20.097411
MYR 4.5843
MZN 74.521703
NAD 19.22769
NGN 1596.510503
NIO 42.811215
NOK 10.814812
NPR 178.792592
NZD 1.975224
OMR 0.448341
PAB 1.166257
PEN 4.019331
PGK 5.084821
PHP 71.905202
PKR 324.858355
PLN 4.243469
PYG 7106.858587
QAR 4.250809
RON 5.201602
RSD 117.404153
RUB 85.416661
RWF 1703.588468
SAR 4.323481
SBD 9.347158
SCR 15.925798
SDG 700.210747
SEK 10.964079
SGD 1.488553
SHP 0.870569
SLE 28.742478
SLL 24451.336053
SOS 666.396592
SRD 43.384983
STD 24134.730844
STN 24.778409
SVC 10.204331
SYP 128.881228
SZL 19.227966
THB 37.837714
TJS 10.898504
TMT 4.08115
TND 3.367544
TOP 2.807551
TRY 53.109051
TTD 7.918441
TWD 36.822696
TZS 3025.881057
UAH 51.26883
UGX 4361.616853
USD 1.166043
UYU 46.444895
UZS 14044.985317
VES 594.855331
VND 30719.39644
VUV 137.683599
WST 3.158251
XAF 653.355863
XAG 0.013988
XAU 0.000251
XCD 3.151288
XCG 2.101868
XDR 0.810364
XOF 650.065331
XPF 119.331742
YER 278.276306
ZAR 19.248742
ZMK 10495.787518
ZMW 21.954032
ZWL 375.465292
  • AEX

    11.4100

    1021.54

    +1.13%

  • BEL20

    23.6900

    5532.41

    +0.43%

  • PX1

    74.4700

    8082.27

    +0.93%

  • ISEQ

    53.8800

    12585.15

    +0.43%

  • OSEBX

    1.5900

    1985.91

    +0.08%

  • PSI20

    51.7100

    9124.26

    +0.57%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    31.5800

    4133.29

    +0.77%

  • N150

    24.3700

    4226.84

    +0.58%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: HENRY NICHOLLS - AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

M.Ito--JT