The Japan Times - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

EUR -
AED 4.245422
AFN 73.401814
ALL 95.804757
AMD 435.965634
ANG 2.068976
AOA 1059.867575
ARS 1591.163342
AUD 1.662972
AWG 2.083038
AZN 1.966265
BAM 1.94891
BBD 2.329145
BDT 141.920077
BGN 1.975617
BHD 0.436399
BIF 3432.721897
BMD 1.155799
BND 1.478337
BOB 7.991127
BRL 6.053954
BSD 1.156401
BTN 108.778233
BWP 15.76003
BYN 3.427501
BYR 22653.652921
BZD 2.326027
CAD 1.596106
CDF 2635.220696
CHF 0.915164
CLF 0.026847
CLP 1060.08668
CNY 7.976748
CNH 7.978414
COP 4279.228805
CRC 537.719801
CUC 1.155799
CUP 30.628663
CVE 110.523215
CZK 23.997735
DJF 205.408705
DKK 7.471799
DOP 69.781379
DZD 153.347817
EGP 60.718954
ERN 17.336979
ETB 181.799172
FJD 2.574194
FKP 0.863643
GBP 0.864786
GEL 3.114871
GGP 0.863643
GHS 12.656569
GIP 0.863643
GMD 84.948126
GNF 10147.912253
GTQ 8.850937
GYD 241.963368
HKD 9.036323
HNL 30.65145
HRK 7.534532
HTG 151.649086
HUF 387.012298
IDR 19497.166894
ILS 3.601295
IMP 0.863643
INR 108.589009
IQD 1514.09619
IRR 1517736.956086
ISK 143.180131
JEP 0.863643
JMD 182.16069
JOD 0.81949
JPY 184.317547
KES 149.965029
KGS 101.073668
KHR 4638.219471
KMF 493.525975
KPW 1040.235338
KRW 1738.575448
KWD 0.354391
KYD 0.963739
KZT 557.988928
LAK 24947.91342
LBP 103501.765934
LKR 363.707242
LRD 212.261977
LSL 19.579412
LTL 3.412773
LVL 0.699131
LYD 7.368225
MAD 10.780717
MDL 20.221468
MGA 4819.680415
MKD 61.615606
MMK 2427.370797
MNT 4125.586287
MOP 9.313179
MRU 46.382229
MUR 53.71034
MVR 17.85711
MWK 2007.622765
MXN 20.545711
MYR 4.582161
MZN 73.857548
NAD 19.567341
NGN 1601.717471
NIO 42.440814
NOK 11.204655
NPR 174.048174
NZD 1.990012
OMR 0.444409
PAB 1.156466
PEN 3.999644
PGK 4.980913
PHP 69.343255
PKR 322.525259
PLN 4.275473
PYG 7524.462005
QAR 4.21169
RON 5.094294
RSD 117.419875
RUB 93.618683
RWF 1687.465983
SAR 4.336132
SBD 9.294975
SCR 16.325644
SDG 694.635484
SEK 10.810057
SGD 1.481156
SHP 0.867148
SLE 28.374686
SLL 24236.531641
SOS 659.961346
SRD 43.158092
STD 23922.697853
STN 24.73409
SVC 10.119354
SYP 128.233843
SZL 19.531726
THB 37.75127
TJS 11.07381
TMT 4.045295
TND 3.395158
TOP 2.782885
TRY 51.232737
TTD 7.863504
TWD 36.902912
TZS 2970.470673
UAH 50.773748
UGX 4278.982517
USD 1.155799
UYU 46.815494
UZS 14100.743605
VES 534.0834
VND 30455.293595
VUV 138.127264
WST 3.164809
XAF 653.674182
XAG 0.016216
XAU 0.000256
XCD 3.123604
XCG 2.084312
XDR 0.811939
XOF 651.301235
XPF 119.331742
YER 275.831064
ZAR 19.578083
ZMK 10403.583014
ZMW 21.655467
ZWL 372.166684
  • AEX

    8.8700

    983.13

    +0.91%

  • BEL20

    108.2900

    5052.97

    +2.19%

  • PX1

    102.9900

    7846.55

    +1.33%

  • ISEQ

    267.3000

    12362.55

    +2.21%

  • OSEBX

    23.8700

    1980.05

    +1.22%

  • PSI20

    132.3400

    9014.42

    +1.49%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    80.4500

    3624.57

    +2.27%

  • N150

    55.6000

    3837.98

    +1.47%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: HENRY NICHOLLS - AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

M.Ito--JT