The Japan Times - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

EUR -
AED 4.282286
AFN 72.889506
ALL 95.207603
AMD 430.01375
ANG 2.087753
AOA 1070.42764
ARS 1622.784305
AUD 1.615801
AWG 2.101792
AZN 1.980037
BAM 1.948086
BBD 2.348989
BDT 143.162498
BGN 1.947198
BHD 0.439945
BIF 3468.977203
BMD 1.166043
BND 1.484988
BOB 8.058985
BRL 5.837324
BSD 1.166277
BTN 111.748109
BWP 16.426743
BYN 3.258314
BYR 22854.438042
BZD 2.345552
CAD 1.600621
CDF 2617.765364
CHF 0.914545
CLF 0.02651
CLP 1043.367038
CNY 7.911775
CNH 7.916136
COP 4418.987218
CRC 529.980953
CUC 1.166043
CUP 30.900133
CVE 110.420738
CZK 24.310883
DJF 207.229054
DKK 7.473652
DOP 69.611585
DZD 154.439062
EGP 61.655687
ERN 17.490641
ETB 183.593618
FJD 2.556084
FKP 0.862511
GBP 0.870795
GEL 3.124803
GGP 0.862511
GHS 13.304314
GIP 0.862511
GMD 84.53284
GNF 10237.855419
GTQ 8.897767
GYD 243.990718
HKD 9.133322
HNL 31.040319
HRK 7.5352
HTG 152.719375
HUF 357.85873
IDR 20501.247154
ILS 3.384559
IMP 0.862511
INR 111.602244
IQD 1527.516012
IRR 1533346.225611
ISK 143.609809
JEP 0.862511
JMD 184.399822
JOD 0.82669
JPY 184.674396
KES 150.710561
KGS 101.97073
KHR 4678.163038
KMF 492.06927
KPW 1049.40427
KRW 1743.787798
KWD 0.359712
KYD 0.971947
KZT 552.061604
LAK 25600.468408
LBP 105018.290233
LKR 379.337915
LRD 213.677252
LSL 19.227736
LTL 3.443021
LVL 0.705327
LYD 7.380747
MAD 10.737796
MDL 20.047359
MGA 4871.140463
MKD 61.623214
MMK 2448.532445
MNT 4174.584911
MOP 9.409221
MRU 46.630148
MUR 54.687743
MVR 17.953612
MWK 2030.079949
MXN 20.097411
MYR 4.5843
MZN 74.521703
NAD 19.22769
NGN 1596.510503
NIO 42.811215
NOK 10.814812
NPR 178.792592
NZD 1.975224
OMR 0.448341
PAB 1.166257
PEN 4.019331
PGK 5.084821
PHP 71.905202
PKR 324.858355
PLN 4.243469
PYG 7106.858587
QAR 4.250809
RON 5.201602
RSD 117.404153
RUB 85.416661
RWF 1703.588468
SAR 4.323481
SBD 9.347158
SCR 15.925798
SDG 700.210747
SEK 10.964079
SGD 1.488553
SHP 0.870569
SLE 28.742478
SLL 24451.336053
SOS 666.396592
SRD 43.384983
STD 24134.730844
STN 24.778409
SVC 10.204331
SYP 128.881228
SZL 19.227966
THB 37.837714
TJS 10.898504
TMT 4.08115
TND 3.367544
TOP 2.807551
TRY 53.109051
TTD 7.918441
TWD 36.822696
TZS 3025.881057
UAH 51.26883
UGX 4361.616853
USD 1.166043
UYU 46.444895
UZS 14044.985317
VES 594.855331
VND 30719.39644
VUV 137.683599
WST 3.158251
XAF 653.355863
XAG 0.013988
XAU 0.000251
XCD 3.151288
XCG 2.101868
XDR 0.810364
XOF 650.065331
XPF 119.331742
YER 278.276306
ZAR 19.248742
ZMK 10495.787518
ZMW 21.954032
ZWL 375.465292
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: Fabrice COFFRINI - AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

T.Sasaki--JT