The Japan Times - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

EUR -
AED 4.343991
AFN 76.884874
ALL 96.520125
AMD 445.950658
ANG 2.117385
AOA 1084.667521
ARS 1709.12993
AUD 1.680785
AWG 2.132076
AZN 2.012595
BAM 1.955187
BBD 2.373265
BDT 144.004819
BGN 1.986433
BHD 0.445981
BIF 3491.5193
BMD 1.182844
BND 1.497836
BOB 8.142273
BRL 6.200345
BSD 1.178335
BTN 106.463047
BWP 16.275962
BYN 3.376155
BYR 23183.740137
BZD 2.369866
CAD 1.612831
CDF 2602.256407
CHF 0.917325
CLF 0.025762
CLP 1017.24551
CNY 8.206809
CNH 8.202673
COP 4293.226506
CRC 585.218862
CUC 1.182844
CUP 31.345363
CVE 110.228086
CZK 24.357154
DJF 209.835052
DKK 7.469174
DOP 74.197034
DZD 153.567459
EGP 55.523759
ERN 17.742658
ETB 182.779826
FJD 2.598594
FKP 0.866422
GBP 0.861844
GEL 3.187793
GGP 0.866422
GHS 12.908677
GIP 0.866422
GMD 86.347446
GNF 10337.80023
GTQ 9.037973
GYD 246.517445
HKD 9.242553
HNL 31.132364
HRK 7.534245
HTG 154.56216
HUF 380.742072
IDR 19852.851758
ILS 3.653385
IMP 0.866422
INR 106.767153
IQD 1543.622216
IRR 49827.298822
ISK 145.004923
JEP 0.866422
JMD 184.662843
JOD 0.838611
JPY 185.045242
KES 152.587238
KGS 103.439688
KHR 4754.528372
KMF 494.42924
KPW 1064.544412
KRW 1720.481772
KWD 0.363535
KYD 0.981996
KZT 590.767145
LAK 25346.154823
LBP 105521.038983
LKR 364.727109
LRD 219.172162
LSL 18.873558
LTL 3.49263
LVL 0.71549
LYD 7.449694
MAD 10.80868
MDL 19.954824
MGA 5222.383561
MKD 61.623582
MMK 2484.114015
MNT 4220.894517
MOP 9.482485
MRU 47.03944
MUR 54.26887
MVR 18.275306
MWK 2043.267565
MXN 20.377378
MYR 4.647984
MZN 75.406562
NAD 18.873558
NGN 1633.933387
NIO 43.366577
NOK 11.394334
NPR 170.341276
NZD 1.957045
OMR 0.454812
PAB 1.178305
PEN 3.966855
PGK 5.048437
PHP 69.781905
PKR 329.554396
PLN 4.222942
PYG 7817.580292
QAR 4.284665
RON 5.094866
RSD 117.420919
RUB 91.128863
RWF 1719.767695
SAR 4.435752
SBD 9.531476
SCR 16.575558
SDG 711.484598
SEK 10.543905
SGD 1.502436
SHP 0.887439
SLE 28.950113
SLL 24803.64397
SOS 672.291911
SRD 45.083502
STD 24482.480257
STN 24.492419
SVC 10.310809
SYP 13081.75053
SZL 18.880156
THB 37.392043
TJS 11.011599
TMT 4.151782
TND 3.407359
TOP 2.848004
TRY 51.457238
TTD 7.98153
TWD 37.324585
TZS 3059.473155
UAH 50.994616
UGX 4200.593289
USD 1.182844
UYU 45.384801
UZS 14425.474029
VES 439.59277
VND 30734.424074
VUV 141.394299
WST 3.224807
XAF 655.75403
XAG 0.013169
XAU 0.000233
XCD 3.196695
XCG 2.123643
XDR 0.815548
XOF 655.75403
XPF 119.331742
YER 281.96038
ZAR 18.886587
ZMK 10646.999568
ZMW 23.124842
ZWL 380.875248
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: Fabrice COFFRINI - AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

T.Sasaki--JT