Az ismeretek kinyerése a tudás létrehozásának folyamata strukturált adatokból ( relációs adatbázisok , XML ) és strukturálatlanokból (szöveg, dokumentumok, képek). A kimenetnek a számítógépek által olvasható formátumban kell lennie.
Az RDB2RDF W3C csoport folyamatban van az ismeretek kibontásának nyelvének szabványosítása RDF formátumban az adatbázisokból.
A francia nyelven "tudáskitermelés az adatokból" (ECD) beszélünk.
Az ismeretek kinyerése több szakaszban zajlik, még maga az " adatbányászat " ( Data Mining ) előtt.
Az előfeldolgozás abból áll, hogy meghatározott adatkorpust építenek, és az adatokat típusuk (szövegek, képek, hangok stb.) Szerint formázzák . Az adatok tisztításának és a hiányzó adatok feldolgozásának szakasza következik.