Cílem projektu, který vznikl před téměř 20 lety, je představit češtinu v různých podobách, tedy psané, mluvené i historické. Databáze podle předkladatelů v současnosti obsahuje již více než 1,5 miliardy slov. Slouží nejen lingvistům, ale také veřejnosti například ke zjištění, jak se které slovo užívá a v jakém kontextu a v jakých typech textů se vyskytuje. Databáze je přístupná na webu Ústavu Českého národního korpusu.

Povinnost poskytovat publikace tomuto ústavu navrhli poslanci kvůli tomu, že pro něj není snadné získat nové přírůstky do databáze v takové šíři, aby pokrývaly celou škálu textů, jež česky vycházejí. Vydavatelé to prý mnohdy odmítají. V případě schválení předlohy by za odmítnutí mohli být pokutováni, náklady spojené se zasláním elektronické podoby publikace jim bude ústav hradit.

Předloha počítá s tím, že ředitel ústavu by dvakrát do roka oslovil vybrané vydavatele se žádostí o poskytnutí elektronických kopií konkrétních titulů tak, aby tvořily reprezentativní vzorek současného psaného jazyka. Kopie budou zpracovány tak, aby se zabránilo jejich zneužití. Za celých 18 let existence ústavu nebyl registrován žádný únik textu ani jiná stížnost ze strany autorů nebo vydavatelů, připomínají tvůrci novely.