Un corpus, nella sua definizione generica, è una raccolta ordinata e completa di opere o di autori, ma nel gergo della linguistica ha invece assunto il significato di insieme di testi in formato elettronico uniformemente trattati in modo da essere gestibili e interrogabili informaticamente. I corpora sono quindi degli immensi data base formati da testi accomunati da alcune caratteristiche, ad esempio la lingua, il periodo storico, la provenienza, ecc. e sono suddivisi in token, vale a dire le unità minime in cui è suddivisibile il testo elettronico. Le parti del discorso contenute nei testi sono inoltre classificate in base alla loro funzione come parti del discorso tramite markup, cioè con lemmatizzazioni e annotazioni di vario genere. In questo modo i corpora possono essere analizzati ed elaborati da appositi programmi informatici che consentono di consultare, ricercare, filtrare e generare statistiche del loro contenuto.
Spesso nel settore della traduzione si parla anche di corpora paralleli, che possono essere bilingui o multilingui, vale a dire formati dai testi originali e dalle relative traduzioni in una o più lingue.
Fonte: Cosa è un corpus? Per una definizione più rigorosa di corpus, token, markup