Alla ricerca di un corpus HSK

Innanzitutto Buon Anno a tutti! Spero sinceramente che questo 2015 sia molto meno avaro del 2014, specialmente lato salute e lavoro.

In questi giorni di ferie, a parte smaltire le sbornie alimentari, sto lavorarando ad un progetto personale, ovvero la realizzazione di un piccolo "corpus" HSK. Come sapete, il termine corpus indica di norma una collezione di testi selezionati e organizzati per facilitare le analisi: nel mio caso mi vorrei limitare a creare una collezione "mirata" sulle parole HSK che preveda, per ciascun lemma

  • definzione (in Italiano)
  • caratteri semplificati
  • pinyin
  • esempi di utilizzo
  • note grammaticali
  • audio
  • (opzionale) lista dei tratti per la scrittura
  • livello HSK (2012)

Tale corpus sarà reso disponibile in diversi formati (Excel, testo, JSON in primis) in modo da poter essere utilizzabile in modo veloce per diversi scopi, ma in primis lo studio delle parole stesse e la realizzazione di strumenti per lo studio simili a quelli che l'amico sinonauta di Cinesando mette già a disposizione.

In rete si trovano diverse risorse sull'HSK ma spesso sono solo in inglese (vedi ad es. l'articolo sul sito hskhsk) e non facilmente "riutilizzabili": la mia idea è quella di razionalizzare molto del materiale esistente aggiungendo quanto necessario per avere un insieme organico e chiaro. L'obiettivo è quello di realizzare delle risorse in italiano ma con uno sforzo limitato penso si potrà espandere il corpus anche all'inglese.

In questo preciso momento sto sistemando i files audio che la mia gentilissima insegnante di cinese mi ha preparato con tutte le parole dell' HSK3: nei prossimi giorni inizierò con il pubblicare la lista dei file mp3 in modo da poter mettere a disposizione una base audio di buona qualità e gratuita a tutta la comunità. In seguito completerò il lavoro sulla parte dei metadati relativi a ciascuna parola: l'idea è quella di rilasciare il materiale in modalità progressiva in modo da poter anche usufruire dei vostri commenti/suggerimenti.

Fin da ora ovviamente ogni vostro contributo è più che ben accetto: sto ad esempio cercando un sito dove reperire, almeno per i primi 4 livelli, la lista dei tratti per la scrittura di ciascun carattere in formato grafico (non animato). Se qualcuno ha un idea di dove andare (la wikipedia non sembra al momento completa) lasci pure un commento in calce a questo articolo.

Ancora auguri a tutti.

G

Comments are closed.