Domande frequenti
1. Che cos'è l'archivio dell'Unità?
È l'archivio completo di tutte le pagine del giornale, dalla fondazione al 2008, integralmente e gratuitamente a disposizione di tutti. Un'impresa di straordinario contenuto tecnologico che permette di accedere ai fatti di oltre 80 anni di storia attraverso ricerche per parole, date, classificazioni, suggerimenti.
2. Cosa comprende l'archivio? Il contenuto viene aggiornato?
L'archivio storico comprende il periodo che va dalla data di fondazione del 12 febbraio 1924 fino al 2008; si tratta di oltre 500 mila pagine di giornale provenienti dalle scansioni delle copie cartacee originali e fruibili tramite il motore di ricerca.
Le edizioni pubblicate dal 2008 in poi, già in formato digitale, sono invece disponibili nella sezione dedicata all'edicola del portale l'Unità; ciascuna di queste edizioni è accessibile a titolo gratuito la settimana successiva alla data di pubblicazione, mentre per gli abbonati il giorno stesso.
3. Ci sono dei numeri mancanti?
L'opera di raccolta ed elaborazione dell'archivio è stato un processo complesso in quanto nel corso degli anni il giornale ha subito molteplici modifiche a livello di strutturazione e catalogazione dei contenuti. Molto è stato fatto per rendere l'archivio il più completo possibile e in molti casi si sono resi necessari interventi manuali di verifica e correzione.
La redazione è costantemente al lavoro per eliminare eventuali lacune e imprecisioni. Potete inviare le vostre segnalazioni all'indirizzo archiviostorico@unita.it
4. Come è stato creato l'archivio?
Il materiale proviene principalmente dalle scansioni delle copie cartacee originali; le edizioni più antiche e non più disponibili sono state recuperate da immagini su microfilm. I documenti sono stati processati tramite software OCR (vedi domanda n.5) al fine di estrarne il testo sul quale si basano le funzioni di ricerca.
5. Cosa significa OCR?
I sistemi di riconoscimento ottico dei caratteri, detti anche OCR (dall'Inglese Optical Character Recognition) sono programmi dedicati alla conversione di un'immagine contenente testo (solitamente acquisita tramite scanner) in testo digitale permettendone una successiva elaborazione.
La scansione di un documento produce infatti un'immagine in cui il testo non è né ricercabile né modificabile: ogni lettera risulta composta da piccoli punti (i pixel) che insieme formano l'immagine del carattere. Durante il procedimento OCR, il computer analizza la disposizione dei pixel e le forme che essi definiscono ricavando i corrispondenti caratteri e producendo un file di testo.
6. Come funziona la ricerca? Quali opzioni offre?
Per effettuare una ricerca nell'archivio è sufficiente inserire una o più parole nel form di ricerca; vengono restituite le pagine corrispondenti di cui viene mostrata come anteprima l'area più rilevante; è poi possibile visualizzare l'intera pagina o consultare l'edizione completa a cui la pagina appartiene.
La ricerca avanzata permette di specificare l'edizione di interesse e il periodo su cui effettuare la ricerca.
È anche possibile indicare se l'ordinamento deve essere effettuato per rilevanza o data, o raffinare ulteriormente la ricerca attraverso i filtri posizionati nella colonna destra.
7. Perché la parola cercata è presente nel documento PDF ma non viene evidenziata o viene evidenziata in modo incorretto?
Il riconoscimento automatico dei caratteri (vedi domanda n. 5) è un procedimento complesso che può comportare errori come ad esempio l'errata spaziatura delle parole oppure lo scambio di lettere o gruppi di lettere con tratti visivi simili (as ecempio "c" al posto di "e" oppure "m" al posto di "ni").
Benché il procedimento sia stato eseguito nel modo più accurato possibile ed avvalendosi di tecnologia allo stato dell'arte, è possibile in alcuni casi una discrepanza tra il testo estratto dal documento e quello visualizzato nel documento PDF. Questo fenomeno è maggiormente frequente nelle edizioni più antiche a causa della minore qualità del supporto cartaceo originale.