Informatica e Ricerca Bibliografica PDF

INTRODUZIONE 01/10 Che cos’è l’informazione? Prodotto di attività e strumenti comuni a tutti i contesti disciplinari , quindi tecniche strategie e strumenti per fare domande e recuperare risposte valide (e/o i documenti che le ottengono) su qualunque argomento. Questo concetto è stato modificato dall’arrivo dell’IA, come chatgpt e Co. PROGRAMMA fare ricerca bibliografica= - capire cosa sono i documenti che cos’è la letteratura scientifica. - fonti secondarie e metadati - indicizzazione bibliografica e full text - linguaggi controllati - operatori booleani e ricerche avanzate - database -> MEDLINE/PubMed e PycINFO Web of Science, Scopus, Google Scholar - piattaforme editoriali - cataloghi e servizi di biblioteca - archiviare, gestire e usare l’informazione bibliografica manipolare dati quantitativi= - introduzione a Microsoft Excel - inserimento dati - formule aritmetiche e logiche di base - tabelle, grafici, tabelle pivot - funzioni statistiche elementari - da Excel a R - installazione R, RStudio, pacchetti aggiuntivi - variabili e funzioni - strutture dati( vettori, data frame, liste) - funzioni grafiche e statistiche elementari IA generative= - definizioni elementari di IA generativa - machine learning - deep learning - reti neurali - come funziona chatbot di IA generativa - come fare domande a chatgpt - strumenti IA per le ricerche bibliografiche ESERCITAZIONI Per guadagnare punti all’esame (massimo 3) dobbiamo svolgere delle esercitazioni. Creare un file unico su ( word, open Office ecc..) in cui raccogliere tutte le risposte e caricarlo su Dolly entro il 20/12. -> la parte “ESERCITAZIONI”. é obbligatorio usare uno dei chatbot IA ( openIA, Gemini, Chatgpt ecc..), citarlo e ricopiare l’istruzione che gli abbiamo dato. Dopo che ci ha dato la risposta dobbiamo dichiarare se l’abbiamo accettata oppure no. In caso non l’avessimo accettata motivare il rifiuto. CONSIGLI Metteranno dei test di autovalutazione facoltativi su Dolly, molto simili all’esame. STRUMENTI Windows 11+ Microsoft 365 (forse serve il computer) Aula virtuale 08/10 Introduzione terminologica full text= testo completo di un documento in qualunque formato, nel senso non solo scritto ma anche ad es. una lezione online Library= biblioteca fisica presso la quale prendi i libri o studi, ma anche una collezione di documenti, anche digitali Banca dati(data base)= collezione di dati accessibile e ricercabile per mezzo di un sistema informatico. Digital library= biblioteca digitale-> è un caso particolare di database che raccoglie documenti full text accessibili online pero i quali aggiungono anche dei sevizi per la ricerca e uso dei documenti stessi. (In modo che i documenti siano ricercabili). Accesso aperto(open access)= nel senso che è gratuito, ma significa anche che un documento dove presentare zero restrizioni economiche, tecniche , legali nell’accesso all’informazione scientifica e nel suo riuso. Open archive= archivio aperto, biblioteca digitale di documenti in tutto in parte ad acceso libero. In parte nel senso che ci sono dei documenti che non sono ad accesso aperto temporaneamente perchè gli editori danno all’autore la possibilità di rendere aperti quegli reticolo o documenti dopo un certo periodo di tempo -> questo viene chiamato embargo=restrizioni temporanee. Piattaforma= sito web che fa da interfaccia per l’acceso a contenuti o digitali o servizi online. (Qualsiasi tipo di contenuto se online richiede una piattaforma che faccia da mediatrice per l’accesso a quei contenuti). Motore di ricerca= due significati: - motore di ricerca del web - software che presiede all’ interrogazione di una banca dati (es. PubMed è il motore di ricerca della banca dati MEDLINE). Metadati= dati sui dati, è la descrizione sintetica di aspetti essenziali per la gestione, ricerca, elaborazione e archiviazione dei dati (es. in un brano musicale i dati sono le note della melodia, i metadati sono tutti gli elementi che servono ad identificare quel brano musicale(il compositore, l’anno di creazione, la durata ecc… I dati sono l’oggetto e i metadati sono tutte le cose che descrivono l’oggetto e che servono per rintracciarlo e recuperarlo. es. in un film i dati sono i fotogrammi della pellicola e i metadati sono il nome del registra, attori ecc… es. articolo scientifico i dati sono il testo dell’articolo e i metadati sono il nome dell’autore, il titolo, anno di pubblicazione ecc..) Embargo= periodo di tempo in cui per una serie di ragione un documento non può essere esposto a chiunque STILI CITAZIONALI-APA STYLE Manuale APA (american psichological association) è l’associazione di categoria che rappresenta gli psicologi negli Stati Uniti. È un manuale di stile che dal 1929 circa stabilisce delle regole per la formattazione del testo, delle immagini e bibliografie nelle pubblicazioni scientifiche di psicologia e scienze sociali. Definisce anche le tipologie di studi scientifico, pianifica e struttura un articolo scientifico e quale linguaggio utilizzare. Lo stile apa è quello che si definisce uno stile bibliografico o citazionale-> è un insieme di regole stabilite a livello internazionale su come indicare una fonte sia all’interno del testo del documento che si sta scrivendo (in-text citazioni) che nella bibliografia finale (referente). Citazione e bibliografia sono importanti perchè tutte le volte che utilizziamo le idee e teorie elaborate da un autore è necessario citare la fonte d’informazione. Citare una fonte-> significa che all’interno del testo del mio documento indico da dove ho tratto quelle parole, immagini o idee e poi devo impiegare la citazione con i riferimenti bibliografici. L sono importanti perché : 7 non incorrere - nel plagio - x permettere al lettore di reperire il Testo originale alla propria X fornire prove - argomentazione I tre stili citazionali fondamentali: - Vancouver - Harvard ( lo stile apa è una variante dello stile Harvard) - Chicago STILE APA Prendiamo ad esempio a caso, all’interno le citazioni sono indicate da un sistema autore/i e data di pubblicazione (es. Zipfel et al., 2015). La bibliografia finale invece in ordine alfabetico a partire dal primo autore. Caratteristiche in-text citations(citazioni all’interno del testo)-> Es1. si indica il cognome e l’anno di pubblicazione Es2. Fonti con più autori es. 1 es 2. references (riferimenti bibliografici)-> (da pag.186 del manuale APA) l’ordine dei riferimenti è in ordine alfabetico del nome dell’autore. L il titolo della rivista va socito il corsivo LIBRO Gcodice che identifica in maniera univoca e persistente un'entità in una rete digitale ZOTERO I È un soft web bibliografico e la funzione di: - importa automaticamente i metadati - duplica i record - consente la gestione degli allegati full text - consente di creare delle schede di lettura -permette di formattare automaticamente le bibliografie Es di software gratuiti-> Zotero e mendeley (unica differenza è che Zotero è open source). Per scaricare zotero vai su Zotero funziona con la maggior parte dei cataloghi e delle zotero.org e fai download, banche dati a vostra disposizione prima installa il Si presenta suddiviso su tre colonne: a sinistra si può organizzare il materiale in programma (slide 38) e cartelle; in quella centrale ci sono i record bibliografici; a destra il dettaglio del segui le istruzioni che ti da singolo documento sulla quale siamo posizionati. zotero. Come si crea una cartella? (Slide 40) Zotero connettore è solo Come si caricano i record bibliografici all’interno della library: un’estensione di zotero. bibliomore-> è il catalogo delle biblioteche Unimore, che possiamo usare per cercare i libri cartacei e dove si trovano. Ci consente anche di cercare banche dati, articoli di periodici online ecc… (catturare record bibliografico slide 42/43) (web of Science slide 45/46/47) (come funziona zotero 47/48/48/50/51)-> ci sono diverse icone di cattura in base alla tipologia di documento che zotero riconosce in quella pagina) (cosa posso fare su zotero slide 55/56/57) modalità manuale -> (slide 53/54/55) 7 -taggare (i tag li trovi nella parte sinistra di zotero) -duplicare i record -per cancellare una cartella basta selezionare la cartella con il destro e ti chiede di eliminarla -duplicare i record (slide 58) -cancellare un record (slide 59) Come formattare i record (puoi farlo per la terza domanda del film) in uno stile bibliografico preciso, si può fare in due modi: 1. Creare una bibliografia indipendente da un testo (usa questo per l’esercizio del film) 2. Creare una bibliografia collegata a delle citazioni legate ad un testo 1. Recupera i dati dei comuneti che mi sembrano utili, li seleziono nella colonna centrale con “control clic”, dopo averli selezionati fai “clic destro”, seleziona bibliografia agli elementi selezionati. A questo punto zotero chiede quale stile di citazione vogliamo usare per questa bibliografia, alcuni stili ci sono preeimpostati, lo salvi come “RTF” cosi si può aprire con un file di word. Poi ti chiede dove vuoi salvare la bibliografia, fai salva su “desktop”. (Slide 61/62/63/64/65). 2. Slide da 66 a 78 Aula virtuale14/10 (Si possono svolgere insieme le esercitazioni, al momento della consegna dobbiamo mettere nome, Cognome e matricole). DOCUMENTI SCIENTIFICI E PEER REVIEW Cosa sono i documenti scientifici? L’informazione scientifica per essere comunicata/recepita deve essere materializzata su supporti fisici, ossia su documenti scientifici= sono delle registrazioni di risultati della ricerca scientifica. Possono essere sia cartacei che elettronici. (Articolo, libro, brevetto, tesi ecc..) Verifica di scientificità(peer review)= (revisione dei pari) controllo di qualità da parte di esperti. La peer review è una sorta di controllo. Esperti=studiosi di comprovata esperienza nell’area disciplinare Dimensioni (regole) della qualità scientifica: in cui si colloca il contenuto originalità= affinché un documento sia definito considerato tale deve dire qualcosa di nuovo rispetto a conoscenze già acquisite. Metodo= un documento scientifico è definito tale perché la ricerca descritta in quel documento è stata condotta secondo le regole del metodo scientifico. Un documento che vuole aspirare alla pubblicazione e che deve essere valutato in merito alle sue qualità deve seguire le regole del metodo scientifico. impatto= deve esercitare un impatto sulla comunità di riferimento. Può essere un impatto clinico, bibliografico (l’articolo viene citato da altri all’interno dei propri lavori). Linguaggio= la scelta delle parole dovrebbe essere dettata dall’uso dei termini in un determinato settore disciplinare. La dimensione più importante è quella metodologica. Peer review significa che degli esperti leggono il contenuto e lo valutano. Può avvenire in diversi modi, però la peer review considerata ideale è il doppio cieco(double blind)-> l’autore non sa chi è il revisore e viceversa. (Es. in 4 ristoranti c’è una peer review perché sono tutti ristoratori ed essi devono valutare i ristoranti degli altri, ma la correzione non è fatta da un pari perché il conduttore si colloca ad un livello superiore rispetto agli altri e determina il vincitore. Es. x-factor c’è una review aperta, perché tutti sanno chi sono i giudici, i conduttori sanno chi sono i concorrenti, ma non è peer perché i giudici sono conosciuti e esperti e non sono alla pari di chi viene valutato). Letteratura scientifica=insieme dei documenti Peer Reviewed, cioè tutti i documenti che hanno passato il controllo di qualità dei pari. (Es. articoli pubblicati all’interno della rivista “Journal of Personality and Social Psychology”). Come faccio a sapere se una fonte ha subito una peer review? In alcuni casi c’è scritto ma non sempre. Per riconoscere i documenti scientifici, essendo impossibile fare una verifica puntuale titolo per titolo e dato che non siamo esperti in tutte le materie di un dovremmo valutare la scientificità dei documenti, utilizziamo una forma di verifica indiretta -> ci fidiamo del fatto che se almeno un database internazionale (PubMed; Scopus ecc..) ha incluso una fonte, cioè l’ha resa ricercabile, significa che l’ha ritenuta valida. Criterio del contenitore-> se il report bibliografico di un documento è presente in almeno una di queste banche dati, che accettano solo documenti peer reviewd, la fonte di provenienza pratica la peer review. Però ci sono due problemi: fonti non presenti nei database internazionali, ma che possono essere comunque considerati documenti scientifici (es. durante il covid-19-> il mondo si è trovato davanti allo stesso problema e chiunque avesse certe competenze ha cercato di trovare delle soluzioni e a comunicarle più veloce possibile agli altri. Quindi spesso non avevano aspettato i tempi della Peer Review). la peer review non funziona sempre in maniera adeguata (es. negli ultimi anni il dibattito di chi parla di scienza si è concentrato sui difetti strutturali della peer review-> articolo del Journal of personality and Social Psychology ritirati due anni dopo la pubblicazione perché il primo dei due autori aveva manipolato i dati. In un primo momento questo articolo è stato giudicato corretto dal punto di vista scienifico, poi successivamente l’articolo è stato ritirato a seguito di una falsificazione e manipolazione dei dati sperimentali). Gli articoli ritrati continuano a circolare ed essere citati e gli effetti sulle MedRxiv= strumento che contiene carriere degli autori, quando esistono, non sono immediati. le registrazioni bibliografiche e/o Tipologie di documenti full text di letteratura scientifica Sono presenti tutti i documenti scientifici in senso lato, cioè anche quelli prima che questa subisca il derivati da o preparatori di quelli scientifici, quindi quelli peer reviewed. controllo di Peer Review. articolo di rivista Questi documenti sono chiamati Versione preliminare dell’articolo pre-print. Libro Relazione di abstract di convegno Tretractindatabse.org è utile Dati della ricerca per fare una ricerca di articoli Brevetto ritirati. materiale didattico Tesi/dissertazione letteratura grigia= categoria che le interseca praticamente tutte. 2 ci sono molte connessioni ina Tutte le categorie. versioni preliminari dell'articolo diventano articoli - - > recazioni abstract di convegno - articolo di rivista > - Libro > - brevetto Y materiale didattico - libro - > materiale didattico - dati della ricerca e articolo di rivista > ↓ ↓ Tesi - relazione brevetto - > v. preliminare di articolo e Abstract di convegue Ci sono delle complicazioni, queste derivano dal fatto che la definizione data al documento scientifico non è applicabile a tutte le documentazioni scientifiche-> - nell’artciocolo di rivista la peer review è il requisito di base ma non sempre omogenea. - relazioni abstract di convegno, a volte è difficile creare lo stato di peer review - dati della ricerca spesso non sono condivisi o sono condivisi in maniera non appropriata, quindi è difficile accertare lo status del controllo. - brevetto è difficile da leggere e da cercare, la peer review ha un significato diverso rispetto agli articoli - il materiale didattico deriva da materiali revisionati che spesso non sono aggiornati o sono di bassa qualità - la tesi nonostante sia valutata da una commissione, spesso sono tesi compilative oppure copiate. - nella letteratura grigia lo status di peer review è impossibile da accertare. libro-> è lo strumento principale di sintesi e analisi critica delle conoscenze acquisite a, a seconda dei settori di ricerca, può anche ottenere dei risultati originali. In tutte le tipologie c’è il numero andare, un codice che identifica univocamente quel documento. I du numeri al di sopra e al di sotto del codice a barre si chiamano ISBN( International Standard Book Numbers)-> un numero ha 13 cifre, l’altro 10 e entrambi si identificano univocamente, a livello internazionale, questa specifica edizione e formato del libro. Nel retro del libro c’è scritto chi è l’autore, dove lavora e cosa fa; questo perché la valutazione dei documenti scientifici dipende in buona parte dalla reputazione delle persone nelle pubblicazioni. anche le bibliografie sono molto importanti perché fanno una pre-selezione o pre-valutazione delle fonti essenziali in un dato settore o su un. Certo argomento. ( parole in un libro cartaceo dell'indice le ↑[ Indice analitico= è un insieme ↓ le sceglie di parole comuni o anche 2 l'autore se il libro è in , ma nomi propri collegati alla formato digitale puo cercare pagina in cui compaiono. Come si cercano i libri? quelle vi L’indice analitico dei libri cartacei è una prima Le librerie online e le biblioteche garantiscono in generale una buona copertura approssimazione di una Dei libri recenti degli editori più importanti, sia italiani che esteri. funzione fondamentale di tutti Con il prestito locale e interbibliotecario si può recuperare quasi tutto. Quello che i database che si basano il non è fisicamente disponibile può essere recuperato virtualmente ma il problema è concetto di indicizzazione. che sono limitati alla circolazione cartacea di poche copie dello stesso testo e sono servizi più lenti rispetto all’accesso online. Negli ultimi anni gran parte del mercato editoriale passa da Amazon e acquistare un libro su questa piattaforma può essere costoso. In più gli eBook presenti su Amazon sono protetti da DRM= da softwer che non consentono di manipolare liberamente gli eBook. (+ gli editori italiani sono spesso più indietro rispetto al mercato anglosassone sugli eBook. Per i libri italiani bisogna accontentarsi del cartaceo passando dalle biblioteche). 15/10 INTELLIGENZE ARTIFICIALI GENERATIVE Quali delle seguenti cose non si puo fare in zotero? Fare calcoli statistici di base e avanzati e citarli automaticamente in bibliografia. L’epoca artificiale tra luci e ombre: Le luci Il 30 novembre 2022 nasce ChatGPT=il software governato da IA che risponde a richieste definite “prompts” in linguaggio naturale. Pochi giorni successivi a questa pubblicazione, ChatGPT ha avuto un’esplosione di utenza. (Anche gli psicologi e psicoterapeuti si sono accorti che con questo strumento si potevano fare ose utili per la loro attività). Da novembre 2022 sono state rese disponibili decine di migliaia di app di IA generative sviluppate negli ultimi due anni (es. futurepedia; open future ecc…). Molti settori sono stati rivoluzionati grazie all’intelligenza artificiale, come per esempio: sanità, finanza, industria e HR, agricoltura, marketing, urbanistica, ambiente, arti creative. Sanità-> medicina personalizzata, per provare terapie adatte al singolo paziente bisogna analizzare moltissimi dati e questo non è alla rotata dell’intelletto umano invece l’intelligenza artificiale riesce a farlo. Analisi dati per diagnosi e previsioni cliniche. Progettazione farmaci: l’intelligenza artificiale può prevedere se un farmaco di cui è stat proposta la formula ha buone probabilità di riuscita. Finanza-> trading algoritmico; valutazione rischio; previsioni errato; consulenza finanziaria personalizzata. Industria e HR-> logistica e supply chain management; manutenzione predittiva; controllo qualità; automazione screening curricula. Agricoltura-> monitoraggio dei raccolti; agricoltura di precisione; sviluppo di nuove culture; previsioni del meteo e rischio infezioni; robotica agricola. Marketing-> personalizzazione di campagne pubblicitarie; analisi predittive del comportamento dei clienti; automazione servizi di assistenza clienti. Urbanistica-> pianificazione urbana; gestione del traffico; ottimizzazione dell’uso delle risorse. Ambiente-> previsioni del meteo e dei disastri ambientali; monitoraggio dei cambiamenti climatici; monitoraggio e conservazione delle specie viventi. Arti creative-> si possono creare immagini in pochi secondi, anche simili a quelle vere, si può automatizzare il lavoro di modifica di un’immagine o video. Doppiaggio. Creare storie. Applicazioni alla ricerca scientifica -L’intelligenza artificiale di google ha imparato a recedere la struttura delle molecole -scoperta una nuova classe di antibiotici -scoperti dei nuovi materiali stabili Fu assegnato il premio nobel in fisica a John J. Hopfield e Geoffrey E. Hinton, per le coperte che hanno reso possibile il machine learning. Applicazioni di uso quotidiano Tutte le volte che andiamo su Amazon oppure Spotify e ci suggeriscono un prodotto da acquistare o una canzone da ascoltare ecc…, questa è intelligenza artificiale in atto, sono i sistemi di raccomandazione dei contenuti. Anche il riconoscimento facciale è oggetto di intelligenza artificiale. Differenza tra intelligenza artificiale e intelligenza generativa-> l’intelligenza artificiale ha un campo di ricerca molto vasto che include molti argomenti di ricerca, mentre l’intelligenza generativa è un sotto insieme dell’intelligenza artificiale. Applicazioni futuristiche -Elon Mask ha presentato il robot umanoide, robot che hanno metraggio con il pubblico. -Abel il robot adolescente con gli occhi umani e che reagisce alle emozioni. -OpenAI ha introdotto il modello o1 Qualcuno ha iniziato a parare di primi sintomi di AGI= Artificial General Intelligence, ossia intelligenza artificiale capace di comprendere, imparare e svolgere qualsiasi compito intellettuale umano senza essere programmata specificamente per ogni singolo compito. C’è anche chi pensa che siamo vicini alla Artificial Superintelligence= sistemi IA che superano l’intelligenza umana in tutti i campi e su tutti i compiti. E sono anche capaci di autoprogrammarsi. (È ancora pura fantascienza ma stanno facendo progressi). Come si possono usare questi strumenti per potenziare le abilità di studio e capacità di assorbimento e approfondimento di ciò che si studia: Chatbot onniscienti a portata di click Attività caratterizzanti-> ricerca delle fonti e la produzione di contenuti. In entrambe queste attività, questi strumenti possono offrire un supporto sostanziale, a patto di conoscere le potenzialità e il limiti di questi strumenti. (Bisogna capire in che senso formulano una conversazione umana). Le ombre voci critiche-> il filosofo Luciano Floridi, dice che l’intelligenza artificiale non è intelligente. Noam Chomsky parla di falsa promessa di ChatGPT, secondo lui l’intelligenza generativa è un plagio mascherato, nel senso che copia dei pezzi senza citare la fonte. difetti di fabbrica-> l’intelligenza artificiale ha dei pregiudizi, perché ha dei BIAS (anche gli esseri umani li hanno). Hanno dei BIAS perché per poter funzionare hanno bisogno di serre addestrati su una grande quantità di testi e a seconda di come tu scegli il dataset di addestramento hai già un primo BIAS che è non andare oltre quello che c’è nel dataset di addestramento. problemi etico-legali-> gli attori di Hollywood sono andati in sciopero perché hanno paura di essere clonati e poi riutilizzati anche dopo la loro morte. Gli scrittori americani si sentono minacciati infatti hanno introdotto BIAS= pregiudizio l’etichetta “scritto da umano”. Nel 2024 l’UNione Europea ha introdotto l’ Artificial Intelligence Act= è la legge sull’intelligenza artificiale. Ha un approccio basato sul concetto di rischio-> la preoccupazione dell’EU è quella di trovare un insieme di regole condivise per proteggersi dai rischi maggiori dell’IA. impatto ambientale-> per tenere in piedi server di open AI ecc.. ci vuole una quantità di risorse energetiche e di acqua per raffreddare i processori che è incompatibile con qualunque altra situazione precedente. Impatto culturale-> è diventato molto facile creare delle fare news. Impatto sociale-> quando le IA entreranno in maniera capillare nelle aziende potranno mettere a rischio molti posti di lavoro. impatto psicologico educativo-> L’intelligenza artificiale come ChatGPT può rare la nostra intelligenza?-> l’uso di CatGPT può favorire la procrastinazione, perdita di memoria e compromettere le prestazioni accademiche degli studenti. impatto sulla comunicazione scientifica Domanda esame-> che cos’è l’AGI? Artificial Geeral Intelligence, una forma di intelligenza artificiale in grado di comprendere, apprendere e svolgere compiti intellettuali allo stesso livello dell’essere umano. ESERCIZIO DA METTERE NEL DOCUMENTO DEGLI ESERCIZI INTELLIGENZA ARTIFICIALE (IA) È lo studio e progettazione di software e hardware capaci di simulare l’intelligenza umana. Ogni valutazione dell’IA dipende da cosa si intende per intelligenza. IA può voler dire molte cose, però c’è una distinzione fondamentale-> c’è un’intelligenza artificiale discriminativa che è specializzata nel riconoscere e classificare gli oggetti. (Es. riconoscimento facciale; riconoscimento vocale; identificazione delle mail di spam; identificazione delle patologie all’interno di immagini mediche). E un’intelligenza specializzata generativa nel generare oggetti (testi; immagini; audio; video). Settori di ricerca 1. Intelligenza artificiale 2. Machine learning 3. Deep learning 4. Data science Come si cercano i libri? Aula virtuale 21/10 Gran parte del mercato editoriale passa da Amazon, quindi non solo opera come unico fornitore, ma è anche monopsonista= è l’unico acquirente. Quindi nonostante i prezzi siano contenuti possono risultare incompatibili con il budget mensile di uno studente. Per gli eBook Amazon pubblicati da gennaio del 2023 è virtualmente impossibile eliminar la protezione DRM=Digital Rights Management= tutte le tecnologie per limitare e controllare l’esecuzione e la copia di contenuti digitali. (Un libro protetto da DRM può essere aperto solo dai dispositivi collegati al proprio account e non può essere trasferito da altri). La situazione ideale per lo studio sarebbe avere il full text del libro subito in versione digitale e in maniera gratuita. Ci sono delle soluzioni totalmente gratuite-> - internet archive - google libri Sono delle biblioteche digitali di eBook che si trovano nel publico dominio= i documenti sono in open access, totale libertà e gratuità di accesso, riproduzione e riuso. Come diventa di pubblico dominio? 1. Sono privi di copyright per volontà del titolare diritti 2. Tutti gli autori del documento sono morti almeno da 70 anni Queste piattaforme hanno un limite, perché hanno opere piuttosto vecchie, quindi vanno bene per ricerche storiche ma non ricerche su argomenti attuali. (Tutto quello che c’è su Internet Archive è tutto open, mentre su Google libri c’è una parte di dominio pubblico, ma ci sono anche i libri degli editori commerciali, che usano google libri come vetrina per vendere i propri libr. in questo caso google libri fa vedere solo una preview del libro, ma se lo vogliamo leggere tutto dobbiamo pagare). 4 modalità di consultazione di eBook: Prestito (Pandoracampus) Lettura online (WKI) Download (Darwinbooks) Prestito con Emilib 1 (. PANDORACAMPOS + presentazione). WOLTERS 2 KLUWER ITALIA presentazione) It presentation. DARWINBOOKS 3 DRM= software anti copia/ modifica/conversione ad altro Si può scaricare i libro informato EPUB-> formato formato tutela il titolare dei diritti digitale per la distribuzione di eBook. d’autore su un documento La formattazione si adatta alle dimensioni impedendone la copia e la dello schermo riproduzione indiscriminata. Necessità di un lettore apposito: Adobe digital edizioni/Calibre In genere gli eBook in formato EPUB sono protetti da un sistema di DRM. DRM Adobe I file EPUB roteati con DRM Adobe possono essere letti solo in Adobe digital edizioni dopo aver registrato un account Adobe e autorizzato il dispositivo che stiamo utilizzando. Tutti i file non protetti da DRM Adobe possono essere letti e convertiti da un formato a un altro mediante un software open source e multi piattaforma, chiamato Calibre. Download eBook (EPUB con DRM Adobe) La prima volta che si scarica un eBook in questo formato, è necessario: -crearsi un Id Adobe T PRESENTAZIONE -scaricare Adobe Digitals Editions (Da 60 A 66) -autorizzare Adobe Digital Editions con l’Id Adobe 4. Prestito con Emilib il limite di questa risorsa è che il prestito dura poco (due settimane), la maggior parte dei contenuti non sono di interesse accademico. alla scadenza dei 14 giorni di prestito l’e-book sparisce automaticamente dal dispositivo. È un sottoinsieme di MLOL (mediaLibrary OnLine)= network di biblioteche pubbliche per il prestito digitale. Emilib= è il portale delle biblioteche emiliane per l’accesso, previa autenticazione, a contenuti digitali nonché per il prestito digitale degli eBook. (+presentazione dalla 68 alla 85). Tutti i costi, restrizioni d’uso e vincoli di riuso degli eBook acquistati su Amazon o accessibili tramite biblioteca hanno dato un forte impulso allo scaricamento illegale di molti libri (pirateria informatica) che si manifesta in diverse forme: 1. Vere e proprie biblioteche digitali piratate-> Library genesis e ZLibrary. sono siti dove basta inserire il titolo del libro o autore e il sito presenta un link per scaricare il pdf. 2. inizialmente ci sono delle Digital Library he catalogano dove è possibile cercare libri piratati e si chiamano siti di file hosting, poi su questi siti c’è il link al server pirata.solitamente sono link temporanei e nel giro di qualche giorno potrebbero anche cambiare. Che cos’è un preprint di articolo scientifico? 22/10 Significa prima della stampa, però nella comunicazione scientifica sono tutte le versioni che non sono ancora state revisionate. Machine learning E un insieme di algoritmi che consentono a una macchina di apprendere dai dati. Questo può avvenire in due modi: - intervento esplicito del programmatore umano che mostra alla macchina il risultato fiale che si vuole ottenere (supervised) - senza intervento dell’essere umano (unsupervised) 2 fattori essenziali per lo sviluppo del machine learning furono la disponibilità dei big data e lo sviluppo di algoritmi avanzati di apprendimento profondo (Deep learning). Per poter funzionare, il Deep learning, ha avuto bisogno di big data (grandi quantità di dati). ↳ SV : - volume - sono tanti -Variety provenienza e natura diversa e sono dati di Velocity generati con una velocità assurda - - vengano - -VERACITY sono accurati e devono rispecchiare ie - VALUE > - hanno valore dominio di cui si vuole rispecchiare un modello (Le fonti sono: Web, dispositivi mobili, Internet of Things-> es. frigorifero che può essere programmato da remoto ecc..). Deep learning (Vera matrice di ChatGPT ) È una sotto aerea del machine learning che fa uso di modelli atematici chiamati reti neurali artificiali (Artificial neural network) per elaborare rappresentazioni complesse dei dati. Le intelligenze artificiali generative (come ChatGPT) sono un sottoinsieme del Deep learning e fanno uso di rei neurali artificiali. Cos’è una rete neurale? È un modello matematico ispirato al funzionamento del cervello umano, Ci sono i neuroni collegati alle sinapsi; in una rete neurale ci sono dei nodi (neuroni) collegati tra loro mediante funzioni matematiche (pesi=sinapsi). Es. ipotizziamo di voler costruire un ChatGPT che risponda a domande su un unico concetto, tipo “regina”. Quando il modello inizia ad apprendere, la rete neurale deve imparare a riconoscere tutti i possibili significati del concetto regina dal dataset di addestramento. Per fare ciò inizia a prendere tutte le frasi che parlano di regina e le divide in pezzi che si chiamano tokens (tokenization); tutti i tokens vengono convertiti in numeri in fila, chiamati vettori (embedding); questi Gruppi di numeri poi vanno a finire nello strato di imput della rete neurale, vengono elaborati e gli vengon assegnati dei pesi. (Si moltiplicano i numeri dei vettori con altri numeri) I tokens vengono convertiti in numeri. tokenization-> le singole frasi vengono divise in tokens= unità minime di testo elaborate dal modello per comprendere e generare il linguaggio. Ha bisogno di spezzare le frasi perché in questo modo può utilizzare per esempio le radici delle parole per identificare più concetti che possono essere collegati tra loro, così il modello può economizzare le risorse disponibili perché parte dalla radice. Quando i tokens entrano nella rete neurale il modello impara le relazioni tra di loro nel contesto. L’apprendimento avviene tramite l’aggiornamento dei umori che compongono i vettori-> moltiplicazione dei vettori con altri numeri chiamati peso o parametri(numeri che la rete neurale applica ai tokens in ingresso, durante la fase di addestramento, che servono a collocare ciascun vettore nel contesto più appropriato. Al termine della fase di apprendimento, il modello è in grado di distinguere in base al contesto tanti significati del termine (es. regina). Più sono i parametri in grado di elaborare, più raffinata è la rappresentazione di tutti i possibili significati che una parola può avere in tutti i contesti possibili in cui si trova. Grazie L numero enorme di parametri/pesi che ChatGPT&Co sembra che capiscano quello che diciamo. Domanda d’esame: quale delle seguenti affermazioni è falsa? I modelli discriminativi possono generare nuovi contenuti come immagini o ChatGPT e Gemini testi. FALSA ad esempio hanno Fanno solo classificazioni, sono i modelli generativi quelli che generano nuovi risultati. + di 1500 miliardi di parametri. - > esercizio da Mettere nee gien delle domande. Chatbots Sono un’applicazione del Deep learning, delle reti neurali. Sono assistenti virtuali con IA incorporata, esistono da anni-> rispondo a domande semplici ma non generano contenuti originali, infatti non sono strumenti di intelligenza generativa. I chatbot di adesso (stile ChatGPT) sono chatbot generativi e LLMs. I chatbot muniti di IA generativa sono software bassati su reti neurali specializzati nella comprensione del linguaggio e nella generazione di contenuti originali. Per fare ciò devo essere addestrati su enormi uantità di dati, questi modelli si chiamano modelli linguistici di grandi dimensioni o LLMs (large language models). CHAT - CHATBOTE Software progettato X conversare in linguaggio naturale con un Utente umano. - > CHATGPT GENERATIVE E genera con testo originale a partire da 2 prompt ma esistono modelli murtimodali ↓ un , anche andio, video capaci di generale immagini, PRE-TRAINED > - Addestrato su un vasto capos testuale TRANSFORMER > - Innovazione introdotta all'interno delle reti neurali chiamata Transformer. Modello avanzato di deep learning basato su reti neucali usato sia in gase di training che in gase di interpretazione dee. prompt Come fanno a capirci? 1. La rete neurale analizzata il testo nel dataset di addestramento e memorizza il modo in cui le unità di base che lo compongono si connettono tra loro all’interno di tuti i contesti d’uso possibili. 2. Quando riceve una richiesta dal’utente, il chatbot sfrutta l’informazione acquisirà per collocare la domanda nel contesto approriato e “indovinare” o “predire” le parole più adeguate da inserire ella risposta. quando scriviamo la domanda in chatbot, lui ragiona per probabilità. 3. Prima i generare la risposta, il testo del prompt è convertito in vettori numerici (embedding) e passa da vari strati della rete neurale. La rete neurale assegna dei pesi alle diverse parole del prompt e decide a quali prestate più attenzione in quanto più correlate al contesto e alla domanda cui sta cercando di rispondere. il modello calcola le parole o frasi da mettere in fila nella riposa scegliendo quelle più correlate alle parole/ frasi degne di maggiore attenzione. Per mettere in fila le parole ha bisogno di interpretare il Testo della domanda con il meccanismo dell’attenzione. È stata un innovazione molto recente-> capacità del Sistema di elaborare in parallelo tutte le parti di una sequenza di testo anzichè rovesciarle una alla volta + è capace di attribuire diversi livelli di importanza (attenzione) ad ogni parola di una frase in relazione a tutte le altre in modo da catturarne meglio il significato. Come funziona una rete neurale? L’attenzione non elabora sequenzialmente una frase, ma la elabora in parallelo tutta assieme e assegna pesi differenti METE IN FIL Le PAROLE ad ogni parola. Quello che hanno imparato i computer, con il meccanismo dell’attenzione, è avvicinarsi leggermente al modo i cui noi elaboriamo il significato di una frase tutta insieme (infatti noi non spezziamo le frasi). L’assegnazione dei pesi avviene durante la fase di addestramento: il transformer incontra tantissimi esempi di frasi simili a questa e impara di conseguenza quale parola aspettarsi più collegata a “regina” in un contesto simile. FUNZIONAMENTO DI UNA RETENEURALE) ALTRI FATCRI Decisivi 2 1. Gli stessi ricercatori non si spiegavano il fatto che sia bastato aumentare la potenza di calcolo (aumentare i processori delle schede grafiche) per ottenere risultati sempre migliori, quindi aumentare la capacità del chatbot di svolgere compiti sempre più complessi e creativi. 2. Se ChatGPT funzionasse sempre in modo così deterministico, sarebbe inutile e scontato, un ripetitore di luoghi comuni. La svolta è avvenuta quando in questo processo si è introdotto il “caso”-> non prendere la parola più probabile ma una. A caso tra quelle più probabili e così i testi sembrano più umani. Il livello di creatività del modello dipende da un parametro chiamato “temperatura”, che si può modificare. La temperatura di un modello ci permette di scegliere tra le risposte possibili anche quelle meno probabili. Se il parametro è =0 si ottiene sempre la stessa risposta alla stessa domanda. La quantità di testo complessiva che un modello può gestire dipende da un parametro chiamato Maximum Tokens. Nel modello 4 di ChatGPT il limite teorico complessivo è di 128000 tokens (quasi un libro). Mentre nell interfacce di uso quotidiano il limite reale e di 4095 tokens, quindi 7-8 pagine di foglio A4. RISPOSTE UMANE - > ILLUSIONI GICHE Aula virtuale 28/10 Scaricamento illegale di libri: 3. Canali e bot telegram che possono essere utilizzati per condividere contenuti come anche i libri bot= script(programma) che permette di interrogare dei server che erogano dei servizi in modo automatico tramite API-> (applcation programming interface) interfaccia di programmazione delle applicazioni, software che permette a due applicazioni di comunicare tra loro sfruttando i protocolli del WWW. Consente ad un utente di interrogare un servizio utilizzando l’interfaccia di messaggistica telegram e ottenere le informazioni che gli servono. È possibile riconoscere un bot su telegram perché nella maggior parte dei casi il suo nome finisce con il termine “bot”. I nomi dei bot specializzati in certe operazioni si cercano su google o su siti specializzati come The BOT Directory 4. Il Torrent-> è un modo per scaricare e condividere file su internet utilizzando una tecnologia chiamata “peer to peer”. es. con il protocollo BitTorrent il file del documento pirata ti viene spezzettato tra tutti i computer della rete. È necessario un file chiamato indice che contiene l’elenco e la localizzazione di tutti i frammenti (è una mappa che ci dice dove sono localizzate su internet tutte le part del file). Poi ci vuole una digital Library che i permettono cercar e scaricare il file ndice associato ai meta dati del documento che stiamo cercando. Quando scarichiamo il file indice e ci clicchiamo sopra, serve un software specifico che avvia lo scaricamento dei pezzi del file. (non è tutto illegale quello che si scarica da Torrent) Relazione e abstract di Convegno I convegni sono degli strumenti di comunicazione rapida e networking a avvicinamento sociale tra i ricercatori. La ricerca di punta e gli hot topics, prima di finire negli articoli passano da relazioni di convegno. Possono essere chiamati in maniera diversa in base alla struttura e finalità (conferenze; congressi; meeting ecc..). I convegni hanno 2 output: 1. La relazione di convegno-> (conference paper) è un testo simile a un articolo chiamato relazione di convegno. Viene pubblicato all’interno di volumi chiamati “Atti di Convegno” (conference proceedings)= si prendono tutte le redazioni presentate ad un convegno e si raggruppano all’interno di un contenitore che sono gli atti di convegno. Questo tipo di pubblicazioni fa parte di una categoria che definiamo “letteratura grigia”, che dato che non circola in canali convenzionali, spesso non ha peer review. È un materiale difficile da recuperare. 2. Abstract di convegno-> è un riassunto delle relazioni di convegno. Gli atti di convegno a volte contengono solo i riassunti delle relazioni che gli autori hanno svolto in presenza durante il convegno. Gli atti di convegno che contengono solo gli abstract sono chiamati “meeting abstracts” e sono pubblicati dalle stesse riviste scientifiche. Non necessariamente un abstract di convegno rimanda a una pubblicazione più sostanziosa (relazione o articolo). In alcuni casi può assumere una forma grafica: il poster= una sintesi di finalità, metodi e risultati di un progetto di ricerca presentata per mezzo di testo e immagini. Come si cecano le relazioni e abstract di convegno? Sono documenti difficili da trovare perché sono pubblicati al di fuori dei canali editoriali tradizionali. I database multidisciplinari come Scopus e Web of Science indicizzano anche questi materiali, anche se in misura limitata. Gli abstract sono spesso reperibili online, si trovano con google e google scholar o direttamente sui siti delle associazioni professionali. (Social Psychology network) Dati della ricerca Tutti i dati generati durante un’attività di ricerca necessari a validare i risultati raggiunti e di cui si è rimasta una qualche traccia. (Es. file di testo con dati o protocolli sperimentali; fogli di calcolo con misurazioni empiriche; output di software; questionari; scale di misura; test; fotografie e registrazioni audio-video; script; algoritmi…). I dati della ricerca sono diventati importanti nelle politiche del movimento open science negli ultimi anni, con l’obiettivo di rendere più semplice la diffusione e comunicazione della conoscenza scientifica. Di recente i programmi di finanziamento della comunità europea per la ricerca scientifica, richiedono l’obbligo di recedere open access, non soltanto le pubblicazioni ma anche i dati di quella ricerca nel caso in cui fosse possibile. I dati che si trovano sulle piattaforme che li rendono disponibili, a volte, presentano delle difficoltà, perché esistono anche staccati dalle pubblicazioni scientifiche e si trovano spesso privi di descrizioni appropriate e istruzioni per l’uso-> difficoltà oggettive di identificazione, ricerca, riuso e citazione. Come si cercano i dati ella ricerca? ci sono archivi multidisciplinari che sono diventati un punto I riferimento per ricercatori di tutte le aree (come Zenodo; Harvard Dataverse ecc..). C’è un portale di riferimento-> dataCite.org che si occupa di promuovere le politiche di diffusione dei dati della ricerca e consente la ricerca centralizzata anche su altri repository. Google ha, da pochi anni, introdotto una funzione di ricerca specializzata nei dataset chiamata: Google dataset Search-> consente la ricerca centralizzata di dataset su migliaia di archivi online (ad acceso libero e a pagamento). Ci sono delle piattaforme utilizzate dagli informatici per fare delle competizioni di programmazione in cui vengono ospitati sia i dataset collegati a ricerche scientifiche sia i dati utilizzati per risolvere problemi di programmazione. Sono nate anche delle riviste internazionali peer reviewed specializzate nella pubblicazione di research data. (Es. Journal of open Psychology data). Brevetto È un titolo giuridico che conferisce al titolare un monopolio di sfruttamento economico, in un dato territorio e per un periodo determinato. Consiste nel diritto esclusivo di realizzare quell’invenzione, vietando queste attività ad altri soggetti che non sono autorizzati. Per ottenere un brevetto devi avere dei requisiti: Su Google Patents invenzione nuova se scriviamo una Non ovvia parola con la radice Dotata di un applicabilità industriale= deve essere replicabile su larga scala “psychol” troviamo Il controllo dei requisiti di “brevettabilità” è svolto dagli uffici brevetti nazionali o più di 9000 brevetti. Transnazionali (EPO; USPTO) e il controllo dei requisiti è una sorta di peer review, con una forte componente giuridica e bibliografica (si accerta che un oggetto sia effettivamente nuovo, verificando che prima non se ne sia stat creato uno uguale). Come si cercano i brevetti ? sono legati al territorio in cui l’inventore presenta la domanda di brevetto, quindi una ricerca esaustiva su invenzione dovrebbe essere fatta sui siti di tutti gli uffici brevetti nazionali alcune piattaforme ad accesso aperto consentono la ricerca centralizzata sui database di tanti uffici brevetti nazionali (WIPO; Google Patents ecc…). Lacune piattaforme commerciali, come Derwent World arricchiscono i metadati di base con informazioni supplementari che facilitano la ricerca dei brevetti. Materiale didattico Si parla di corsi multimediali online gratuiti o a pagamento, erogati da università o e altri enti di formazione. Questi corsi hanno dei vantaggi: fruizione asincrona( puoi utilizzarli quando vuoi); interattività e la personalizzazione. I corsi gratuiti online utilizzati da chiunque sia connesso alla rete si chiamano MOOC(Massive Open Online Courses), ce ne sono molti in italiano sulla piattaforma eduopen, però non tutto è gratuito-> se vuoi ottenere delle lauree o master devi pagare. Come si cerca il materiale didattico? I MOOCs in italiano non sono molti, oltre a eduopen, si può cercare su Federica.eu e sull’’aggregatore di corsi europei EMMA. In inglese invece sono molti (come Coursera, edX ecc..). Esistono anche video riviste peer reviewed che pubblicano protocolli ed esperimenti sotto forma di video ad alta risoluzione (come JoVE e SciPro). Tesi e dissertazioni Tesi-> prodotto finale di un percorso di studio superiore, deve produrre dati oppure può fornire una rassegna critica degli studi precedenti non limitandosi a copiare frammenti da fonti diverse. Tutte le università hanno dei software anti plagio. Prendono il file della tesi, lo si da al software il quale è in grado di determinare la percentuale della copiature e quali sono le fonti. I software anti plagio si stanno attrezzando contro i testi generati di IA ma anche l’IA si sta attrezzando per produrre testi “umanizzati”. Come si cercano le tesi? dal 2012 in Italia esiste l’obbligo di depositare le tesi di dottorato in u archivio online gratuito. Ci sono dei motori di ricerca centralizzata delle tesi depositate in archivi nazionali ( Open Access theses and Dissertation). Digital libraries ad accesso ibero allestite da editori commerciali (PQDT Open) Archivi a pagamento degli editor commerciali (ProQuest) e per l’Italia (tesi online.it). Letteratura grigia È un documento, di qualunque tipologia, che non viene diffuso tramite canali editoriali convenzionali. Tipologie piu importanti: brevetti Relazioni di abstract e convegni Protocolli di ricerca-> è un documento che descrive il piano di esecuzione di un esperimento scientifico, di uno studio clinico. Si tratta di un documento che negli ultimi anni è diventato molto importante in tanti settori perché è un sorta di garanzia del fatto che lo studio collegato ad un determinato progetto è svolto secondo criteri qualitativi soddisfacenti. Descrive la sequenza di operazioni che bisogna compiere per ottenere un determinato risultato e nella forma più evoluta subisce peer review ed è indistinguibile da un articolo scientifico. (Springernature). Registrazioni di trial clinici-> è un documento che pubblicizza la realizzazione di uno studio clinico osservativo o sperimentale per testare l’efficacia e la sicurezza di un trattamento. La registrazione di un trial clinico è simile a un protocollo di ricerca ma fornisce anche informazioni chiave sullo studio a potenziali partecipanti. Un database di trial clinici (ClinicalTrials.gov è fondamentale anche dal punto di vista dei pazienti. Tesi e dissertazioni Preprint, working papers Newsletter, blog, white papers linee guida-> sono delle raccomandazioni cliniche e terapeutiche finalizzate ad assistere medici e pazienti nelle decisioni basate su una revisione critica e sistematica della letteratura esistente. Sono il principale strumento di lavoro dei clinici. La ricerca della letteratura grigia in ambito scientifico è molto difficile. In alcuni settori e per alcune tipologie esistono database open access(conference papers ecc) o commerciali (psycEXtra). Il più delle volte bisogna affidarsi ai motori di ricerca e partire dai siti degli entri che producono letteratura grigia. Domande esame Che cos’è BitTorrent? Un protocollo di condizione di file peer to peer. Cos’è la letteratura grigia? Documenti distribuiti al di fuori dei canali editoriali tradizionali. Articolo di rivista e versione preliminare dell’articolo Dal 1600 gli articoli scientifici sono l’unità costitutiva delle riviste scientifiche e le riviste scientifiche sono il perno della comunicazione scientifica. Questo vale nelle aree dette STEMM (science, technology, engineering, math, medicine), ossia le scienze dure. Nelle scienze umane, invece, prevalgono altre tipologie documentarie come i libri. Nelle scienze sociali e psicologiche, al prevalenza dell’articolo o del libro dipende da tradizioni accademiche e settori. Che cos’è una rivista scientifica? È una pubblicazione che esce a intervalli prestabiliti e in parti successive, ciascuna contenente un certo numero di articoli originali di autori differenti. Intervalli prestabiliti= la rivista può uscire una volta al giorno, al mese ecc.. Da un punto di vista formale una rivista scientifica non è molto diversa da una rivista normale. Quello che caratterizza la rivista scientifica è il contenuto: contiene una serie di contributi originali di contenuto scientifico. Gli articoli scientifici sono documenti peer reviewed. Problema-> -non tutte le riviste scientifiche sono peer reviewed - esistono elle riviste poco serie Questo però non significa che se non hanno subito peer review, debbano essere scartate o non considerate. Riviste predatorie ad accesso aperto-> i ricercatori, negli ultimi anni, pubblicano ad accesso aperto i propri articoli perché questo aumenta l’impatto dell’articolo. Un articolo accessibile a tutti anche a chi non può permettersi di accedere a certe riviste a pagamento, sarà letto e citato da più persone. Molto spesso per pubblicare in open access un articolo su una rivista di un editore commerciale, l’editore richiede il pagamento di una cifra (a volte elevata). Ci sono delle riviste chiamate predatorie, che oltre a chiedere soldi per pubblicare l’articolo ad accesso aperto, lo fanno senza filtro qualitativo: dichiarano di fare la peer review e poi non la fanno. (Le condotte predatorie sono diventate sempre più frequenti i questi anni e non è semplice smascherarle). Funzioni validazione-> è attuata dalla peer review. Se qualcosa non viene pubblicato in una rivista scientifica che fa peer review, non merita l’etichetta di scientificità. Registrazione-> funziona come time stamp, marchio temporale, che definisce la priorità su una scoperta scientifica. Se ci sono due ricercatori che lavorano sullo stesso problema, se uno dei due arriva prima, la priorità della scoperta verrà riconosciuta a quello che pubblica prima. Pubblicizzazione-> con l’avvento di internet, non si è trovato sistema migliore che utilizzare l’articolo per pubblicizzare contenuti scientifici. Conservazione-> una rivista è un insieme di articoli che sono pubblicati all’interno di fascicoli. Svolge una funzione di conservazione sui server online degli editori commerciali. le riviste sono diventate uno strumento per valutare la coscienza scientifica. Si usano degli indici quantitativi di diffusione, dei numeri (es. quante volte una rivista viene citata da altre riviste). Come è fatta una rivista scientifica Gli articoli di una rivista escono in fascicoli la cui numerazione rispecchi la periodicità. Solitamente i fascicoli vengono raggruppati in volumi annuali. Tutto ciò che l’IA generativa fa dipende da calcoli probabilistici e da distanze o similarità tra vettori numerici. 5/11 Più aumenta la capacita di calcolo più è possibile associare ad ogni pezzo di parola (token) un numero di pesi o parametri. L’IA generativa fa un remix di ciò che ha imparato a conoscere nel dataset di addestramento, ma non applica o apprende alcun filtro o regola per distinguere vero/falso, morale/immorale, giusto e ingiusto. Per inserire queste regole/distinzioni, in un sistema che funziona sulla base di algoritmi, bisogna integrare chatgpt con 2 tipi di fonti esterne: 1. Fonti bibliografiche (citazioni di articoli, libri, siti web e), tutto ciò che consente di fare fact checking, ossia controllare la veridicità dei fatti. (Quello che stiamo facendo nelle aule virtuali). 2. Sistemi di filtro/regolazione delle domande e risposte ammissibili (censura). Come si tracciano i confini etici dell’IA generativa e chi li decide? (Come fa chatgpt a sapere a quale domanda può rispondere e a quali no ecc). Chatgpt affronta domande problematiche dal punto di vista etico attraverso un sistema di regole predefinite e un processo di addestramento. I modelli sono allenati con dataset che escludono contenuti esplicitamente dannosi o inappropriati e vengono applicati filtri e controlli continui. Inoltre, e aziende implementano vincoli etici tramite fine-tuning (si prende un dataset oltre quello di addestramento in cui allenano l’intelligenza artificiale a riconoscere tutte le frasi potenzialmente problematiche dal punto di vista etico) e moderazione, impostando linee guida per evitare risposte che muovano violenza, discriminazione, o altre forme di danno. Le risposte dono progettate per rispettare standard di sicurezza e inclusività, minimizzando rischi di uso improprio. Una delle tecniche utilizzate per questo scopo è lo-> shadow prompting= è una tecnica di manipolazione del prompt che permette al sistema di orientare la conversazione verso una direzione specifica, senza che l’utente ne sia consapevole. Sono molto efficaci su questo versante · perché il codice ha una sintassi prevedibile e il web è pieno di software open source. Conclusione: alla fine non è una vera conversazione. Nonostante questo viene utilizzato per (applicazioni 1): generare testo originale per diversi scopi (pubblicità, fiction, saggi ecc) Generare codice a partire da una descrizione testuale Analisi dei dati e automazione report Indicizzazione documenti e generazione di riassunti di qualsiasi lunghezza Traduzione in qualsiasi lingua Già a partire dal 2023 sono stati sviluppati e commercializzati modelli multi modali-> capaci di elaborare non solo testo ma anche immagini(applicazioni 2) (immagini originali a partire da istruzioni testuali, ma anche editing e miglioramenti delle immagini già esistenti), audio e video (applicazioni 3)-> - generazione si musica, canzoni e video a partire dal testo o immagini. - editing video mediante istruzioni testuali (aggiunta di effetti speciali, montaggio, riassunti video). - potenziamento assistenti vocali - conversione testo-voce (audiolibri, supporto utenti con disabilita di vario tipo). Applicazioni 4-> di tutto di più: Chatgpt&Co possono essere collegati ad altre applicazioni, in maniera molto semplice, attraverso un gesto chiamato API (interfaccia di programmazione delle applicazioni)= è un insieme di regole e strumenti che consentono a diversi programmi o applicazioni di comunicare tra loro, facilitando o scambio di dati e e funzioni. (Es.1 accedi ad un servizio pubblico attraverso speed, i due sistemi comunicano tra loro grazie ad API. Es.2 quando dal telefono fai una foto e la metti su Instagram, il software del cellulare comunica con l’interfaccia di Instagram tramite l’API). Come vengono distribuiti gli strumenti di IA? Ad eccezione dei modelli open source, questi software sono distribuiti perlopiù con licenza freemium-> funzionalità di base o limitate gratis, funzionalità avanzate o complete a pagamento. L’accesso avviene quasi sempre per registrazione e fare login come su qualsiasi social o mail provider. Qualità risposte La qualità delle risposte di questi strumenti dipende da 2 fattori: la qualità della domanda, quindi dal modo in cui è scritto il prompt. La natura ed estensione del dataset di addestramento, quindi il modo in cui è stato addestrato. Scrivere un prompt è diverso dall’interrogare un database bibliografico tradizionale. In un prompt la delta delle parole è essenziale, a seconda di come scegliamole parole, il sistema si orienta nello spazio multidimensionale dei vettori numerici. La scelta delle parole attiva determinati percorsi all’interno della rete neurale, influenzando il contesti, il significati e il formato della risposta. Prompt engineering-> è l’arte di scrivere e/o ottimizzare le istruzioni per ricevere riposte utili da un LLM. È un arte perché non è una scienza. Scrivere e ottimizzare-> perché esistono strumenti che ci consentono di migliorare dei prompt di base. Questo lavoro è una professione del presente o del futuro prossimo per due motivi: - tutte le conversazioni con IA sono sono condizionate da regole e filtri al di fuori del nostro controllo. - i LLM si sanno evolvendo nella direzione di incorporare e anticipare quesiti complessi che inizialmente richiedevano prompt molto sofisticati. Domanda d’esame Cosa permette a un Large Language Model di generare testi che sembrano umani? La capacita di apprendere relazioni tra parole e contesto da enormi quantità di dati testuali. ↓ ESERCIZIO DA METTERE NEL FILE DELLE DOMANDE Prompt Design prompt= è un’istruzione fornita a un sistema IA per generare una riposta su un certo argomento. Esistono due tipi di prompt: manuale-> nell’approccio manuale sono io utente che decido quali sono le diverse parti del prompt seguendo certe linee guida. Posso limitarmi a domande semplici oppure formulare quesiti più complessi. Schema: COME DEVE FORMATTARE ② L RISPOSTA (CHE STRUTTURA DEVE USARE). ↳ CHE COSA VOGLIO DALLA FA. devo essere specifico Aula virtuale 11/11 Come è fatta una rivista scientifica Le riviste escono in fascicoli, i quali hanno una numerazione che rispecchia la periodicità. I fascicoli escono di solito raggruppati in volumi annuali. È importante conoscere la struttura della rivista, perché quando si deve richiedere un articolo che non è disponibile sull’archivio dell’ateneo oppure non è disponibile in una biblioteca, bisogna essere in grado di fare una richiesta corretta indicando tutto. ISSN (internazionale standard serial Number) è un codice di 8 cifre che identifica univocamente una pubblicazione seriale (non solo riveste) a livello internazionale. Ce ne sono due:quello della versione cartacea e quello della versione elettronica che viene preceduto da una “e” (eISSN). Se abbiamo avanti una rivista che non è indicizzata, quindi non rispecchia il criterio del “contenitore”, non c’è in nessuna delle banche dati; per valutarla bisogna controllare chi sono i responsabili del contenuto di quella rivista, i quali sono chiamati “editors”. editors= sono degli scienziati che “curano” tutti gli aspetti legati alla scelta e alla valutazione degli artcioli da pubblicare. Quindi curano la peer review; raccolgono i manoscritti che arrivano dagli autori che vogliono pubblicare, fanno una scelta scartando gli articoli che non vengono pubblicati e gli altri li mandano a valutatori esperti per la peer review. Un criterio essenziale per. Valutare la solidità scientifica di una rivista-> i componenti dell’editorial board. Un altro criterio fondamentale di serietà di una rivista è il criterio del contenitore: quai e quanti database consentono di cercare il contenuto della rivista. > - indicatori Quantitativi d'impatto Come si cercano le riviste in Unimore? Slide 23-24 Come è fatto un articolo di rivista Research article /paper STEMM titolo e abstract-> abstract è il riassunto dell’rticolo e lo scopo è quello di permettere al lettore di capire in breve l’argomento. Introduzione-> da informazioni di base sull’argomento della ricerca. Materiali e metodi-> si descrive la metodologia utilizzata. Si specificano i metodi di raccolta de dati; il campione; gli strumenti ecc.. Risultati Discussione e conclusioni-> si interpretano i dati. I risultati vengono confrontati con le ricerche precedenti e si discutono le implicazioni e eventuali limiti dello studio. Bibliografia-> fonti utilizzate. Appendici e supplementi Come si cita un articolo scientifico descrizione o citazione bibliografica dell’articolo: in inglese Bibliographic reference/citation Contiene i metadati bibliografici necessari per identificarlo (in database/ cataloghi) e citarlo. METADATI > - CITAZIONE STANDARD Di un Articolo Di RIVISTA STILE APA. * # - preceduto da “https” ecc il DOI diventa un indirizzo web - fornisce il link diretto e persistente a un documento o alla pagina online che ne descrive i metadati bibliografici. - se il documento viene spostato il DOI dovrebbe rimanere invariato. Contenuti non peer reviewed Quasi tutte le riviste includono una serie di contenuti “minori” che non subiscono una vera revisione e sono: i materiali editoriali= si trova indicato come “commentary” o “editorial”, sono opinioni/commenti su articoli pubblicati o questioni di interesse specifico o generale. Lettera= rappresentato la corrispondenza con l’editor in merito ad articoli pubblicati, ma attenzione: a volte sono commenti, in alcuni casi si tratta di veri e propri mini articoli con dati originali. Recensioni= valutazioni critiche del contenuto di un libro, articolo e sono destinate ai lettori. Rassegne (Review) Sono degli articoli non innovativi. Non tuti gli articoli scientifici puntano a produrre nuove conoscenze empiriche: c’è una categoria molto importante di articoli non innovativi che dobbiamo conoscere. Review: sintesi critica della letteratura scientifica su un determinato argomento Essere una sintesi non implica mancanza di originalità, ma può essere un riassunto critico che deve far cogliere gli eventuali limiti di quello che è stato scritto prima e come i limiti possono essere superati. il termine review in inglese ha diversi significati: - rassegna della letteratura precedente su un dato argomento - recensione, valutazione critica (non necessariamente paritaria) di un libro, ristorante, film ecc - valutazione paritaria della qualità di un contributo di ricerca (come in peer review) Qualsiasi contributo di ricerca nuovo di solito è e contenere una mini review della letteratura precedente per inquadrare e contestualizzare l’argomento. Rassegne sistematiche con meta analisi-> fondamento Evidence Based Medicine , cioè la medicina basata sulle evidenze. Ossia praticare una medicina basata sulle evidenze documentarie, emerse dalla letteratura precedente. Medicina basata sulle evidenze= è come fare i compiti seguendo consigli migliori, i dottori usano i risultati degli studi piu affidabili per decidere il modo migliore di curare i pazienti. È come se cercassero le risposte nei libri piu aggiornati e affidabili prima di dare una medicina o fare una terapia. In questo mod, si assicurano che quello che fanno funzioni davvero e non sia solo un tentativo a caso. Quindi, è un modo per essere sicuri di usare la soluzione migliore per far star bene le persone. Versioni degli articoli La distinzione fondamentale è quella tra versione referata o revisionata (peer reviewed) e versione non referata, ma i prodotti intermedi possono assumere nomi diversi e bisogna imparare a riconoscerli. article in press-> questo articolo è stato pubblicato online prima di essere assegnato a un fascicolo o ad un volume. In press= in corso di stampa. Ad oggi gli autori non stampano più i fascicoli, quindi in press ora sta a significare che non gli ha ancora assegnato una collocazione definitiva. Questi articoli possono essere indicati anche come in press, in primo, ahead of print. Forma e contenuto sono gli stessi della versione finale, manca solo l’indicazione di volume, fascicolo e pagine. A volte l’articolo in press viene pubblicato online prima delle correzioni finali di autore e staff editoriale, in questo caso si chiama “uncorrected proof”. La versione finale ha gli stessi contenuti m opterebbe essere un po’ diversa perché in questa fase l’autore può ancora apportare delle modifiche, anche se minime. Accepted manuscript-> è la versione che ha appena passato la peer review. Spesso il manoscritto revisionato e accettato per la pubblicazione viene fatto circolare prima di essere corretto e riformattato nella versione finale, questo perché gli editori commerciali consentono agli autori di condividere questa versione sul proprio sito web. Gli editori commerciali non consentono agli autori di condividere un proprio articolo nella versione finale, perché se l’articolo non è open access il copyright è a capo dell’editore. Tutte queste versioni di un articolo che sono successive alla peer review sono chiamate “postprint”ma è un termine improprio, infatti dovrebbe essere chiamata “post-review”, mentre la versione finale pubblicata sul sito della rivista è chiamata “Version of record”. Oltre al postprint (tutto ciò ch ha passato la peer review) esiste anche il preprint= la versione del manoscritto prima della peer review e qui il contenuto può essere molto diverso dalla versione definitiva (potrebbe anche non esserci una versione definitiva nel caso il manoscritto non passasse la peer review). Dal 2016 gli psicologi hanno un server dedicato per i preprint come i finisci (preprint Archive Search), chiamato “PsyArXiv”. working paper-> manoscritto in corso d’opera esposto ai commenti dei lettori. Non subisce peer review, ma ci sono delle eccezioni come d esempio in economia, infatti possono formarsi d elle collane di work in papers con annesso controllo di qualità in economia. Ricerca Come si cercano gli articoli di rivista? Caso 1 Conosciamo già i metadati degli articoli, cioè sappiamo già che articolo ci serve e dobbiamo recuperare solo il full text. Caso 2 Non sappiamo ancora quali sono i titoli che servono, quindi prima dobbiamo capire cosa è stato pubblicato su un certo argomento e poi recuperare il full text. (Di solito questa opzione si verifica quando bisogna fare una tesi) 1. Come si fa a recuperare il full text di qualcosa? Le riviste più importanti sono a pagamento, ma sempre più articoli sono gratis online, quindi vengono pubblicati in open access così che chiunque li possa leggere. Questo tipo di documenti si trovano soprattutto sulle piattaforme degli editori. Le versioni preliminari invece, possono essere online e si trovano interrogando i motori di ricerca e open archives. (Guarda slide 54-55-56-57-58-59-60-61-62) 2. come si cercano gli articoli di rivista? Bisogna fare una ricerca di articoli su un dato argomento. Serve un database bibliografico che renda ricercabili i metadati degli articoli contenuti in tante riviste. Domanda d’esame Quale delle seguenti affermazioni è falsa? Nelle riviste peer review possono esistere articoli non revisionati è vera. Esistono articoli scientifici che non rendono reperibili i dati della ricerca su cui si basano le loro conclusioni è v Domanda d’esame: quale delle seguenti caratteristiche non è tipicamente associata a una rivista 12/11 predatoria? Segue un rigoroso processo di peer review Prompt Design Le 6 strategie di OpenAI Queste strategie possono essere utilizzate insieme, non sono mutuamente esclusive. 1. Scrivi istruzioni chiare -> nel caso delle conversazioni con chatgpt e simili,questa strategia si dispiega in una serie di “azioni”: - includi dettagli sufficienti su task e contesto ⑪ - - adotta una “persona” (agisci come ad esempio un bambino; uno psicologo) ② - specifica livello/destinatario③ - una delimitatori per separare parti dell’input ⑪ ⑮ - specifica step necessari - fornirsi esempi rilevanti - specifica lunghezza e formato dell’output ⑦ ① ② ③ ⑭ ⑤ ⑥ ⑦ > - l'esempio "costringe" il modello a generare un risultato compatibile con lo schema sia nella forma che nel contenuto. 2. fornisci testo di riferimento esempio 2 esempio 3. dividi i compiti complessi in sotto-compiti più semplici: -prompt unico -prompt chaining-> quando spezzettano le domande all’interno di una stessa sessione di ricerca PROMPT UNICO Non necessariamente i sotto-compiti vanno inseriti tutti nello stesso prompt: nelle fasi iniziali di un progetto, ad esempio, può esser convenite approfondire le singole fasi con domande più specifiche (es. quali sono i limiti del disegno sperimentale x nel contesto di questo esperimento ?) PROMPT CHAINING L VANTAGGIO Puoi controllare e raggiare ogni passaggio prima di al procedere successivo 4. dai il tempo di ragionare 5. Usa strumenti esterni 6. Prova forme varianti Prompt Design 2: Assistito Nell’ approccio assistito uso un prompt preconfezionato oppure strumenti per generare automaticamente un prompt avanzato a partire da uno di base. É il sistema più semplice per scrivere prompt efficaci, ma ha i suoi limiti. com si può fare prompt design assistito: prompt libraries-> sono delle biblioteche di prompt già scritti, raccolti in siti web. Sono collezioni di prompt preconfezionati e già testati per vari scopi: vanno bene come esempi da cui imparare, difficile trovare quello che fa esattamente al caso nostro. Prompt markets-> si possono anche acquistare o vendere i prompt. Meta-prompt-> non scrub direttamente al prompt ma chiedo a chatbot di trasformare una semplice domanda in un prompt efficace (es. chatgpt agisci come un prompt engineer). Prompt generators-> sono dei generatori automatici di prompt, ossia degli strumenti che arricchiscono e ottimizzano il testo della domanda per ottenere una riposta più adeguata. (Slide dalla 183 alla 193). Aula virtuale 18/11 Come funziona Nilde? la prima volta che si accede bisogna registrarsi, indicare la biblioteca di riferimento. Per accedere bisogna cliccare su Idem/Garr selezionare Unimore e inserire le credenziali esse3. Una volta compilati tutti i dati cliccare su “richiedi” per inoltrare il form alla biblioteca oppure cliccare su Salva per inoltrarlo successivamente. Come si cercano gli articoli di rivista? Serve un database bibliografico che renda ricercabili i metadati degli articoli contenuti in tante riviste. Ci sono database: specializzati-> -PubMed - APA PsychINFO - Embase multidisciplinari-> - Scopus - Web of Science - Google Scholar - Scite LINGUAGGIO DELLE RICERCHE (Si può già fare una ricerca bibliografica senza dover formulare una specifica strategia di ricerca, ma utilizzando un linguaggio naturale). La possibilità di interrogare le banche dati con il linguaggio naturale (come Chatgpt e altri), si sta estendendo a tutti i principali database. La ricerca dei documenti nei database si fa inserendo una o più parole chiave in una maschera di ricerca. Però è necessario imparare a scegliere le parole chiave, quindi imparare il linguaggio delle ricerche bibliografiche per ottenere dei risultati adeguati. Operatori Booleani Sono dei codici che consentono ad un utente di dire ad un database che cosa estrarre da database in modo tale che esso possa comprenderlo. Sono un derivato dell’algebra degli insiemi= linguaggio di base per le ricerche bibliografiche. Ipotesi Poniamo ad esempio che A e B sano due parole che identificano argomenti in un database bibliografico. Quindi se usiamo l’operatore Booleano “AND” e scriviamo “A AND B”, recuperiamo tutti i documenti in cui entrambi i termini sono presenti. Quindi l’operatore AND identifica l’intersezione tra i due insiemi. Quando e come si usa AND? L’operatore AND va utilizzato per rendere le ricerche più precise, perché lavorando sull’Inter sezione dei due insiemi, tende a limitare il numero dei risultati. Il problema è che se utilizzo troppi AND e i termini chiave non sono scelti correttamente, posso richinare di eliminare dei record pertinenti. (Es. quando ci serve un manuale dir cerca online non va bene perché il secondo termine esclude dai risultati tutti i documenti potenzialmente utili che hanno un titolo diverso). In questi casi (in caso di sinonimi) per risolvere il problema si può utilizzare l’operatore OR. OR-> è un operatore di somma. Non ha un valore disgiuntivo come nella lingua italiana (o io o tu), ma recupera tutti i documenti in cui o l’uno o l’altro o entrambi i termini sono presenti (unione). Quando e come si usa OR? L’operatore OR serve a evitare la perdita di record rilevanti anticipando tutte le varianti (sinonimi) con cui può essere identificato l’oggetto della ricerca. Per utilizzarlo al meglio conviene preparare una lisa dei potenziali sinonimi avvalendosi di un dizionario, enciclopedia ecc… C’è il rischio però che se si aggiungono troppi OR di recuperare tante informazioni irrilevanti. NOT-> è un operatore che recupera tutti i documenti in cui compare il termine A ma non il termine B. ( A NOT B). Quando e come si usa? Serve ad aumentare la precisione delle ricerche escludendo termini potenzialmente irrilevanti. Va usato con cautela perché se si escludono termini troppo generici o genericamente collegati all’oggetto della ricerca c’è il rischio di perdere record pertinenti. Come si scrivono gli operatori Booleani nelle banche dati? Se li scriviamo senza parentesi il NOT viene letto prima di AND e AND viene letto prima di OR. Però ci sono delle eccezioni come Google, Scopus e PubMed, quindi per non sbagliare conviene usare le parentesi tonde come nelle espressioni in algebriche. Tutte le volte che scriviamo più parole affiancate nella casella di ricerca di un database/ catalogo/motore di ricerca online è quasi sempre implicito l’AND (il database applica in automatico l’operatore AND). +tutte le volte che si impostano dei filtri sui risultati di una ricerca si usano implicitamente combinazioni variabili di AND e OR. C’è una similitudine tra gli operatori Booleani che utilizziamo nella ricerca bibliografica e gli operatori logici. In Excel gli operatori logici si chiamano “E” e “O”, ma hanno le stesse funzioni di AND e OR. E-> condizione 1 (prima condizione da soddisfare), condizione 2 (seconda condizione logica da soddisfare). Il risultato è vero se tutte le condizioni sono vere. O-> condizione 1 e condizione 2. Il risultato è vero se almeno una delle condizioni è vera. Altri operatori Non sono operatori universali, ma comunque di grande utilizzo. frase esatta-> è un operatore che serve per recuperare record in cui è contenuta una precisa sequenza di termini. (Es. se scrivo su Google “Paolo Rossi”, facendo una ricerca di questo tipo perdo tutti i documenti in cui è scritto Rossi Paolo). Il pregio di questo operatore è che fa ricerche molto precise, ma può causare la perdita di risultati pertinenti. Un documento che può parare di “ A B” anche se A e B sono scritti in ordine diverso o distanti tra di loro. (Es. se scrivo “alcohol related pathology” recupera i documenti che contengono la frase esatta ma non quelli in cui c’è la variante al plurale “alcohol related pathologies” oppure “pathologies related to alcohol”. Prossimità-> questi operatori consentono di specificare la distanza (in termini di utero di parole) tra due o più termini. È una condizione meno restrittiva della frase esatta ma allo stesso tempo più restrittiva di AND. (AND fa in modo che due parole siano compresenti, mentre l’operatore di prossimità specifica ulteriori condizioni, la distanza massima che ci deve essere tra due termini). L’uso degli operatori di prossimità può cambiare da un database all’altro. caratteri jolly-> servono per sostituire una o più lettere. Il carattere jolly più utilizzato è l’asterisco, che serve per sostituire più caratteri. il punto interrogativo di solito sostituisce un solo carattere. Gli operatori caratteri jolly aumentano i risultati potenzialmente rilevanti. Non tutti gli operatori sono supportati da tutte le banche dati e il modo di indicarli non è standard. Quindi bisogna consultare l’help in linea per sapere quali sono supportati e come si utilizzano. Domanda d’esame “Timothée Chalamet OR Jennifer Lawrence” Tutti i film in cui si verifica una delle seguenti condizioni: è presente T C (da solo); è presente JLO(da sola); sono recenti entrambi gli attori. Strumenti di ricerca La ricerca si fa su banche dati e cataloghi, i quali contengono solo riferimenti bibliografici e info su reperibilità dei documenti. Gli strumenti di ricerca bibliografica contengono metadati bibliografici oppure metadati+ full text. banche dati bibliografiche e cataloghi bibliografici-> contengono solo riferimenti bibliografici (autori, titoli ecc) e info su reperibilità documenti. banche dati full text-> contengono il testo completo dei documenti (libri, articoli ecc). banche dati fattuali-> contengono dati scientifi

Informatica e Ricerca Bibliografica PDF

Document Details

Tags

Related

Summary

Full Transcript