This paper concerns a preparatory study that is part of a larger research project entitled "Active Web against Violence", funded by the International House of Women in Rome. The project aims at preventing violence against women, reaching potential victims through the web, so trying to facilitate their determination to ask for help (disclosure). Evidences show that a very low percentage of women suffering from violence ask for help (Istat, 2014). The objective of this study is to produce an integrated system of linguistic resources on violence against women preliminary to building up an algorithm that, similarly to what already happens in the marketing field, allows to identify, through the analysis of the implicit and explicit language used by women on the web, the women potentially interested in the problem. The project is developed in several phases and in this paper some preliminary results are presented. The study is based on a large corpus of 36,241 electronic printed articles, provided by the Monrif group with reference to the last 10 years, for a total of 12,932,187 occurrences and 170,552 graphic forms (hapax 39.87%), selected starting from the keyword "violence". The corpus was preliminarly analysed using automatic lexicaltextual techniques (Bolasco, 2013), and then submitted to an unsupervised classification in order to identify some main word communities specifically concerning violence against women. At this aim, the corrispondence analisys and a clustering alghorithm were used. Four classes of specific words concerning violence against women were identified. At this point, using the powerful multilingual semantic web of Babelnet, we tried to reconnect the single words, the syntagmas and the polithemes, contained in the 4 extracted vocabularies, to some concepts implicitly connected to them. This process enabled the creation of a knowledge graph representing the different aspects of violence in a multilingual perspective. Thanks to these new graphs, it will be possible to analyse new textual documents without looking for specific terms used in the corpus, because the algorithm will enable the researcher to identify anyway the semantic correlations to the different violence topics. The next step of the project is aimed at the definition of a new algorithm of conversion of the implicit language on violence into an explicit one

Questo studio preparatorio si inserisce in un più ampio progetto di ricerca dal titolo “Web Attivo contro la Violenza”, finanziato dalla Casa Internazionale delle Donne di Roma, con l’obiettivo di prevenire la violenza contro le donne, raggiungendo le potenziali vittime attraverso il web e cercando così di facilitarnee la determinazione alla richiesta di aiuto (disclosure), I dati ci mostrano infatti che solo una bassa percentuale di donne che vivono una relazione violenta chiede aiuto (Istat, 2014). Obiettivo di questo studio è costruire un sistema integrato di risorse linguistiche sulla violenca contro le donne preliminare alla costruzione di un algoritmo che, analogamente a quanto già avviene nell’ambito del marketing, consenta di individuare, attraverso l’analisi del linguaggio implicito ed esplicito utilizzato dalle donne sul web, quelle potenzialmente interessate al/dal problema. Il progetto si sviluppa in più fasi e in questo paper si presentano alcuni risultati preliminari. Lo studio si basa su un ampio corpus di 36.241 articoli a stampa elettronica, fornito dal gruppo Monrif con riferimento agli utimi 10 anni, per un totale di 12.932.187 occorrenze e 170.552 forme grafiche (hapax 39,87%), selezionati a partire dalla parola chiave “violenza”. Il corpus è stato preliminarmente analizzato con tecniche lessico-testuali (Bolasco, 2013) e poi sottoposto a una classificazione non supervisionata per identificare alcune principali community di parole relative più specificamente alla violenza contro le donne. A tal scopo sono state utilizzate sia l’analisi delle corrispondenze semplici sia un algoritmo di cluster analysis. Sono state identificate 4 classi di parole specifiche sul tema della violenza contro le donne. A questo punto, facendo ricorso alla potente rete semantica di BabelNet, si è cercato di ricollegare le singole parole, i sintagmi e le polirematiche, contenute nei 4 vocabolari estratti, ad alcuni concetti implicitamente ad essi collegati. Questo processo ha consentito la creazione di un knowledge graph rappresentante i differenti aspetti della violenza in un ambiente mutilingue. Grazie a questi nuovi grafi sarà possibile analizzare nuovi documenti testuali senza cercare i termini utilizzati nel corpus perché l’algoritmo consentirà al ricercatore di identificare comunque le correlazioni semantiche utili con i differenti ambiti tematici della violenza. La prossima fase del progetto di ricerca è finalizzata alla costruzione di uno specifico algoritmo di conversione del linguaggio implicito in quello esplicito sulla violenza contro le donne.

Sentieri semantici della violenza: un algoritmo per l'individuazione di potenziali vittime

Pasquale, Pavone
2020-01-01

Abstract

This paper concerns a preparatory study that is part of a larger research project entitled "Active Web against Violence", funded by the International House of Women in Rome. The project aims at preventing violence against women, reaching potential victims through the web, so trying to facilitate their determination to ask for help (disclosure). Evidences show that a very low percentage of women suffering from violence ask for help (Istat, 2014). The objective of this study is to produce an integrated system of linguistic resources on violence against women preliminary to building up an algorithm that, similarly to what already happens in the marketing field, allows to identify, through the analysis of the implicit and explicit language used by women on the web, the women potentially interested in the problem. The project is developed in several phases and in this paper some preliminary results are presented. The study is based on a large corpus of 36,241 electronic printed articles, provided by the Monrif group with reference to the last 10 years, for a total of 12,932,187 occurrences and 170,552 graphic forms (hapax 39.87%), selected starting from the keyword "violence". The corpus was preliminarly analysed using automatic lexicaltextual techniques (Bolasco, 2013), and then submitted to an unsupervised classification in order to identify some main word communities specifically concerning violence against women. At this aim, the corrispondence analisys and a clustering alghorithm were used. Four classes of specific words concerning violence against women were identified. At this point, using the powerful multilingual semantic web of Babelnet, we tried to reconnect the single words, the syntagmas and the polithemes, contained in the 4 extracted vocabularies, to some concepts implicitly connected to them. This process enabled the creation of a knowledge graph representing the different aspects of violence in a multilingual perspective. Thanks to these new graphs, it will be possible to analyse new textual documents without looking for specific terms used in the corpus, because the algorithm will enable the researcher to identify anyway the semantic correlations to the different violence topics. The next step of the project is aimed at the definition of a new algorithm of conversion of the implicit language on violence into an explicit one
2020
Questo studio preparatorio si inserisce in un più ampio progetto di ricerca dal titolo “Web Attivo contro la Violenza”, finanziato dalla Casa Internazionale delle Donne di Roma, con l’obiettivo di prevenire la violenza contro le donne, raggiungendo le potenziali vittime attraverso il web e cercando così di facilitarnee la determinazione alla richiesta di aiuto (disclosure), I dati ci mostrano infatti che solo una bassa percentuale di donne che vivono una relazione violenta chiede aiuto (Istat, 2014). Obiettivo di questo studio è costruire un sistema integrato di risorse linguistiche sulla violenca contro le donne preliminare alla costruzione di un algoritmo che, analogamente a quanto già avviene nell’ambito del marketing, consenta di individuare, attraverso l’analisi del linguaggio implicito ed esplicito utilizzato dalle donne sul web, quelle potenzialmente interessate al/dal problema. Il progetto si sviluppa in più fasi e in questo paper si presentano alcuni risultati preliminari. Lo studio si basa su un ampio corpus di 36.241 articoli a stampa elettronica, fornito dal gruppo Monrif con riferimento agli utimi 10 anni, per un totale di 12.932.187 occorrenze e 170.552 forme grafiche (hapax 39,87%), selezionati a partire dalla parola chiave “violenza”. Il corpus è stato preliminarmente analizzato con tecniche lessico-testuali (Bolasco, 2013) e poi sottoposto a una classificazione non supervisionata per identificare alcune principali community di parole relative più specificamente alla violenza contro le donne. A tal scopo sono state utilizzate sia l’analisi delle corrispondenze semplici sia un algoritmo di cluster analysis. Sono state identificate 4 classi di parole specifiche sul tema della violenza contro le donne. A questo punto, facendo ricorso alla potente rete semantica di BabelNet, si è cercato di ricollegare le singole parole, i sintagmi e le polirematiche, contenute nei 4 vocabolari estratti, ad alcuni concetti implicitamente ad essi collegati. Questo processo ha consentito la creazione di un knowledge graph rappresentante i differenti aspetti della violenza in un ambiente mutilingue. Grazie a questi nuovi grafi sarà possibile analizzare nuovi documenti testuali senza cercare i termini utilizzati nel corpus perché l’algoritmo consentirà al ricercatore di identificare comunque le correlazioni semantiche utili con i differenti ambiti tematici della violenza. La prossima fase del progetto di ricerca è finalizzata alla costruzione di uno specifico algoritmo di conversione del linguaggio implicito in quello esplicito sulla violenza contro le donne.
File in questo prodotto:
File Dimensione Formato  
DERIU_NAVIGLI_PAVONE_JADT2020.pdf

accesso aperto

Tipologia: Documento in Post-print/Accepted manuscript
Licenza: PUBBLICO - Pubblico con Copyright
Dimensione 658.58 kB
Formato Adobe PDF
658.58 kB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11382/536976
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
social impact