Dialogues_Tagging automatico

Discussione:

(troppo vecchio per rispondere)

MarioCPPP

2023-02-18 13:57:42 UTC

Gli audiolibri pare stiano spopolando, eppure a me fanno
caghare.
Sapete perché ? Perché la recitazione dei DIALOGHI è inadeguata.

Bisognerebbe fare un passo ulteriore : stabilire una mappa
di associazioni biunivoca o quasi tra i personaggi
dialoganti e le rispettive voci audio.
Almeno tutti i principali attori dovrebbero avere una voce
loro. Nei film di animazione lo sanno bene : la VOCE è parte
del personaggio.

Quindi, a che minchia serve una anche magnifica voce
leggente, se appiattisce i dialoghi ?

Ora però il problema è uno diverso e tecnicamente MOLTO
COMPLESSO (sto cominciando a pensarci per il semplice fatto
che tra MidJourney e ChatGPT3 ed altri le IA stanno
migliorando la loro gestione e trasformazione degli input).

Veniamo al problema (di certo MIO ma immagino non solo mio)
: la stragrande parte delle volte, quando scriviamo "i
sorgenti" dei libri, non TAGGHIAMO in nessuna maniera con
METADATI univoci (che potrebbero anche essere il colore del
testo e/o del background) le parti dialogate in modo da
rendere il testo univocamente associabile ad un personaggio.
Questo perché il lettore non ne ha bisogno, lo capisce da
varie diciture prefisse o suffisse o dal contesto a volte.
Ma un programma di generazione audio magari no. E Neppure un
set di lettori/lettrici potrebbe riuscirci senza avere prima
studiato il testo.

Ora il problema è serio perché talvolta (nel mio caso lo è
di certo, perché le sei branche sorelle della PluriLogia
hanno raggiunto 2’842’181 parole / 17’910’067 di caratteri,
e la Rilettura integrale con il TAGGING manuale delle parti
dialogate è materialmente impossibile a meno di non
dedicarci un paio d'anni consecutivi di noia e fatica.

Il punto è : una IA specializzata nell'analisi del testo,
può già comprendere le associazioni parte <=> personaggio ?

Una parte, esigua del lavoro l'ho fatta con la
FORMATTAZIONE. Il parlato è sempre tra virgolette inglesi
doppie, in corsivo, il pensato sempre tra apici singoli
inversi, ancora in corsivo .... poi ci sono il telepatico in
grassetto corsivo non delimitato ed il parlato "divino" o
gattese o di altre entità salienti in ALL-UPPERCASE. In
altre parole è abbastanza uniformememnte riconoscibile il
testo che NON DEVE venire assegnato a nessuna voce specifica
(e quindi lasciato alla voce narrante *) : il testo privo di
qualsiasi formattazione.

Ma una IA saprebbe associare gli interventi ai personaggi ?
Che sono sovente indicati con una pletora di alias per
evitare ripetizioni ?

Riuscirebbe a TAGGARE le parti per assegnarle agli strumenti ?

Qualcuno ha idee di come si potrebbe affrontare, in modo non
manuale, questo problema ?
A voi piacciono gli audiolibri "piatti" ad una sola voce ? O
vi fanno caghare come a me ?

Lancio la pietra nello stagno !

--
1) Resistere, resistere, resistere.
2) Se tutti pagano le tas

Dan

2023-02-21 12:40:48 UTC

Permalink

Gli audiolibri pare stiano spopolando, eppure a me fanno caghare.
Sapete perché ? Perché la recitazione dei DIALOGHI è inadeguata.
Bisognerebbe fare un passo ulteriore : stabilire una mappa di
associazioni biunivoca o quasi tra i personaggi dialoganti e le
rispettive voci audio.
Almeno tutti i principali attori dovrebbero avere una voce loro. Nei
film di animazione lo sanno bene : la VOCE è parte del personaggio.
Quindi, a che minchia serve una anche magnifica voce leggente, se
appiattisce i dialoghi ?
Ora però il problema è uno diverso e tecnicamente MOLTO COMPLESSO (sto
cominciando a pensarci per il semplice fatto che tra MidJourney e
ChatGPT3 ed altri le IA stanno migliorando la loro gestione e
trasformazione degli input).
Veniamo al problema (di certo MIO ma immagino non solo mio) : la
stragrande parte delle volte, quando scriviamo "i sorgenti" dei libri,
non TAGGHIAMO in nessuna maniera con METADATI univoci (che potrebbero
anche essere il colore del testo e/o del background) le parti dialogate
in modo da rendere il testo univocamente associabile ad un personaggio.
Questo perché il lettore non ne ha bisogno, lo capisce da varie diciture
prefisse o suffisse o dal contesto a volte.
Ma un programma di generazione audio magari no. E Neppure un set di
lettori/lettrici potrebbe riuscirci senza avere prima studiato il testo.
Ora il problema è serio perché talvolta (nel mio caso lo è di certo,
perché le sei branche sorelle della PluriLogia hanno raggiunto 2’842’181
parole / 17’910’067 di caratteri, e la Rilettura integrale con il
TAGGING manuale delle parti dialogate è materialmente impossibile a meno
di non dedicarci un paio d'anni consecutivi di noia e fatica.
Il punto è : una IA specializzata nell'analisi del testo, può già
comprendere le associazioni parte <=> personaggio ?
Una parte, esigua del lavoro l'ho fatta con la FORMATTAZIONE. Il parlato
è sempre tra virgolette inglesi doppie, in corsivo, il pensato sempre
tra apici singoli inversi, ancora in corsivo .... poi ci sono il
telepatico in grassetto corsivo non delimitato ed il parlato "divino" o
gattese o di altre entità salienti in ALL-UPPERCASE. In altre parole è
abbastanza uniformememnte riconoscibile il testo che NON DEVE venire
assegnato a nessuna voce specifica (e quindi lasciato alla voce narrante
*) : il testo privo di qualsiasi formattazione.
Ma una IA saprebbe associare gli interventi ai personaggi ? Che sono
sovente indicati con una pletora di alias per evitare ripetizioni ?
Riuscirebbe a TAGGARE le parti per assegnarle agli strumenti ?
Qualcuno ha idee di come si potrebbe affrontare, in modo non manuale,
questo problema ?
A voi piacciono gli audiolibri "piatti" ad una sola voce ? O vi fanno
caghare come a me ?
Lancio la pietra nello stagno !

Ho appena fatto conoscenza con ChatGPT, ed in preda ad un certo
turbamento sono andato a cercare di capire come funziona, il che mi ha
un po' tranqullizzato (poco).
Per fortuna, è molto meno "intelligente" di quanto sembra, ma alla fin
fine se cammina come un'oca, ha la forma di un'oca e fa il verso dell'oca...
Ciò detto, esclusa ogni forma di comprensione "vera" del narrato,
qualunque risultato compatibile con qualche semplice trucco da
programmatore può essere ottenuto. Quindi distinzioni tra diversi
virgolettati o corsivi, maiuscoli ecc. saranno facilmente
implementabili. Il problema è la disponibilità di un lettore di testi in
qualche misura personalizzabile dall'utente, a cui poter impartire di
leggere tutto quello che è scritto in verde come la voce della Grande
Lucertola di Altair, ecc. Bisogna aspettare che qualcuno lo scriva.

Per quanto riguarda il tono di voce, che è un aspetto importantissimo
per non rendere la lettura superpiatta, ho il sospetto che ci sia già in
giro qualcosa. Recentemente mi sono imbattuto su Youtube in alcuni video
di divulgazione scientifica fatti piuttosto bene dal punto di vista
video, con dei testi che sembravano traduzuioni automatiche e voce
narrante altrettanto somigliante ad una voce sintetica. Lo speaker non
si limita a leggere con pronuncia perfetta e senza mai impappinarsi
neanche un decimo di secondo (e i testi sono lunghi, anche un'ora di
sbrodolata) senza mai un ehm, uhmm, oooh... ecc. La cosa bella è che
rispetta il tono di voce che si usa per rendere comprensibili frasi
interrogative, coordinate e subordinate. Proprio in certe frasi involute
o con coordinate e subordinate chenonsicapiscenkaz ogni tanto va un po'
in crisi.

Ma il punto davvero rognoso nel tuo caso è che il bot dovrebbe proprio
fare delle concordanze a senso per capire di chi è una voce, se non
chiaramente attribuita, e qui la vedo dura. A quanto ho capito ChatGPT
ha un eccellente modulo sintattico. Puoi usarlo come correttore di bozze
immettendo un testo e chiedendogli se ci sono errori, tanto per
intenderci. Bisognerebbe provare a sottoporgli delle frasi del tipo "e
lui disse..., e l'altro rispose... e il terzo intervenne... per capire
se riesce a fare un lavoro simile. Se ci riesce, beh, allora sei a posto.

Ma poi, chi vuoi che si faccia leggere un audiolibro da 16 milioni di
parole?... =:0

Dan

MarioCPPP

2023-02-21 15:14:31 UTC

Permalink

Post by Dan

Post by MarioCPPP
Gli audiolibri pare stiano spopolando, eppure a me fanno
caghare.
Sapete perché ? Perché la recitazione dei DIALOGHI è
inadeguata.
Bisognerebbe fare un passo ulteriore : stabilire una mappa
di associazioni biunivoca o quasi tra i personaggi
dialoganti e le rispettive voci audio.
Almeno tutti i principali attori dovrebbero avere una voce
loro. Nei film di animazione lo sanno bene : la VOCE è
parte del personaggio.
Quindi, a che minchia serve una anche magnifica voce
leggente, se appiattisce i dialoghi ?
Ora però il problema è uno diverso e tecnicamente MOLTO
COMPLESSO (sto cominciando a pensarci per il semplice
fatto che tra MidJourney e ChatGPT3 ed altri le IA stanno
migliorando la loro gestione e trasformazione degli input).
Veniamo al problema (di certo MIO ma immagino non solo
mio) : la stragrande parte delle volte, quando scriviamo
"i sorgenti" dei libri, non TAGGHIAMO in nessuna maniera
con METADATI univoci (che potrebbero anche essere il
colore del testo e/o del background) le parti dialogate in
modo da rendere il testo univocamente associabile ad un
personaggio.
Questo perché il lettore non ne ha bisogno, lo capisce da
varie diciture prefisse o suffisse o dal contesto a volte.
Ma un programma di generazione audio magari no. E Neppure
un set di lettori/lettrici potrebbe riuscirci senza avere
prima studiato il testo.
Ora il problema è serio perché talvolta (nel mio caso lo è
di certo, perché le sei branche sorelle della PluriLogia
hanno raggiunto 2’842’181 parole / 17’910’067 di
caratteri, e la Rilettura integrale con il TAGGING manuale
delle parti dialogate è materialmente impossibile a meno
di non dedicarci un paio d'anni consecutivi di noia e fatica.
Il punto è : una IA specializzata nell'analisi del testo,
può già comprendere le associazioni parte <=> personaggio ?
Una parte, esigua del lavoro l'ho fatta con la
FORMATTAZIONE. Il parlato è sempre tra virgolette inglesi
doppie, in corsivo, il pensato sempre tra apici singoli
inversi, ancora in corsivo .... poi ci sono il telepatico
in grassetto corsivo non delimitato ed il parlato "divino"
o gattese o di altre entità salienti in ALL-UPPERCASE. In
altre parole è abbastanza uniformememnte riconoscibile il
testo che NON DEVE venire assegnato a nessuna voce
specifica (e quindi lasciato alla voce narrante *) : il
testo privo di qualsiasi formattazione.
Ma una IA saprebbe associare gli interventi ai personaggi
? Che sono sovente indicati con una pletora di alias per
evitare ripetizioni ?
Riuscirebbe a TAGGARE le parti per assegnarle agli
strumenti ?
Qualcuno ha idee di come si potrebbe affrontare, in modo
non manuale, questo problema ?
A voi piacciono gli audiolibri "piatti" ad una sola voce ?
O vi fanno caghare come a me ?
Lancio la pietra nello stagno !

uhm, ma questa è la parte di problema che NON è un problema,
nel senso che non ho mai usato formati personalizzati per
personaggio, solo per "forma espressiva", il ché non
consente di attribuire le parti, ma solo di capire se parli,
pensi, o trasmetti telepaticamente o parli GATTESE a gesti.

Post by Dan
Il problema è la
disponibilità di un lettore di testi in qualche misura
personalizzabile dall'utente, a cui poter impartire di
leggere tutto quello che è scritto in verde come la voce
della Grande Lucertola di Altair, ecc. Bisogna aspettare che
qualcuno lo scriva.

e chi l'avrebbe assegnato il VERDE alla Grande Lucertola di
Altair ed il Nero al Demonio ?
Nessuno lo ha fatto !
ChatGPT3.5 secondo te saprebbe farlo ? Saprebbe anche solo
capire quel che gli si sta chiedendo ?

Post by Dan
Per quanto riguarda il tono di voce, che è un aspetto
importantissimo per non rendere la lettura superpiatta, ho
il sospetto che ci sia già in giro qualcosa. Recentemente mi
sono imbattuto su Youtube in alcuni video di divulgazione
scientifica fatti piuttosto bene dal punto di vista video,
con dei testi che sembravano traduzuioni automatiche e voce
narrante altrettanto somigliante ad una voce sintetica. Lo
speaker non si limita a leggere con pronuncia perfetta e
senza mai impappinarsi neanche un decimo di secondo (e i
testi sono lunghi, anche un'ora di sbrodolata) senza mai un
ehm, uhmm, oooh... ecc. La cosa bella è che rispetta il tono
di voce che si usa per rendere comprensibili frasi
interrogative, coordinate e subordinate. Proprio in certe
frasi involute o con coordinate e subordinate
chenonsicapiscenkaz ogni tanto va un po' in crisi.

sì, questo lo sapevo, ma non è il mio problema.
Il mio problema è riconoscere chi parla/pensa/miagola e
TAGGARLO. Poi attribuire le parti diventa il meno

Post by Dan
Ma il punto davvero rognoso nel tuo caso è che il bot
dovrebbe proprio fare delle concordanze a senso per capire
di chi è una voce,

esatto !

Post by Dan
se non chiaramente attribuita, e qui la

non è tanto questo, è che è un attribuzione SEMANTICA, ossia
basata sul significato semantico delle strutture
linguistiche usate.

Post by Dan
vedo dura. A quanto ho capito ChatGPT ha un eccellente
modulo sintattico. Puoi usarlo come correttore di bozze
immettendo un testo e chiedendogli se ci sono errori, tanto
per intenderci. Bisognerebbe provare a sottoporgli delle
frasi del tipo "e lui disse..., e l'altro rispose... e il
terzo intervenne... per capire se riesce a fare un lavoro
simile. Se ci riesce, beh, allora sei a posto.

non avrei idea di come tentare (ho anche provato a farmi un
accaun ma chiedeva il telefono e ho dovuto declinare ...
perché devo fornire il mio telefono ad OpenAI ??? A parte
spiarmi, esiste qualche ragione plausibile ?).
Cmq il problema non è solo nelle attribuzioni criptiche, ma
anche relativamente normali.

Mario rispose : "Fanculo !". Al che Roberto si inalberò :
"Fottiti tu". "Smettetela entrambi". Cercò di calmarli
Silvia. Dopodiché la bionda sorrise. "Ecco bravi, così va
meglio"

In definitiva dovrebbe capire che le identità possono venire
prima o dopo il parlato / pensato, e venire espresse con
diversa "prossimità" alle virgolette, in connessione con
verbi di espressione o riflessione, e QUASI SEMPRE con vari
alias (La Bionda qui è Silvia, per capirci).
Abbastanza di rado i riferimenti sono criptici, ed il BOT
potrebbe segnarli con un colore di NON RICONOSCIUTO, per
guidare la revisione manuale ai soli punti cruciali.
Però dovrebbe riuscire a fare tutto il resto, che è il
grosso del lavoro.
Servirebbe un progetto crowdfunding per non vedenti, per
migliorare la loro esperienza coi testi narrati. Lo so, sono
stato veramente pidocchioso con questa uscita :D :D :D

Boh ... posso pazientare altri 4 anni per vedere se si
smuove qualcosa :\

Post by Dan
Ma poi, chi vuoi che si faccia leggere un audiolibro da 16
milioni di parole?... =:0
Dan

--
1) Resistere, resistere, resistere.
2) Se tutti pagano l

Dan

2023-02-22 10:01:24 UTC

Permalink

Post by Dan
Ciò detto, esclusa ogni forma di comprensione "vera" del narrato,
qualunque risultato compatibile con qualche semplice trucco da
programmatore può essere ottenuto. Quindi distinzioni tra diversi
virgolettati o corsivi, maiuscoli ecc. saranno facilmente implementabili.

uhm, ma questa è la parte di problema che NON è un problema, nel senso
che non ho mai usato formati personalizzati per personaggio, solo per
"forma espressiva", il ché non consente di attribuire le parti, ma solo
di capire se parli, pensi, o trasmetti telepaticamente o parli GATTESE a
gesti.

Ops, giusto. Mi era rimasta impressa la VOCE DI DIO che a sto punto però
potrebbe essere di vari dei con voce diversa... non va.

Post by Dan
Il problema è la disponibilità di un lettore di testi in qualche
misura personalizzabile dall'utente, a cui poter impartire di leggere
tutto quello che è scritto in verde come la voce della Grande
Lucertola di Altair, ecc. Bisogna aspettare che qualcuno lo scriva.

e chi l'avrebbe assegnato il VERDE alla Grande Lucertola di Altair ed il
Nero al Demonio ?
Nessuno lo ha fatto !

Ecco appunto ci vorrebbe un tool con un bel menu "VOCI DEI PERSONAGGI" e
le varie opzioni di associazione: 1) nome del personaggio 2) nomignolo
n.1, (ecc) ...N Formattazione del testo (con submenu : virgolettato,
inciso, colore, grassetto...) e naturalmente Voce n.1 ... voce n. <n>

ChatGPT3.5 secondo te saprebbe farlo ? Saprebbe anche solo capire quel
che gli si sta chiedendo ?

ChatGPT usa un approccio statistico ed una rete neurale BESTIALE con 1
miliardo e sette di nodi e una base dati di nonsoquanti Terabytes (c'è
dentro tutta Wikipedia tra l'altro...)

L'approccio gli fa scegliere le frasi che statisticamente sono più
rilevanti dato l'input che ha ricevuto e la sua direttiva primaria
(essendo un chatbot), che è quella di rispondere sempre qualcosa
cercando di ampliare e completare quanto gli viene fornito in input, fa
il resto.

Detto così pare semplice (e non lo è) ma ovviamente ci deve essere
dell'altro che non viene spiegato (qualche trucchetto da programmatore,
eh eh) perché CGPT fornisce risposte estremamente pertinenti e tiene
conto tra una domanda e l'altra di quello che si è detto, per esempio se
parlavo di Silvia e gli dico "e inoltre è molto gelosa", dovrebbe
rispondere ipotizzando che io stiaparlando appunto di S.

Nel mio cassetto c'è un progetto di IA verbale che teneva conto di
questo aspetto, io avevo ipotizzato la creazione di un "contesto" ad
ogni sessione di conversazione col mio prog, in cui lui tenesse una
lista dei "concetti", cioè delle parole significative usate nella
sessione, che forniscono dei paletti per interpretare le frasi. Così se
si sta parlando di pesca e io ad un certo punto gli dico "E poi le canne
devono essere robuste" lui può elaborare frasi in cui le canne sono
quelle da pesca, e non cadrà nella risposta sbagliata "Certo! canne
robuste e magari un goccetto!". :-D

Post by Dan
vedo dura. A quanto ho capito ChatGPT ha un eccellente modulo
sintattico. Puoi usarlo come correttore di bozze immettendo un testo e
chiedendogli se ci sono errori, tanto per intenderci. Bisognerebbe
provare a sottoporgli delle frasi del tipo "e lui disse..., e l'altro
rispose... e il terzo intervenne... per capire se riesce a fare un
lavoro simile. Se ci riesce, beh, allora sei a posto.

Sì infatti. Ma io ero talmente ansioso di provarlo che gli avrei dato
anche il telefono della mia sorellina piccola e innocente (che per
fortuna non ho).

Cmq il problema non è solo nelle attribuzioni criptiche, ma anche
relativamente normali.
Mario rispose : "Fanculo !". Al che Roberto si inalberò : "Fottiti tu".
"Smettetela entrambi". Cercò di calmarli Silvia. Dopodiché la bionda
sorrise. "Ecco bravi, così va meglio"
In definitiva dovrebbe capire che le identità possono venire prima o
dopo il parlato / pensato, e venire espresse con diversa "prossimità"
alle virgolette, in connessione con verbi di espressione o riflessione,
e QUASI SEMPRE con vari alias (La Bionda qui è Silvia, per capirci).

Argh, io credevo che fosse un'altra persona ...

Abbastanza di rado i riferimenti sono criptici, ed il BOT potrebbe
segnarli con un colore di NON RICONOSCIUTO, per guidare la revisione
manuale ai soli punti cruciali.
Però dovrebbe riuscire a fare tutto il resto, che è il grosso del lavoro.
Servirebbe un progetto crowdfunding per non vedenti, per migliorare la
loro esperienza coi testi narrati. Lo so, sono stato veramente
pidocchioso con questa uscita :D :D :D

Che cinismo! ;-) Però è probabilmente vero...

Boh ... posso pazientare altri 4 anni per vedere se si smuove qualcosa :\

Se vuoi posso postare i dialoghi di cui dispongo, così ti fai un'idea. E
poi, visto che ormai ci ho l'accaun, voglio testare questa cosa dei
personaggi indicati indirettamente, e maggari riferire.

Dan

Continua a leggere su narkive:

Discussioni interessanti ma non correlate

risposte

Il sussurro al lavoro non è professionale?

iniziato 2016-01-28 15:33:51 UTC

risposte

Devo dire alla società con cui sto intervistando che sono stato licenziato

iniziato 2013-03-21 09:38:02 UTC

risposte

È etico offrire alle candidate donne un salario più alto per ottenere un ambiente di lavoro più diversificato?

iniziato 2016-11-17 00:16:25 UTC

risposte

Come gestire una promozione se sarebbe più redditizia dopo un'imminente modifica delle regole?

iniziato 2020-02-06 18:47:37 UTC

risposte

Come devo segnalare qualcuno che fa uno scherzo potenzialmente pericoloso sul lavoro?

iniziato 2017-03-08 17:52:25 UTC