A INFLUÊNCIA DA CADEIA SEGMENTAL NA PERCEPÇÃO DE VARIAÇÕES TONAIS

Daniel de Oliveira Peres

Fernanda Consoni

Waldemar Ferreira Netto
Universidade de São Paulo
 
 

Resumo

O presente estudo trata da influência da presença da cadeia segmental na percepção das variações de f0 em português brasileiro. Para tal, foram feitos dois testes de percepção que continham variações de 0 a 4 semitons ascendentes em estímulos com ou sem cadeia segmental. Os testes foram compostos por 30 estímulos divididos em duas partes iguais, sendo 15 com a presença da cadeia segmental, e 15 sem a cadeia segmental. Para os estímulos sem cadeia segmental, manteve-se somente a entoação, representada por um instrumento musical. Para obter a sequência sonora extraída do sinal original em .wav, criou-se uma versão em MIDI das variações de f0, utilizando, para tal, o aplicativo Exprosodia de análise automática da fala. Uma palavra alvo foi manipulada em cada frase em sua sílaba inicial. Participaram dos experimentos 18 sujeitos de ambos os sexos. Os resultados revelaram que, as variações ascendentes de f0 são melhor percebidas na ausência da cadeia segmental. Sem cadeia segmental, o teste χ2 (P>0,05) mostrou que variações de 1 semitom ascendente são percebidas pelos sujeitos. Ao individualizar cada categoria (variações ascendentes em semitons) para ambos os testes, ou seja, com e sem cadeia segmental, por meio também do teste χ2, somente a variação de 1 semitom mostrou resultados significativos, com P<0,01. Um teste de ANOVA confirmou esses resultados, com Fo(9,386)>Fc(5,19) e P<0,05. Com a presença da cadeia segmental apenas diferenças iguais ou superiores a 2 semitons foram percebidas. Os resultados obtidos nos dois experimentos demonstraram que a cadeia segmental tem grande influência na percepção, apontando para necessidade de uma variação de tons maior para que a variações de f0 sejam percebidas.

 

Abstract

The aim of this study is to verify if there is an influence of the presence or the absence of segmental sequence on the perception of f0 variations in Brazilian Portuguese. For this we conducted two perception tests, which contained variations from 0 to 4 rising semitones with or without segmental sequence. The tests were composed of 30 stimuli divided into 15 with the segmental sequence, and 15 without it. For the stimuli without segmental sequence, the intonation was represented by a musical instrument. To extract the sound sequence from the original signal in .wav, we created a MIDI version of the f0 variations, using the application Exprosodia – Automatic Analysis of Speech. A target word was manipulated in each sentence on the initial syllable. Eighteen subjects of both sexes participated in the experiments. The results point out that the upward variations of f0 are most noticeable in the absence of segmental sequences. Without segmental sequence, the chi-square test (P> 0.05) showed that variations of one rising semitone are perceived by the subjects. When each category is separated (rising variations in semitones) in both tests, i.e with and without segmental sequence, the chi-square test showed that significant results were obtained when there was the variation of a semitone, with P <0.01. The ANOVA test confirmed these results Fo (9.386)> Fc (5.19) and P <0.05. With the segmental sequence only differences larger than or equal to two semitones were perceived. The results of both experiments demonstrated that the segmental sequence has great influence on the perception, and there is a need for a larger tonal range (with more than two semitones) for the perception of f0 variations.

 

Introdução

No século XVIII, Steele (1775) já descrevia a entoação em termos de variações tonais. Através de uma adaptação da notação musical e baseado especialmente na marcação de variações relativas de tom, o autor utilizava o quarto de tom para marcar as variações da entoação da fala. Troubetzkoy (1970 200) percebera a entoação como variação tonal nas frases, entretanto, segundo o próprio autor, o estágio dos estudos prosódicos naquela época não permitia a mesma precisão com que se abordavam os estudos segmentais. O linguista tratava a entoação como sendo uma constante oposição de direções tonais, mas tal característica era aplicada somente a línguas que não possuíam esse correlato para distinção lexical. Assim, Troubetzkoy postulava duas direções tonais para a sua análise: ascendente – função de continuidade; descendente – função conclusiva. A prosódia estaria então subdividida em entoação da frase, diferenças de registro na frase, acento frasal e pausa.

Crystal (1968) adotava uma definição ampla de entoação que se aproxima da definição própria da prosódia. Para o autor, a entoação era basicamente manifestada por modulações da frequência fundamental (f0), da intensidade e da duração. Pike (1964), por sua vez, compreendia a entoação como uma variação de pitch e propôs 4 níveis de contraste: E (extra high), H (high), M (mid), L (low). Maeda propôs, em sua análise para o inglês, que o f0 era o sinal interpretado pelos ouvintes e a entoação estava correlacionada às variações de f0 na fala. Maeda propôs que a entoação fosse dividida em 5 atributos: BL (Baseline), R (Rise), P (Peak), L (Lowering) e RP (Rise Plateau). Também considerando a entoação como uma variação de f0, Pierrehumbert (1980) propôs um modelo entoacional simplificado com apenas duas possibilidades — H (high) e L (low) — que poderiam sofrer diversas combinações e modificações marcadas por sinais diacríticos. Cruttenden definiu entoação como a recorrência de padrões tonais usados para um determinado repertório de variações de significado.

A partir de uma abordagem perceptual, t’Hart, Collier e Cohen (1981) entenderam a entoação como sendo, basicamente, variações de f0. Os autores buscaram estabelecer a relevância do papel psicofonético das variações de pitch, partindo de experimentos psicoacústicos baseados nas JNDs (just noticeable difference) para chegar às unidades de variação que seriam relevantes linguisticamente.

Autores como Hirst e Di Cristo (1998) afirmaram que a entoação poderia ser tratada de duas maneiras: nos estudos de prosódia podemos encontrar o termo ‘entoação’ como designativo de fenômenos suprassegmentais com valores estritamente prosódicos. Neste ponto de vista, toda e qualquer manifestação prosódica como variações de f0, ritmo e amplitude são constituintes da entoação. Numa abordagem mais estrita, a entoação seria a variação melódica que ocorre durante a fala. Gussenhoven (2004), por meio de uma abordagem estrita, afirma que a entoação se refere às variações de pitch não determinadas por distinções lexicais tais como as ocorridas em línguas tonais.

Como já foi observado por Vaissière (2007), a entoação é um objeto de estudo que apresenta algumas dificuldades de abordagem, como a falta de uma definição clara do que ela venha a ser e a falta de métodos padronizados para o seu estudo.

“There is currently no universally accepted definition of intonation. The term may be strictly restricted to the perceived F0 pattern, or include the perception of other prosodic parameters fulfilling the same functions: pauses, relative loudness, voice quality, duration, and segmental phenomena related to varying strengthening of the speech organs” (Vaissiére 238).

 

Apesar de reconhecer que os estudos de entoação devem incluir o maior número de parâmetros possível, Vaissière faz uso do termo ‘entoação’ como a variação melódica que ocorre ao longo do discurso. As suas categorizações acerca das múltiplas funções da entoação estão mormente condicionada às variações de F0.

 

Sobre a percepção

Um estudo da entoação deve lidar com as duas extremidades da cadeia comunicativa, a produção e a percepção, trabalhando com um fator fonético e um fator linguístico. t’Hart, Collier e Cohen (5) atestaram que uma abordagem perceptual da entoação seria capaz de trazer à tona o que é linguisticamente importante no que se refere às características prosódicas. Para os autores, a percepção agiria como um selecionador de informações capaz de reter da cadeia sonora da fala o que é relevante:

“Our prediction for the perceptual angle in the phonetic domains is based on the consideration that perception acts like a filter that performs a much needed reduction on data of acoustic or physiological origin, which are overspecified: they countain far more information than need be relevant for the purpose of communication” (5)

 

Dessa maneira, a abordagem perceptual não estaria focada numa visão psicoacústica da fala, tendo como expectativa um limiar de variações que poderiam ser percebidas e elucidassem as propriedades do sinal acústico importantes para o ouvinte (5). A importância dos trabalhos de percepção partiria do pressuposto da fala como ato que possui um mecanismo que envolveria a produção e, ao final desse processo, a percepção (Barbosa 1995 2).

Kuhl (2000) e Kuhl et al (2001) em seus estudos perceptuais postulou uma forma prototípica fixa e não-abstrata que serviria de atração para as demais formas percebidas1. Assim, nem toda a gama de variações é percebida, mas somente aquelas que desempenham papel significativo, neste caso, fruto de uma atração perceptual dos estímulos que atinjam regiões próximas.

Outros estudos partiram de testes perceptuais para verificar suas hipóteses acerca dos fenômenos entoancionais como, por exemplo, Pierrehumbert (1980), Ladd (1997), etc. Tratando de trabalhos de percepção de língua portuguesa, temos os de Moraes (1995), Arantes e Barbosa (2006), Consoni (2006), Consoni, Rosa e Ferreira Netto (2008), dentre outros.

Em sua abordagem perceptiva da entoação, t’Hart e T’Hart e seus colegas propuseram que as variações de entoação deveriam ser feitas tomando como base variações maiores que um tom e meio, 3 semitons. Segundo os autores, essa seria a variação perceptualmente relevante para os falantes de Holandês. Consoni e seus colegas, em estudo para o português brasileiro (PB), observaram que variações ascendentes iguais ou superiores a 3 semitons e variações descendentes iguais ou superiores a 4 semitons eram percebidas pelos falantes de PB.

Todos os estudos perceptuais ora relacionados abordaram a entoação partindo de estímulos em que estava presente a cadeia segmental. Neste trabalho testamos a hipótese de que a cadeia segmental concorre com a entoação na percepção de proeminências. Nossa hipótese é a de que a percepção de proeminências na fala é afetada pela cadeia segmental exigindo uma variação maior na curva entoacional. Para testarmos essa hipótese elaboramos dois testes de percepção, nos quais apresentávamos para os sujeitos frases em que a cadeia segmental estava preservada e outras em que somente a curva de entoação tinha sido preservada. Apenas uma palavra de cada frase foi manipulada. A manipulação foi de 1 a 5 semitons e englobou a primeira sílaba da palavra escolhida. Os detalhes da manipulação estão expostos na metodologia. A manipulação dos dados foi feita a partir do modelo proposto no projeto Exprosodia, descrito na próxima seção.

 

Descrição do projeto e da rotina

O projeto ExProsodia tem por objetivo estabelecer um modelo para a análise automática da entoação na língua portuguesa, entendendo a entoação como uma sequência de tons, iguais ou diferentes, produzidos pela voz durante a fala.Para essa proposta de análise automática da fala, partimos de algumas hipóteses básicas.

De maneira geral, a proposta teórica do projeto parte do princípio de que as unidades de segunda articulação — fonemas — não têm existência independente do léxico, ou seja, são dependentes da seleção lexical feita pelo falante. Apesar dessas unidades de segunda articulação (fonológica) existirem somente no ambiente lexical, têm um algoritmo de realização que produz alteração na corrente sonora da fala, concorrendo de forma coordenada com as demais manifestações vocais na mesma onda sonora. Por serem resultados de algoritmos de produção, as unidades de segunda articulação ocorrem linearmente e de forma discreta. Cada fonema tem seu próprio algoritmo de realização fonética. Desse ponto de vista, as unidades de segunda articulação, decorrem de um sistema vibratório forçado. 2

Entretanto, na medida em que a produção de voz parte da vibração das pregas vocálicas que advém processo de expiração contínua, entende-se que seja um sistema vibratório auto-excitado, provido de uma fonte contínua de alimentação de energia3. Dessa maneira, os mecanismos de controle da produção das vibrações estão sob monitoramento contínuo durante a produção de voz.

A produção da fala decorre da integração entre os dois sistemas vibratórios diferentes descritos acima: o sistema vibratório forçado, próprio das unidades da segunda articulação, e o sistema vibratório auto-excitado, próprio da voz humana. A integração entre esses dois sistemas vibratórios, cujos resultados manifestam-se na mesma onda sonora da fala, decorre da simultaneidade de sua ocorrência. Na medida em que o vozeamento, um sistema vibratório auto-excitado, necessita de um monitoramento contínuo, relaciona-se diretamente com as condições imediatas de produção da fala e, portanto, está sujeito às condições físicas do próprio falante que provê a energia do sistema. Na medida em que as unidades de segunda articulação decorrem de algoritmos de realização fonética (motora) desencadeados pelas necessidades lexicais expressivas do falante, estão sujeitas às condições cognitivas do próprio falante para a recuperação lexical e o consequente acesso aos algoritmos de realização fonética de cada uma das unidades de segunda articulação que compõem o item lexical recuperado. As unidades de segunda articulação que compõem cada item lexical estão diretamente associadas à história de cada um desses itens lexicais e , portanto, são definidas por questões sociais que não precisam estar diretamente relacionadas com os hábitos de vozeamento próprios do grupo de fala. Dessa maneira a integração entre o vozeamento e as unidades de segunda articulação não pressupõe uma adaptação perfeita na mídia sonora resultante.

Esse mecanismo de integração entre os dois sistemas vibratórios — o auto-excitado para a produção de voz e o forçado para a produção de unidades da segunda articulação — ocorre como uma das componentes de f0. Essa componente será descrita no correr deste trabalho e será chamada de Ritmo Tonal.
Para o desenvolvimento desse modelo, partimos da proposta teórica de Xu e Wang (1997) de que alguns fatos prosódicos decorrem de restrições mecânico-fisiológicas e outros decorrem das necessidades expressivas dos falantes. Ferreira Netto (2006) propôs que a entoação da fala pode ser decomposta em componentes estruturadoras e semântico-funcionais: finalização (F) e sustentação (S), de um lado, foco/ênfase (E) e acento lexical (A), de outro.

A observação das frequências de uma onda sonora estabelece naturalmente uma série temporal na medida em que o valor observado para cada momento depende do valor do momento imediatamente anterior e nenhuma inversão de valores pode ser permitida, mas, ao contrário, a ordem de ocorrência deve ser mantida com uma informação inerente do valor obtido. Valores obtidos em cada momento resultam da conjunção de componentes que, agregadas, têm o comportamento observado e mensurado. O valor Z obtido no momento t — notado como Zt — é a soma das componentes que concorreram para o seu estabelecimento. Os momentos encontram-se nos núcleos silábicos que ocorrem em intervalos cuja regularidade é predominante, mas não absoluta.

A produção da fala exige esforço para sustentar a voz com uma frequência relativamente estável, definida aqui como tom médio ideal (TM) de f0, que se repete nos momentos mensurados de f0. A supressão desse esforço desencadeia uma declinação pontual que exige a retomada da tensão inicial (Figura 1).

td>

<img ”’alt”’=”Daniel1″ src=”http://ojs.gc.cuny.edu/index.php/lljournal/article/downloadSuppFile/652/346.jpg”>
Figura 1: No gráfico as setas diagonais escuras representam a declinação desencadeada em cada momento pelo desejo de supressão do esforço e as setas verticais escuras representam a sustentação desencadeada pela retomada da tensão inicial, ambas formando o ritmo tonal.

Entendemos que o nome “sustentação” (S) é adequado para a componente marcada com a seta vertical ascendente e o nome “finalização” (F) é adequado para a componente marcada com a seta diagonal descendente (Figura 1). A sustentação é consequência do esforço que se acrescenta a cada um dos momentos da fala, incluindo-se o inicial, para compensar a declinação pontual de finalização. Ritmo tonal é consequência da ação dessas duas tendências que atuam em sentidos opostos, possibilitando a produção da fala. A componente F associa-se ao fato de que se trata do tom-alvo da declinação pontual, estabelecida por um intervalo ideal decrescente de 7 st do tom médio (TM) obtido até o momento Zt, conforme verificaram Ferreira Netto e Consoni. O tom médio é a tendência central dos valores válidos de f0 calculada como a média aritmética acumulada no tempo. Os valores válidos mensurados são os momentos de f0 que cumprem as restrições de altura, intensidade e duração.

Na medida em que a série temporal proposta se configura aditivamente como Zt=St+Ft+Et(+At), pode-se fazer decomposição dos momentos Zt a partir de TMt-1 e definindo-se Ft como TMt-1-7st. Para a definição de Et com Zt maior do que TMt-1 extrai-se TMt-1+3 st de Zt-1; para a definição de Et com Zt menor do que TMt-1 extrai-se Ft-1-4 st de Zt-1. Para a definição de St, ou extraem-se Ft e Et de Zt, ou extrai-se 7 st de TMt-1.

Dessa maneira, o modelo de análise apresentado permite a análise isolada de cada uma das componentes de f0. Desse ponto de vista, a rotina que se desenvolveu para esse projeto difere de experiências já realizadas como as que vão descritas em Hirst e Espesser (1993), relativa ao projeto MOMEL, e em Dutoit et alii (1996), relativa ao projeto MBROLA 4 .

A decomposição da onda sonora portadora da fala parte da definição de seu tom médio como forma prototípica, para a qual convergem todas as frequências próximas. Essa proposta parte do modelo perceptual magnet effect (PME), desenvolvido por Kuhl e seus colegas (Kuhl 2000; Iverson Kuhl 1995; Tsao, Liu; Zahng; De Boer 2001)

Nesse modelo PME, pressupõe-se a existência de uma forma prototípica fixa, não-abstrata, que atue como parâmetro de comparação inicial para todas as demais formas que venham a ser percebidas. Essa proposta de análise traz à tona também o princípio de que os elementos iniciais da aquisição da linguagem serão tomados como formas prototípicas fixas e corresponderão a extremos dessas realizações. A adequação do modelo far-se-á no sentido de se estabelecer que o reconhecimento de tons prosódicos estão sujeitos também à formação de categorias ótimas, fundadas em um modelo específico, localizado nos extremos máximos das possibilidades de variação do fenômeno. Nesse caso, imaginar-se-ão que dois tons específicos graves e agudos serão as variações extremas de um tom médio, estabelecendo uma triangulação semelhante àquela do espaço vocálico, definidor das vogais cardinais /i, a, u/. Essa concepção que toma a elaboração de dois elementos extremos a partir de um elemento medial respalda-se na proposta feita por Chomsky e Halle Nesse modelo PME, pressupõe-se a existência de uma forma prototípica fixa, não-abstrata, que atue como parâmetro de comparação inicial para todas as demais formas que venham a ser percebidas. Essa proposta de análise traz à tona também o princípio de que os elementos iniciais da aquisição da linguagem serão tomados como formas prototípicas fixas e corresponderão a extremos dessas realizações. A adequação do modelo far-se-á no sentido de se estabelecer que o reconhecimento de tons prosódicos estão sujeitos também à formação de categorias ótimas, fundadas em um modelo específico, localizado nos extremos máximos das possibilidades de variação do fenômeno. Nesse caso, imaginar-se-ão que dois tons específicos graves e agudos serão as variações extremas de um tom médio, estabelecendo uma triangulação semelhante àquela do espaço vocálico, definidor das vogais cardinais /i, a, u/. Essa concepção que toma a elaboração de dois elementos extremos a partir de um elemento medial respalda-se na proposta feita por Chomsky e Halle 5 (1968), no que diz respeito, por exemplo, à diferenciação entre vogais altas e baixas, para as quais eles estabelecem a matriz:

<img ”’alt”’=”Daniel21″ src=”http://ojs.gc.cuny.edu/index.php/lljournal/article/downloadSuppFile/652/352.jpg”>

para vogais altas,

<img ”’alt”’=”Danie22″ src=”http://ojs.gc.cuny.edu/index.php/lljournal/article/downloadSuppFile/652/353.jpg”>

para vogais baixas e, finalmente,

<img ”’alt”’=”Danie23″ src=”http://ojs.gc.cuny.edu/index.php/lljournal/article/downloadSuppFile/652/354.jpg”>

para vogais médias. Na medida em que não há como se imaginar que a matriz com ambos os traços positivos possa ocorrer —

<img ”’alt”’=”Danie24″ src=”http://ojs.gc.cuny.edu/index.php/lljournal/article/downloadSuppFile/652/355.jpg”>

— pois um segmento está impedido de ser alto e baixo simultaneamente, podemos imaginar que a concepção matricial proposta no SPE equivalha à triangulação gráfica que entendemos representar melhor o estabelecimento de formas prototípicas definidas a partir de um valor básico.

<img ”’alt”’=”Danie3″ src=”http://ojs.gc.cuny.edu/index.php/lljournal/article/downloadSuppFile/652/347.jpg”>
Figura 2: À esquerda, o modelo PME, à direita o modelo do SPE.

A diferença principal entre os modelos do SPE e o do PME refere-se à concepção dos valores máximos estabelecidos. No SPE define-se uma linha média no trato vocal que atua como limite fixo para a definição das duas categorias, não havendo, portanto, diferenças de qualidade nas posições que caem acima ou abaixo dessa linha. O modelo PME pressupõe a ocorrência de uma forma prototípica fixa, adquirida na primeira infância, que atua como um atrator para todos os estímulos que ocorram. Nesse caso, há um limite fluido, incaracterístico, entre as duas categorias. Cada um desses modelos exige uma definição de parâmetros diferentes. O modelo do SPE necessita do estabelecimento claro da linha média no trato vocal bem como da explicitação de seu correlato acústico; o modelo do PME, por sua vez, necessita do reconhecimento das formas prototípicas fixas previamente adquiridas, tanto do ponto de vista acústico como do articulatório, sem perder de vista a correlação entre eles. Necessita, também, da definição do alcance de seu poder “magnético” de maneira que se possa perceber onde se situa o limite fluido, incaracterístico, que separa ambas as categorias.

Na proposta do projeto ExProsodia o TM é o ponto de partida da decomposição da série temporal de f0. O princípio é que o TM, estabelecido pela sustentação, seja o alvo do movimento rítmico tonal da fala. Na medida em que a finalização é uma decorrência do que chamamos da declinação pontual da fala, a recuperação em torno de um tom específico, definido pelo próprio falante desde o início de sua fala, o TM é decorrência das intenções prosódicas do falante. Desse ponto de vista, o TM é tomado pelo projeto ExProsodia como o atrator do PME, cujo poder magnético parece estar em torno de 3 st ascendentes e 4 st descendentes. Entende-se que o falante conhece o TM de sua fala e faz o possível para mantê-lo.

Para a análise dessa série temporal, desenvolvemos uma rotina de análise automática de arquivos sonoros digitais, chamada ExProsodia 6 . Essa rotina, elaborada em Visual Basic, tem por objetivo a análise automática de frequência, intensidade e duração de segmentos de frases convertidos na forma de texto e extraídos pelo programa Speech Filing System 7 v. 4.7 (SFS Win v1.7; Huckvale et alii). Como resultado final, apresentam-se um gráfico de distribuição temporal de frequência e de intensidade, categorizados segundo escalas específicas, com a transcrição dos dados em cada ponto plotado no gráfico, e as tabelas detalhadas referentes a esse gráfico.

Para verificar a relação existente entre os valores obtidos em Hz e seus valores nas notas musicais correspondentes, utilizamos os valores dados em Pierce, estabelecendo os valores médios de cada intervalo de semitom (±1/2 semitom) ali apresentado como limite para essa conversão. Posteriormente esses valores padronizados são convertidos numa escala de semitons do protocolo Musical Instrument Digital Interface, conhecido como MIDI 8 .

<img ”’alt”’=”Daniel4″ src=”http://ojs.gc.cuny.edu/index.php/lljournal/article/downloadSuppFile/652/344.jpg”>
Figura 3: Os traços contínuos mais escuros mostram o TM e a Finalização Os traços pontilhados mostram os limites acima, de 3 st, e abaixo, de 4 st, do TM. A escala horizontal mostra os os valores em MIDI, referindo os graus da escala cromática diatônica ocidental. A linha curva no centro mostra a tendência à finalização da frase, e as linhas diagonais apontam para Foco/ênfase e para a finalização.

A rotina processa os dados obtidos para cada núcleo silábico demarcado homogeneizando-os com base na frequência média obtida e, em seguida, convertendo-os em uma escala MIDI. A matriz gerada garante a recuperação da frequência em MIDI dos núcleos silábicos e de sua duração, bem como da duração dos intervalos entre eles.

Dessa maneira, a matriz pode ser interpretada como um arquivo sonoro nesse mesmo formato MIDI, por meio do suplemento MidiCSD 9 (Neuwirth 2010). Na medida em que a rotina ExProsodia faz a decomposição de f0 em suas componentes de TM, F e S, é possível fazer a síntese da entoação da frase a partir de qualquer uma delas, bem como a geração de um arquivo sonoro.

 

 

Manipulação dos dados

Este experimento contou com 3 frases de fala espontânea retiradas do debate entre os candidatos a presidência do Brasil em 2010. As frases são de voz feminina, assertivas e sem foco marcado. As frases escolhidas foram: (1) acho que tem duas reformas que são imprescindíveis; (2) nós vamos para oito anos de governo e (3) é a questão da constituinte exclusiva. Para cada uma das frases houve a manipulação do f0 em semitons ascendentes em apenas uma palavra, a saber: (1) duas, (2) oito e (3) questão.

A rotina Exprosodia oferece a opção de um arquivo sonoro em que apenas o tom médio é preservado. Dessa forma, elimina-se todas a variações que podem ser consideradas significativas para o falante dentro do modelo proposto pro Ferreira Netto (2006). A partir do tom médio, nós manipulamos a primeira sílaba de cada palavra selecionada como portadora da proeminência. Decidimos pela manipulação da primeira sílaba, fosse ela tônica ou não, baseados nos dados apontados por Ferreira Netto (2006) de que havia em PB a possibilidade de a ênfase ser marcada na primeira sílaba, mesmo que ela não fosse a tônica. Tomar a sentença com tom médio como base para as outras manipulações foi importante pois garantiu que não haveria na frase um outro elemento que pudesse ser mais enfático pela variação do tom do que o elemento a ser manipulado no experimento. As sílabas foram manipuladas de 1 a 4 semitons ascendentes. A manipulação no ExProsodia gerou um arquivo sonoro para cada manipulação, inclusive para o tom médio, o qual foi convertido para o formato .wav, por meio do aplicativo MIDI Converter Studio 6.2 10 . Em seguida, utilizando-se do Praat (Boersma; Weenink 2010), foi aplicada a função Replace Pitch Tier, através das funções To Manipulation e Get Pitch Tier para que a curva entoacional da frase original fosse substituída pela curva entoacional contendo apenas os valores do tom médio. Esse procedimento gerou uma frase quasi-monotônica. Todas as outras manipulações foram realizadas partindo da frase monotônica.

<img ”’alt”’=”Daniel5″ src=”http://ojs.gc.cuny.edu/index.php/lljournal/article/downloadSuppFile/652/345.jpg”>
Figura 4: Ilustração dos 4 semitons ascendentes manipulados sobre o TM.

 

Experimento de percepção

Sujeitos

Foram entrevistados 18 sujeitos, sendo que, destes, 6 eram músicos e 12 eram não músicos. Os sujeitos eram tanto homens quanto mulheres adultos escolarizados. Todos os sujeitos participaram do teste voluntariamente.

Procedimento

O teste foi desenhado e executado através do programa Perceval 11 desenvolvido na Universidade de Aix-en-Provence. Os testes compunham-se de 30 tentativas de reconhecimento da variação de entoação. Destas 30 tentativas, 15 eram compostas de frases completas, com cadeia segmental, e 15 eram compostas de frases em que se manteve somente a entoação, com arquivo MIDI, instrument 72, sem cadeia segmental.

As frases eram sempre apresentadas em oposição à frase com entoação quasi-monotônica. Os sujeitos eram questionados se as frases apresentadas eram iguais. Dessa forma, os sujeitos eram levados a comparar em cada tentativa uma variação de X semitons ao valor sem variação, representado pelo tom médio. Os sujeitos foram orientados a observar somente as variações de entoação e alertados de que as frases eram sempre as mesmas do ponto de vista lexical.

Os sujeitos usaram o teclado, teclas N e S, para darem suas respostas. A tecla N correspondia a Não, ou seja, à interpretação de que as frases eram diferentes. A tecla S correspondia a Sim, as frases eram iguais. O intervalo entre cada uma das frases foi de 100 ms .Não foi computado o tempo de resposta.

Resultados

Os resultado obtidos foram os seguintes:

<img ”’alt”’=”Daniel6″ src=”http://ojs.gc.cuny.edu/index.php/lljournal/article/downloadSuppFile/652/349.jpg”>
Tabela 1: Total dos sujeitos.

Por meio do teste de χ2, as análises referentes ao total dos sujeitos entrevistados apontaram para a probabilidade P<0,05 de os dados obtidos e mostrados na Tabela 1 poderem ser atribuídos ao acaso. Ao individualizar cada categoria, por meio também do teste χ2, somente a variação de 1st mostrou resultados significativos, com P<0,01. As demais variações não se confirmaram com valores significativamente diferentes de dados aleatórios esperados. Um teste de ANOVA confirmou esses resultados globais, com Fo(9,386)>Fc(5,19) e P<0,05.

<img ”’alt”’=”Daniel7″ src=”http://ojs.gc.cuny.edu/index.php/lljournal/article/downloadSuppFile/652/350.jpg”>
Tabela 2: Total de participantes não músicos.

No caso das análises relativas à percepção de não músicos (Tabela 2), o teste de χ2 para verificar se os valores obtidos seriam aleatórios apontou para uma probabilidade de P<0,01 de esses dados serem aleatórios. Uma análise de χ2 individualizando cada tentativa, apontou para a variação de 1st ser a única que não se conforma com valores aleatórios esperados (P<0,01). As demais variações se confirmam de acordo com resultados esperados. O teste de ANOVA confirma essa tendência, apontando Fo(12,86)>Fc(5,19) e P<0,01.

<img ”’alt”’=”Daniel8″ src=”http://ojs.gc.cuny.edu/index.php/lljournal/article/downloadSuppFile/652/351.jpg”>
Tabela 3: Total de participantes músicos.

No caso das análises relativas à percepção de músicos (Tabela 3), o teste de χ2 para verificar se os valores obtidos seriam aleatórios apontou para uma probabilidade diferente do caso anterior de esses dados não serem aleatórios (P<0,09), o que aponta para uma diferença não significativa. Entretanto, a análise de χ2 individualizando cada tentativa, apontou para a confirmação da variação de 1st ser a única que não se conforma com valores aleatórios esperados (P<0,05). As demais variações se confirmam de acordo com resultados esperados. O teste de ANOVA também confirma essa tendência, apontando Fo(5,36)>Fc(5,19) e P<0,05.
A comparação entre os valores relativos das tabelas 1 e 2, para não músicos e músicos, respectivamente, por meio de um teste de contingência, mostrou que os resultados são equivalentes, não havendo diferenças significativas entre eles.

 

Discussão

Os resultados obtidos em nossos testes, de acordo com a metodologia empregada, demonstraram que os sujeitos percebem diferentemente variações tonais na presença da cadeia segmental. Ou seja, variações tonais maiores são exigidas para marcação da ênfase quando a cadeia segmental está presente. Essa exigência de variações maiores pode estar relacionada à necessidade de sobrepor as informações prosódicas às variações de f0 inerentes a produção de um determinado fonema, ou à manutenção da microprosódia, para a marcação do acento lexical, por exemplo. Dessa forma, podemos dizer que a macroprosódia é marcada por variações maiores para que ela possa ser percebida mesmo diante das variações da microprosódia. Sem a presença da cadeia segmental, as variações da microprosódia são eliminadas e, então, qualquer variação pode ser considerada.

As variações tonais menores poderiam ter deixado de ser percebidas em decorrência da competição entre a cadeia segmental e a sequência melódica. Zatorre e seus colegas (1992) mostraram que a discriminação de tons e a da cadeia segmental ocorrem em diferentes partes do cérebro. Hyde e colegas (2008) demonstraram que a discriminação mais fina da variação de tons está sob responsabilidade do hemisfério direito. Os resultados que encontramos vão na mesma direção e sugerem que a percepção da variação tonal necessita ter saliência suficiente para concorrer com a percepção da cadeia segmental. Entendemos que esse processo possa ser definido linguisticamente. Os nossos resultados revelaram ainda que músicos e não-músicos parecem processar os tons na presença da cadeia segmental da mesma forma. Enquanto que sequências tonais sem cadeia segmental são percebidas com maior acuidade pelos músicos.

 

Agradecimentos

Agradecemos a Capes e CNPq pelo apoio dado ao nosso trabalho.
 
 
Notas
 

1Atentaremos uma descrição mais detalhada da proposta de Kuhl quando expusermos os pressupostos da rotina Exprosodia.

2“É importante não confundir sistemas auto-excitados com sistemas forçados. Entre eles existem diferenças fundamentais como veremos de seguida. Os sistemas forçados são frequentemente submetidos a excitação externas oscilatórias (periódicas ou aperiódicas). Nos sistemas auto-excitados existe um fornecimento de energia contínuo do exterior, que o próprio sistema através de mecanismos de acoplamento pode transformar (se os parâmetros forem adequados) em energia vibratória. Por outro lado, num sistema forçado, a excitação é independente da resposta vibratória do sistema; nos sistemas auto-excitados existe um acoplamento permanente entre excitação e resposta.”. HENRIQUE, Luís L. Acústica Musical.Lisboa: Fundação Calouste Gulbenkian, 2002. p. 132-133

3“Num oscilador auto-excitado existe uma fonte de energia externa contínua (escoamento do ar, movimento de um arco, …), sendo parte da energia fornecida transformada em energia vibratória através de fenômenos de acoplamento com a resposta vibratória do sistema.” HENRIQUE, L. op. cit, p. 131

4The aim of the MBROLA project, recently initiated by the Faculté Polytechnique de Mons (Belgium), is to obtain a set of speech synthesizers for as many voices, languages and dialects as possible, free of use for non-commercial and non-military applications.

5Doravante SPE.

6O aplicativo ExProsodia está registrado no INPI, pela Universidade de São Paulo sob número 08992-2, conforme publicação no RPI, n. 1974, em 04/11/2008. O certificado do registro definitivo é janeiro de 2010.

7“SFS is not public domain software, its intellectual property is owned by Mark Huckvale, University College London and others. However SFS may be used and copied without charge as long as the programs and documentation remain unmodified and continue to carry this copyright notice.” Disponível em <http://www.phon.ucl.ac.uk/resource/sfs/help/overview.htm>. Acesso em: 13 de outubro de 2010.

8Disponível em: <http://www.midi.org/>. Acesso em: 10 set. 2008

9MidiCSD é registrado em nome de Mark Neuwirth. Esse suplemento usa a rotina t2mf, desenvolvida por Piet Van Oostrum.

10Disponível em http://www.maniactools.com/soft/midi_converter/index.shtml?version=6.2. Acesso em 13 de outubro de 2010.

11PERCEVAL está disponível no site www.lpl.univ-aix.fr e é distribuido gratuitamente para fins acadêmicos.

 
 
Bibliografía
 

Andre, C.; Ghio, A.; Cavé, C.; Teston, B. Perceval: a computer driven system for experimetation on auditory and visual perception. Proceedings of XVth ICPhS, Barcelone, Espagne, p. 1421-1424, 2003. Disponível em: < http://aune.lpl.univ-aix.fr/~lpldev/perceval/percevalbiblio.html> Acesso em: 12 de outubro de 2010.

Arantes, P. & Barbosa, P. A. Secondary stress in Brazilian Portuguese: the interplay between production and perception studies. In: Speech Prosody, 2006, Dresden. Proceedings of the Speech Prosody, 2006. p. 73-76.

Barbosa, P. A. Estrutura rítmica da frase revelada por aspectos de produção e percepção de fala. XLIII Seminário do GEL-São Paulo, 1995.

Boersma, P.; & Weenink, D. Praat: doing phonetics by computer (Version 5.1.05) [Computer program]. 2009. Disponível em <http://www.praat.org). Acesso em 12 de outubro de 2010.

Chomsky, Noam; Halle, Morris. The sound pattern of English. New York: Harper & Row Publishers, 1968.
Consoni, F.O acento lexical como pista para o reconhecimento das palavras. Dissertação de mestrado FFLCH-USP, 2006.

– ; Rosa, R. C. M. & Ferreira Netto, W . A questão da correlação entre a análise automática das finalizações prosódicas e a separação intuitiva de frases em textos longos. In: IV Congresso Internacional de Fonética e Fonologia, 2008, Niterói: UFF. Caderno de Resumos, 2008. v. 1. p. 14-14.

Crystal, D.. Prosodic systems and intonation in English. Cambridge: Cambridge University Press, 1969.

Dutoit, T; Pagel, V; Pierret, N; Bataille, F.; Vrecken; O. van der. The mbrola project: towards a set of high quality speech synthesizers free of use for non commercial purposes. Proceedings of The Fourth International Conference on Spoken Language Processing Philadelphia. Disponível em: < http://www.asel.udel.edu/icslp/cdrom/vol3/920/a920.pdf> Acesso em 21 dez. 2008

Ferreira Netto, W. Variação de frequência e constituição da prosódia da língua portuguesa. Tese de Livre-Docência. Universidade de São Paulo, 2006.

– ; Consoni, Fernanda. Estratégias prosódicas da leitura em voz alta e da fala espontânea. Alfa, n. 52, v. 2, p. 521-534, 2008. Disponível em: <http://www.alfa.ibilce.unesp.br/download/v52-2/15-Netto-Consoni.pdf>. Acesso em 16/03/2009.

Fónagy, I. Des fonctions de l’intonation : Essai de synthèse. Flambeau, 29, p. 1–20, 2003

Ghio A., André C., Teston B., Cavé C., (2003) PERCEVAL: une station automatisée de tests de PERCeption et d’EVALuation auditive et visuelle. Travaux Interdisciplinaires du Laboratoire Parole et Langage d’Aix-en-Provence, n. 22 , p. 115-133. Aix-en-Provence, France, 2003. Disponível em: < http://aune.lpl.univ-aix.fr/~lpldev/perceval/percevalbiblio.html> Acesso em: 12 de outubro de 2010.

Gussenhoven, C. The Phonology of tone and intonation. Cambridge: Cambridge University Press, 2004.

Hirst, D. & Di Cristo, A. Intonation Systems. Cambridge University Press, 1998.

Hirst, D.; Espesser, R. (1993). Automatic modelling of fundamental frequency using a quadratic spline function. Travaux de l’Institute de Phonétique d’Aix, n. 15, p. 75-85, 1993.

Henrique, Luís L. Acústica Musical. Lisboa: Fundação Calouste Gulbenkian, 2002. p. 132-133

Huckvale, M.A.; Brookes, D.M.; Dworkin, L.T.; Johnson, M.E.; Pearce, D.J.; Whitaker, L.. “The SPAR Speech Filing System”, European Conference on Speech Technology, Edinburgh, 1987. Disponível em: <http://www.phon.ucl.ac.uk/home/mark/papers/sparsfs87.pdf>. Acesso em: 29 de março de 2010.

Hyde, K.L; Peretz, I; Zatorre, R.J. Evidence for the role of the right auditory cortex in fine pitch resolution. Neuropsychologia, 46, 2008, p. 632-639.

Kuhl, P.K.; Iverson, P. Linguistic experience and the “perceptual magnet effect”. In: STRANGE, W. (ed.). Speech perception and linguistic experience: issues in cross-language research. Baltimore: York Press, 1995. p. 121-154.

– ; Tsao, F.-M.; Liu, H.-L.; Zahng, Y.; De Boer, B. Language/Culture/Mind/Brain. Progress at the margins between disciplines. Annals of New York Academy of Sciences, n. 935, p. 136-74, 2001.

– A new view of language acquisition. Proceedings of the National Academy of Sciences, n. 97, v. 22, p. 1850-1857, 2000.

Ladd, D. R. & Morton, R. The perception of intonational emphasis: continuous or categorical? Journal of Phonetics, 25:313-42, 1997.

Menezes, F. A acústica musical em palavras e sons. São Paulo: Ateliê Editorial/Fapesp, 2003.

Moraes, J. A. Acentuação lexical e acentuação frasal em português: um estudo acústico- perceptivo. Estudos Linguísticos e Literários 17, p. 39-57, 1995.

Morettin, P.A.; Toloi, C.M. Séries temporais. São Paulo: Atual, 1986.

Neuwirth, E. MidiCSD, support for Midi sound and Music from within Excel. Viena, 2008. Disponível em: <http://sunsite.univie.ac.at/musicfun/MidiCSD/>. Acesso em: 29 de março de 2010.

Pierrehumbert, J. The Phonology and Phonetics of English Intonation. PhD Thesis, MIT, 1980.

Roederer, Juan G. Introdução à física e à psicofísica da música. Trad. Alberto Luis da Cunha. Edição original de 1975. São Paulo: Edusp, 2002.

Schoenberg, Arnold. (2008). Harmonia. Trad. de Marden Maluf do original alemão Harmonielehre, publicado em 1949. São Paulo: Editora Unesp, 2001.

Steele, J. . An essay towards establishing the melody and measure of speech. Menston, UK: The Scolar Press Limited, 1775, 1969.

T’Hart, J. Differential sensitivity to pitch distance, particularly in speech. Journal of Acoustical Society of the America, n. 69, v. 3, 1981. p. 811-821.

Troubetzkoy, N.S. Principios de fonologia. Madrid: Cincel, 1970.

Vaissière, Jacqueline. Phonological use of the larynx. Larynx, 97, p. 115-26, 1997. Disponível em ‹http://www.personnels.univ-paris3.fr/users/vaissier/pub/ARTICLES/index_fichiers/1997a.pdf›. Acesso em: 9 mar. 2007.

– . Sur les universaux de substance prosodiques, In: WAUQUIER, Sophie (ed.) Les universaux sonores. Nantes: Presses Universitaires de Rennes, 2002. Disponível em: ‹www.personnels.univ-paris3.fr/users/vaissier/pub/ARTICLES/index_fichiers/2005.pdf›. Acesso em: 9 mar. 2007.

Wertheimer, Max. Laws of organization in perceptual forms. In: Ellis, W. (ed.). A Source Book of Gestalt Psychology. London: Routledge & Kegan Paul, 1938. p. 71-88 Por Christopher D. Gree, Disponível em ‹http://psychclassics.yorku.ca/Wertheimer/Forms/forms.htm›. Acesso em: 9 mar. 2007.

Xu, Yi; Wang, Q.E. Component of intonation: what are linguistic, what are mechanical/physiological? Presented at International Conference on Voice Physiology and Biomechanics, Evanston Illinois, 1997.

Zatorre, R.J.; Evans, A.C.; Meyer, E.; Gjedde, A. Lateralization of Phonetic and Pitch Discrimination in Speech Processing. Science, New Series, v. 256, issue 5058, may 8, 1992, p. 846-849

Zatorre, R.J.; Evans, A.C.; Meyer, E.; Gjedde, A. Lateralization of Phonetic and Pitch Discrimination in Speech Processing. Science, New Series, v. 256, issue 5058, may 8, 1992, p. 846-849.
 
 

'A INFLUÊNCIA DA CADEIA SEGMENTAL NA PERCEPÇÃO DE VARIAÇÕES TONAIS' has no comments

Be the first to comment this post!

Would you like to share your thoughts?

Your email address will not be published.

Images are for demo purposes only and are properties of their respective owners.
Old Paper by ThunderThemes.net

Skip to toolbar