GlobalPhone Portuguese (Brazilian)

Instance of: Resource Info
Description The GlobalPhone corpus developed in collaboration with the Karlsruhe Institute of Technology (KIT) was designed to provide read speech data for the development and evaluation of large continuous speech recognition systems in the most widespread languages of the world, and to provide a uniform, multilingual speech and text database for language independent and language adaptive speech recognition as well as for language identification tasks. The entire GlobalPhone corpus enables the acquisition of acoustic-phonetic knowledge of the following 20 spoken languages: Arabic (ELRA-S0192), Bulgarian (ELRA-S0319), Chinese-Mandarin (ELRA-S0193), Chinese-Shanghai (ELRA-S0194), Croatian (ELRA-S0195), Czech (ELRA-S0196), French (ELRA-S0197), German (ELRA-S0198), Hausa (ELRA-S0347), Japanese (ELRA-S0199), Korean (ELRA-S0200), Polish (ELRA-S0320), Portuguese (Brazilian) (ELRA-S0201), Russian (ELRA-S0202), Spanish (Latin America) (ELRA-S0203), Swedish (ELRA-S0204), Tamil (ELRA-S0205), Thai (ELRA-S0321), Turkish (ELRA-S0206), Vietnamese (ELRA-S0322). In each language about 100 sentences were read from each of the 100 speakers. The read texts were selected from national newspapers available via Internet to provide a large vocabulary (up to 65,000 words). The read articles cover national and international political news as well as economic news. The speech is available in 16bit, 16kHz mono quality, recorded with a close-speaking microphone (Sennheiser 440-6) and same recording equipment for all languages. The transcriptions are internally validated and supplemented by special markers for spontaneous effects like stuttering, false starts, and non-verbal effects like laughing and hesitations. Speaker information like age, gender, occupation, etc. as well as information about the recording setup complement the database. The entire GlobalPhone corpus contains over 450 hours of speech spoken by more than 1900 native adult speakers. Data is shortened by means of the shorten program written by Tony Robinson, available from Softsound's web page: http://www.softsound.com/ linux distributions, or simulated versions such as cygwin. Alternatively, the data could be delivered unshorten. The Portuguese (Brazilian) corpus was produced using the Folha de Sao Paulo newspaper. It contains recordings of 102 speakers (54 males, 48 females) recorded in Porto Velho and Sao Paulo, Brazil. The following age distribution has been obtained: 6 speakers are below 19, 58 speakers are between 20 and 29, 27 speakers are between 30 and 39, 5 speakers are between 40 and 49, and 5 speakers are over 50 (1 speaker age is unknown).
Le corpus GlobalPhone, développé avec la collaboration du Karlsruhe Institute of Technology (KIT), a été conçu afin de fournir des données de parole lue pour le développement et l’évaluation de systèmes de reconnaissance de la parole continue à large vocabulaire dans les langues les plus répandues dans le monde, l’objectif étant de fournir une base de données audio et textuelles uniforme et multilingue pour la reconnaissance de la parole indépendante de la langue et adaptable à la langue, ainsi que pour des tâches d’identification de la langue. Le corpus GlobalPhone complet permet l’acquisition d’une connaissance acoustico-phonétique pour les 20 langues parlées suivantes: allemand (ELRA-S0198), arabe (arabe standard moderne) (ELRA-S0192), bulgare (ELRA-S0319), chinois-mandarin (ELRA-S0193), chinois de Shanghai (ELRA-S0194), coréen (ELRA-S0200), croate (ELRA-S0195), espagnol (d’Amérique latine) (ELRA-S0203), français (ELRA-S0197), haoussa (ELRA-S0347), japonais (ELRA-S0199), polonais (ELRA-S0320), portugais (brésilien) (ELRA-S0201), russe (ELRA-S0202), suédois (ELRA-S0204), tamoul (ELRA-S0205), thaï (ELRA-S0321), tchèque (ELRA-S0196), turc (ELRA-S0206) et vietnamien (ELRA-S0322). Dans chaque langue, environ 100 phrases ont été lues par chacun des 100 locuteurs. Les textes lus sont extraits d’articles de journaux nationaux disponibles sur internet afin de fournir un large vocabulaire (jusqu’à 65000 mots). Les articles lus couvrent des actualités politiques nationales et internationales, ainsi que des nouvelles économiques. Les données de parole ont été enregistrées en 16 bit, 16 kHz (qualité mono) avec un micro-casque (Sennheiser 440-6) et le même équipement d’enregistrement pour l’ensemble des langues. Les transcriptions ont été validées en interne et annotées au moyen de balises spéciales pour marquer les effets spontanés, tels que le bégaiement, les faux démarrages, et les effets non verbaux comme le rire et les hésitations. La base contient également des informations sur les locuteurs, telles que l’âge, le genre, la profession, etc. ainsi que des informations sur la mise en place de l’enregistrement. Le corpus GlobalPhone dans son entier comprend plus de 450 heures de parole enregistrées par plus de 1900 locuteurs adultes natifs. Les données sont compressées au moyen du programme Shorten écrit par Tony Robinson, disponible depuis la page web de Softsound: http://www.softsound.com/ (distributions linux ou versions simulées telles que cygwin). Au besoin, les données peuvent être fournies non compressées. Le corpus portugais (brésilien) a été produit à partir du journal Folha de Sao Paulo. Il comprend les enregistrements de 102 locuteurs (54 hommes, 48 femmes) enregistrés à Porto Velho et Sao Paulo, Brésil. Les classes d'âge sont réparties comme suit : 6 locuteurs de moins de 19 ans, 58 locuteurs entre 20 et 29 ans, 27 locuteurs entre 30 et 39 ans, 5 locuteurs entre 40 et 49 ans, et 5 locuteurs de plus de 50 ans (1 locuteur d’âge inconnu).
Language por
Language Portuguese
Rights ELRA_END_USER
ELRA_VAR
See Also http://metashare.elda.org/repository/browse/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690/
Source META-SHARE
Title GlobalPhone Portuguese (Brazilian)
GlobalPhone portugais (brésilien)
Type Dataset
Type Corpus
Is Is Replaced By of GlobalPhone Portuguese (Brazilian)

Contact Point

Communication Info
Address 55-57 rue Brillat-Savarin
City Paris
Country France
Distribution
Access URL http://www.elda.org
Type Distribution
URL
Email mapelli@elda.org
Fax Number +1 43 14 33 30
Telephone Number +1 43 13 33 33
Type Communication Info
Zip Code 75013
Given Name Mapelli
Surname Valérie
Type Contact Person
Person
Person Info Type

Corpus Info

Corpus Audio Info
Audio Size Info
Size Info
Size 2
Size Unit Gb
Type Size Info Type
Type Audio Size Info
Language Info
Language Portuguese
Language por
Language Name Portuguese
Type Language Info
Linguality Info
Linguality Type Monolingual
Type Linguality Info
Media Type Audio
Type Corpus Audio Info
Resource Type Corpus
Type Corpus Info

Distribution Info

Availability Available-restricted Use
Availability Start Date 2006-01-30 Date
License
Membership Info
Member false Boolean
Membership Institution ELRA
Type Membership Info
Permission
Action http://creativecommons.org/ns/Distribution
http://creativecommons.org/ns/CommercialUse
Constraint Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#permission
Operator Eq
Purpose Academic Use
Type Prohibition
Constraint
Permission
Restrictions Of Use
Same As http://www.elra.info/IMG/pdf_VAR_140312.pdf
Type Licence Info
User Nature Commercial
Membership Info
Member true Boolean
Membership Institution ELRA
Type Membership Info
Permission Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#permission
Same As http://www.elra.info/IMG/pdf_VAR_140312.pdf
Type Licence Info
User Nature Academic
Membership Info Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#membership Info
Permission Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#permission
Prohibition Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#permission
Same As http://www.elra.info/IMG/pdf_ENDUSER_140312.pdf
Type Licence Info
User Nature Academic
Membership Info Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#membership Info
Permission Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#permission
Same As http://www.elra.info/IMG/pdf_VAR_140312.pdf
Type Licence Info
User Nature Academic
Membership Info Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#membership Info
Permission Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#permission
Prohibition Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#permission
Same As http://www.elra.info/IMG/pdf_ENDUSER_140312.pdf
Type Licence Info
User Nature Commercial
Membership Info Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#membership Info2
Permission Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#permission
Prohibition Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#permission
Same As http://www.elra.info/IMG/pdf_ENDUSER_140312.pdf
Type Licence Info
User Nature Commercial
Membership Info Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#membership Info2
Permission Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#permission
Same As http://www.elra.info/IMG/pdf_VAR_140312.pdf
Type Licence Info
User Nature Commercial
Membership Info Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#membership Info2
Permission Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#permission
Prohibition Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#permission
Same As http://www.elra.info/IMG/pdf_ENDUSER_140312.pdf
Type Licence Info
User Nature Academic
Type Distribution
Distribution Info

Identification Info

Description The GlobalPhone corpus developed in collaboration with the Karlsruhe Institute of Technology (KIT) was designed to provide read speech data for the development and evaluation of large continuous speech recognition systems in the most widespread languages of the world, and to provide a uniform, multilingual speech and text database for language independent and language adaptive speech recognition as well as for language identification tasks. The entire GlobalPhone corpus enables the acquisition of acoustic-phonetic knowledge of the following 20 spoken languages: Arabic (ELRA-S0192), Bulgarian (ELRA-S0319), Chinese-Mandarin (ELRA-S0193), Chinese-Shanghai (ELRA-S0194), Croatian (ELRA-S0195), Czech (ELRA-S0196), French (ELRA-S0197), German (ELRA-S0198), Hausa (ELRA-S0347), Japanese (ELRA-S0199), Korean (ELRA-S0200), Polish (ELRA-S0320), Portuguese (Brazilian) (ELRA-S0201), Russian (ELRA-S0202), Spanish (Latin America) (ELRA-S0203), Swedish (ELRA-S0204), Tamil (ELRA-S0205), Thai (ELRA-S0321), Turkish (ELRA-S0206), Vietnamese (ELRA-S0322). In each language about 100 sentences were read from each of the 100 speakers. The read texts were selected from national newspapers available via Internet to provide a large vocabulary (up to 65,000 words). The read articles cover national and international political news as well as economic news. The speech is available in 16bit, 16kHz mono quality, recorded with a close-speaking microphone (Sennheiser 440-6) and same recording equipment for all languages. The transcriptions are internally validated and supplemented by special markers for spontaneous effects like stuttering, false starts, and non-verbal effects like laughing and hesitations. Speaker information like age, gender, occupation, etc. as well as information about the recording setup complement the database. The entire GlobalPhone corpus contains over 450 hours of speech spoken by more than 1900 native adult speakers. Data is shortened by means of the shorten program written by Tony Robinson, available from Softsound's web page: http://www.softsound.com/ linux distributions, or simulated versions such as cygwin. Alternatively, the data could be delivered unshorten. The Portuguese (Brazilian) corpus was produced using the Folha de Sao Paulo newspaper. It contains recordings of 102 speakers (54 males, 48 females) recorded in Porto Velho and Sao Paulo, Brazil. The following age distribution has been obtained: 6 speakers are below 19, 58 speakers are between 20 and 29, 27 speakers are between 30 and 39, 5 speakers are between 40 and 49, and 5 speakers are over 50 (1 speaker age is unknown).
Le corpus GlobalPhone, développé avec la collaboration du Karlsruhe Institute of Technology (KIT), a été conçu afin de fournir des données de parole lue pour le développement et l’évaluation de systèmes de reconnaissance de la parole continue à large vocabulaire dans les langues les plus répandues dans le monde, l’objectif étant de fournir une base de données audio et textuelles uniforme et multilingue pour la reconnaissance de la parole indépendante de la langue et adaptable à la langue, ainsi que pour des tâches d’identification de la langue. Le corpus GlobalPhone complet permet l’acquisition d’une connaissance acoustico-phonétique pour les 20 langues parlées suivantes: allemand (ELRA-S0198), arabe (arabe standard moderne) (ELRA-S0192), bulgare (ELRA-S0319), chinois-mandarin (ELRA-S0193), chinois de Shanghai (ELRA-S0194), coréen (ELRA-S0200), croate (ELRA-S0195), espagnol (d’Amérique latine) (ELRA-S0203), français (ELRA-S0197), haoussa (ELRA-S0347), japonais (ELRA-S0199), polonais (ELRA-S0320), portugais (brésilien) (ELRA-S0201), russe (ELRA-S0202), suédois (ELRA-S0204), tamoul (ELRA-S0205), thaï (ELRA-S0321), tchèque (ELRA-S0196), turc (ELRA-S0206) et vietnamien (ELRA-S0322). Dans chaque langue, environ 100 phrases ont été lues par chacun des 100 locuteurs. Les textes lus sont extraits d’articles de journaux nationaux disponibles sur internet afin de fournir un large vocabulaire (jusqu’à 65000 mots). Les articles lus couvrent des actualités politiques nationales et internationales, ainsi que des nouvelles économiques. Les données de parole ont été enregistrées en 16 bit, 16 kHz (qualité mono) avec un micro-casque (Sennheiser 440-6) et le même équipement d’enregistrement pour l’ensemble des langues. Les transcriptions ont été validées en interne et annotées au moyen de balises spéciales pour marquer les effets spontanés, tels que le bégaiement, les faux démarrages, et les effets non verbaux comme le rire et les hésitations. La base contient également des informations sur les locuteurs, telles que l’âge, le genre, la profession, etc. ainsi que des informations sur la mise en place de l’enregistrement. Le corpus GlobalPhone dans son entier comprend plus de 450 heures de parole enregistrées par plus de 1900 locuteurs adultes natifs. Les données sont compressées au moyen du programme Shorten écrit par Tony Robinson, disponible depuis la page web de Softsound: http://www.softsound.com/ (distributions linux ou versions simulées telles que cygwin). Au besoin, les données peuvent être fournies non compressées. Le corpus portugais (brésilien) a été produit à partir du journal Folha de Sao Paulo. Il comprend les enregistrements de 102 locuteurs (54 hommes, 48 femmes) enregistrés à Porto Velho et Sao Paulo, Brésil. Les classes d'âge sont réparties comme suit : 6 locuteurs de moins de 19 ans, 58 locuteurs entre 20 et 29 ans, 27 locuteurs entre 30 et 39 ans, 5 locuteurs entre 40 et 49 ans, et 5 locuteurs de plus de 50 ans (1 locuteur d’âge inconnu).
Distribution
Access URL http://catalog.elra.info/product_info.php?products_id=825
Type Distribution
URL
Identifier ELRA-S0201
Meta Share Id NOT_DEFINED_FOR_V2
Title GlobalPhone Portuguese (Brazilian)
GlobalPhone portugais (brésilien)
Type Identification Info

Usage Info

Actual Use Info
Actual Use Nlp Applications
Type Actual Use Info
Use NLPSpecific Speech Recognition
Type Usage Info

Validation Info

Type Validation Info
Validated true Boolean
Validation Mode Details Most of the GlobalPhone data have been validated in-house

Version Info

Has Version 1.0
Modified 2012-11-09 Date
Type Version Info

Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#Header

Instance of: Catalog Record
Issued 2014-09-23T00:16:13Z Date
Primary Topic GlobalPhone Portuguese (Brazilian)
Set Spec corpus:audio
corpus

Metashare/f9470bf8de6b11e2b1e400259011f6ea09cbe85adb9346a49ea3da6bc15b8690#metadata Info

Instance of: Catalog Record
Created 2005-05-12 Date
Primary Topic GlobalPhone Portuguese (Brazilian)
Type Metadata Info