GlobalPhone Spanish (Latin American) Pronunciation Dictionary

Instance of: Resource Info
Description Les dictionnaires de prononciation GlobalPhone, créés dans le cadre du corpus multilingue de parole GlobalPhone, ont été développés avec la collaboration du Karlsruhe Institute of Technology (KIT). Les dictionnaires de prononciation GlobalPhone contiennent les prononciations de toutes les formes de mots des données de transcription de la base de données textuelle et orale GlobalPhone. Les dictionnaires de prononciation sont actuellement disponibles en 15 langues: arabe (29230 entrées/27059 mots), bulgare (20193 entrées), croate (23497 entrées/20628 mots), tchèque (33049 entrées/32942 mots), français (36837 entrées/20710 mots), allemand (48979 entrées/46035 mots), hausa (42662 entrées/42079 mots), japonais (18094 entrées), polonais (36484 entrées), portugais (brésilien) (54146 entrées/54130 mots), russe (28818 entrées/27667 mots), espagnol (d’Amérique latine) (43264 entrées/33960 mots), suédois (env. 25000 entrées), turc (31330 entrées/31087 mots), et vietnamien (38504 entrées/29974 mots). 3 autres langues seront également distribuées: chinois-mandarin, coréen et thaï. 1) Codage du dictionnaire: Les entrées du dictionnaire de prononciation consiste en des formes de mots entières et sont données soit dans le script original de la langue, principalement au format de codage UTF-8 (bulgare, croate, tchèque, français, polonais, russe, espagnol, thaï) corresondant aux fichiers trl des transcriptions GlobalPhone, soit dans le script romanisé (arabe, allemand, hausa, japonais, coréen, mandarin, portugais, suédois, turc, vietnamien) correspondant aux fichiers rmn des transcriptions GlobalPhone. Dans le dernier cas, la documentation fournit principalement un mapping de la version romanisée vers le script original. 2) Ensemble des phones du dictionnaire : Les ensembles de phones de chaque langue sont dérivés individuellement des publications qui présentent les meilleures pratiques du traitement automatique de la parole. Chaque ensemble de phones est expliqué et décrit dans la documentation fournie en utilisant les standards internationaux de l’alphabet phonétique international (International Phonetic Alphabet - IPA). Pour la plupart des langues est fourni un mapping avec les conventions de noms GlobalPhone indépendantes de la langue (indiquées par “M_”), dans un but de partage de données à travers les langues pour construire des modèles acoustiques multilingues. 3) Génération du dictionnaire: Lorsque la relation graphème-phonème le permettait, les dictionnaires ont été créés semi-automatiquement d’après une méthode à base de règles en utilisant un ensemble de règles de mapping graphème-phonème. Le nombre de règles dépend fortement de la langue. Après la procédure de création automatique, tous les dictionnaires ont été vérifiés manuellement de façon croisée par des locuteurs natifs, afin de corriger les erreurs potentielles du processus de génération automatique de prononciation. La plupart des dictionnaires ont été soumis à une reconnaissance de la parole à large vocabulaire. Dans beaucoup de cas, les dictionnaires GlobalPhone ont été comparés à une simple reconnaissance de la parole basée sur le graphème et d’autres sources alternatives, telles que Wiktionary et se sont avérés habituellement supérieurs en termes de qualité, couverture et précision. 4) Format: Le format des dictionnaires est simple et identique pour chaque langue. Chaque ligne consiste en une forme de mot et sa prononciation séparés par un espace. La prononciation consiste en une concaténation des symboles de phones séparés par des espaces. Les mots et leurs prononciations sont donnés dans la forme d’une liste avec un script tcl, c’est-à-dire inclus dans des “{}”, puisque les phones peuvent avoir des étiquettes, indiquant le ton et la longueur d’une voyelle, ou la limite du mot avec l’étiquette “WB”, qui indique la limite d’une unité du dictionnaire. L’étiquette WB peut par exemple être incluse comme une question standard dans les questions d’arbre décisionnel pour la capture de modèles de mots croisés dans la modélisation dépendante du contexte. Les variantes de prononciation sont indiquées par (<n>) avec n = 2, 3, 4,… indiquant le nombre de variantes par mot. L’ordre dans lequel les variantes interviennent dans le dictionnaire n’est pas nécessairement lié à leur fréquence dans le corpus. {word} {{w WB} o r {d WB}} 5) Documentation: Les dictionnaires de prononciation pour chaque langue sont complétés par une documentation qui décrit le format du dictionnaire, l’ensemble de phones incluant le mapping avec l’alphabet phonétique international (International Phonetic Alphabet - IPA), et la répartition des fréquences des phones dans les dictionnaires. La plupart des dictionnaires de prononciation ont été soumis à un système de reconnaissance de la parole à large vocabulaire avec succès et les références à des publications sont données lorsque celles-ci sont disponibles.
The GlobalPhone pronunciation dictionaries, created within the framework of the multilingual speech and language corpus GlobalPhone, were developed in collaboration with the Karlsruhe Institute of Technology (KIT). The GlobalPhone pronunciation dictionaries contain the pronunciations of all word forms found in the transcription data of the GlobalPhone speech & text database. The pronunciation dictionaries are currently available in 15 languages: Arabic (29230 entries/27059 words), Bulgarian (20193 entries), Croatian (23497 entries/20628 words), Czech (33049 entries/32942 words), French (36837 entries/20710 words), German (48979 entries/46035 words), Hausa (42662 entries/42079 words), Japanese (18094 entries), Polish (36484 entries), Portuguese (Brazilian) (54146 entries/54130 words), Russian (28818 entries/27667 words), Spanish (Latin American) (43264 entries/33960 words), Swedish (about 25000 entries), Turkish (31330 entries/31087 words), and Vietnamese (38504 entries/29974 words). Other 3 languages will also be released: Chinese-Mandarin, Korean and Thai. 1) Dictionary Encoding: The pronunciation dictionary entries consist of full word forms and are either given in the original script of that language, mostly in UTF-8 encoding (Bulgarian, Croatian, Czech, French, Polish, Russian, Spanish, Thai) corresponding to the trl-files of the GlobalPhone transcriptions or in Romanized script (Arabic, German, Hausa, Japanese, Korean, Mandarin, Portuguese, Swedish, Turkish, Vietnamese) corresponding to the rmn-files of the GlobalPhone transcriptions, respectively. In the latter case the documentation mostly provides a mapping from the Romanized to the original script. 2) Dictionary Phone set: The phone sets for each language were derived individually from the literature following best practices for automatic speech processing. Each phone set is explained and described in the documentation using the international standards of the International Phonetic Alphabet (IPA). For most languages a mapping to the language independent GlobalPhone naming conventions (indicated by “M_”) is provided for the purpose of data sharing across languages to build multilingual acoustic models. 3) Dictionary Generation: Whenever the grapheme-to-phoneme relationship allowed, the dictionaries were created semi-automatically in a rule-based fashion using a set of grapheme-to-phoneme mapping rules. The number of rules highly depends on the language. After the automatic creation process, all dictionaries were manually cross-checked by native speakers, correcting potential errors of the automatic pronunciation generation process. Most of the dictionaries have been applied to large vocabulary speech recognition. In many cases the GlobalPhone dictionaries were compared to straight-forward grapheme-based speech recognition and to alternative sources, such as Wiktionary and usually demonstrated to be superior in terms of quality, coverage, and accuracy. 4) Format: The format of the dictionaries is the same across languages and is straight-forward. Each line consists of one word form and its pronunciation separated by blank. The pronunciation consists of a concatenation of phone symbols separated by blanks. Both, words and their pronunciations are given in tcl-script list format, i.e. enclosed in “{}”, since phones can carry tags, indicating the tone and length of a vowel, or the word boundary tag “WB”, indicating the boundary of a dictionary unit. The WB tag can for example be included as a standard question in the decision tree questions for capturing crossword models in context-dependent modeling. Pronunciation variants are indicated by (<n>) with n = 2, 3, 4,… indicating the number of variants per word. The order in which variants occur in the dictionary is not necessarily related to their frequency in the corpus. {word} {{w WB} o r {d WB}} 5) Documentation: The pronunciation dictionaries for each language are complemented by a documentation that describes the format of the dictionary, the phone set including its mapping to the International Phonetic Alphabet (IPA), and the frequency distribution of the phones in the dictionary. Most of the pronunciation dictionaries have been successfully applied to large vocabulary speech recognition and references to publications are given when available.
Language spa
Language Spanish
Rights ELRA_VAR
ELRA_END_USER
See Also http://metashare.elda.org/repository/browse/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09/
Source META-SHARE
Title GlobalPhone Spanish (Latin American) Pronunciation Dictionary
Dictionnaire de prononciation GlobalPhone espagnol (d’Amérique latine)
Type Dataset
Type Lexical Conceptual Resource
Is Is Replaced By of GlobalPhone Spanish (Latin American) Pronunciation Dictionary

Contact Point

Communication Info
Address 55-57 rue Brillat-Savarin
City Paris
Country France
Distribution
Access URL http://www.elda.org
Type Distribution
URL
Email mapelli@elda.org
Fax Number +1 43 14 33 30
Telephone Number +1 43 13 33 33
Type Communication Info
Zip Code 75013
Given Name Mapelli
Surname Valérie
Type Contact Person
Person
Person Info Type

Distribution Info

Availability Available-restricted Use
Availability Start Date 2013-09-19 Date
License
Fee 3000.00
Membership Info
Member true Boolean
Membership Institution ELRA
Type Membership Info
Permission
Action http://creativecommons.org/ns/Distribution
http://creativecommons.org/ns/CommercialUse
Constraint Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#permission
Operator Eq
Purpose Academic Use
Type Prohibition
Constraint
Permission
Restrictions Of Use
Same As http://www.elra.info/IMG/pdf_VAR_140312.pdf
Type Licence Info
User Nature Commercial
Fee 3000.00
Membership Info Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#membership Info2
Permission Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#permission
Prohibition Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#permission
Same As http://www.elra.info/IMG/pdf_ENDUSER_140312.pdf
Type Licence Info
User Nature Commercial
Fee 3600.00
Membership Info
Member false Boolean
Membership Institution ELRA
Type Membership Info
Permission Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#permission
Same As http://www.elra.info/IMG/pdf_VAR_140312.pdf
Type Licence Info
User Nature Commercial
Fee 3600.00
Membership Info Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#membership Info
Permission Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#permission
Prohibition Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#permission
Same As http://www.elra.info/IMG/pdf_ENDUSER_140312.pdf
Type Licence Info
User Nature Commercial
Fee 600.00
Membership Info Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#membership Info2
Permission Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#permission
Prohibition Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#permission
Same As http://www.elra.info/IMG/pdf_ENDUSER_140312.pdf
Type Licence Info
User Nature Academic
Fee 3000.00
Membership Info Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#membership Info2
Permission Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#permission
Same As http://www.elra.info/IMG/pdf_VAR_140312.pdf
Type Licence Info
User Nature Academic
Fee 3600.00
Membership Info Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#membership Info
Permission Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#permission
Same As http://www.elra.info/IMG/pdf_VAR_140312.pdf
Type Licence Info
User Nature Academic
Fee 700.00
Membership Info Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#membership Info
Permission Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#permission
Prohibition Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#permission
Same As http://www.elra.info/IMG/pdf_ENDUSER_140312.pdf
Type Licence Info
User Nature Academic
Type Distribution Info
Distribution

Identification Info

Description The GlobalPhone pronunciation dictionaries, created within the framework of the multilingual speech and language corpus GlobalPhone, were developed in collaboration with the Karlsruhe Institute of Technology (KIT). The GlobalPhone pronunciation dictionaries contain the pronunciations of all word forms found in the transcription data of the GlobalPhone speech & text database. The pronunciation dictionaries are currently available in 15 languages: Arabic (29230 entries/27059 words), Bulgarian (20193 entries), Croatian (23497 entries/20628 words), Czech (33049 entries/32942 words), French (36837 entries/20710 words), German (48979 entries/46035 words), Hausa (42662 entries/42079 words), Japanese (18094 entries), Polish (36484 entries), Portuguese (Brazilian) (54146 entries/54130 words), Russian (28818 entries/27667 words), Spanish (Latin American) (43264 entries/33960 words), Swedish (about 25000 entries), Turkish (31330 entries/31087 words), and Vietnamese (38504 entries/29974 words). Other 3 languages will also be released: Chinese-Mandarin, Korean and Thai. 1) Dictionary Encoding: The pronunciation dictionary entries consist of full word forms and are either given in the original script of that language, mostly in UTF-8 encoding (Bulgarian, Croatian, Czech, French, Polish, Russian, Spanish, Thai) corresponding to the trl-files of the GlobalPhone transcriptions or in Romanized script (Arabic, German, Hausa, Japanese, Korean, Mandarin, Portuguese, Swedish, Turkish, Vietnamese) corresponding to the rmn-files of the GlobalPhone transcriptions, respectively. In the latter case the documentation mostly provides a mapping from the Romanized to the original script. 2) Dictionary Phone set: The phone sets for each language were derived individually from the literature following best practices for automatic speech processing. Each phone set is explained and described in the documentation using the international standards of the International Phonetic Alphabet (IPA). For most languages a mapping to the language independent GlobalPhone naming conventions (indicated by “M_”) is provided for the purpose of data sharing across languages to build multilingual acoustic models. 3) Dictionary Generation: Whenever the grapheme-to-phoneme relationship allowed, the dictionaries were created semi-automatically in a rule-based fashion using a set of grapheme-to-phoneme mapping rules. The number of rules highly depends on the language. After the automatic creation process, all dictionaries were manually cross-checked by native speakers, correcting potential errors of the automatic pronunciation generation process. Most of the dictionaries have been applied to large vocabulary speech recognition. In many cases the GlobalPhone dictionaries were compared to straight-forward grapheme-based speech recognition and to alternative sources, such as Wiktionary and usually demonstrated to be superior in terms of quality, coverage, and accuracy. 4) Format: The format of the dictionaries is the same across languages and is straight-forward. Each line consists of one word form and its pronunciation separated by blank. The pronunciation consists of a concatenation of phone symbols separated by blanks. Both, words and their pronunciations are given in tcl-script list format, i.e. enclosed in “{}”, since phones can carry tags, indicating the tone and length of a vowel, or the word boundary tag “WB”, indicating the boundary of a dictionary unit. The WB tag can for example be included as a standard question in the decision tree questions for capturing crossword models in context-dependent modeling. Pronunciation variants are indicated by (<n>) with n = 2, 3, 4,… indicating the number of variants per word. The order in which variants occur in the dictionary is not necessarily related to their frequency in the corpus. {word} {{w WB} o r {d WB}} 5) Documentation: The pronunciation dictionaries for each language are complemented by a documentation that describes the format of the dictionary, the phone set including its mapping to the International Phonetic Alphabet (IPA), and the frequency distribution of the phones in the dictionary. Most of the pronunciation dictionaries have been successfully applied to large vocabulary speech recognition and references to publications are given when available.
Les dictionnaires de prononciation GlobalPhone, créés dans le cadre du corpus multilingue de parole GlobalPhone, ont été développés avec la collaboration du Karlsruhe Institute of Technology (KIT). Les dictionnaires de prononciation GlobalPhone contiennent les prononciations de toutes les formes de mots des données de transcription de la base de données textuelle et orale GlobalPhone. Les dictionnaires de prononciation sont actuellement disponibles en 15 langues: arabe (29230 entrées/27059 mots), bulgare (20193 entrées), croate (23497 entrées/20628 mots), tchèque (33049 entrées/32942 mots), français (36837 entrées/20710 mots), allemand (48979 entrées/46035 mots), hausa (42662 entrées/42079 mots), japonais (18094 entrées), polonais (36484 entrées), portugais (brésilien) (54146 entrées/54130 mots), russe (28818 entrées/27667 mots), espagnol (d’Amérique latine) (43264 entrées/33960 mots), suédois (env. 25000 entrées), turc (31330 entrées/31087 mots), et vietnamien (38504 entrées/29974 mots). 3 autres langues seront également distribuées: chinois-mandarin, coréen et thaï. 1) Codage du dictionnaire: Les entrées du dictionnaire de prononciation consiste en des formes de mots entières et sont données soit dans le script original de la langue, principalement au format de codage UTF-8 (bulgare, croate, tchèque, français, polonais, russe, espagnol, thaï) corresondant aux fichiers trl des transcriptions GlobalPhone, soit dans le script romanisé (arabe, allemand, hausa, japonais, coréen, mandarin, portugais, suédois, turc, vietnamien) correspondant aux fichiers rmn des transcriptions GlobalPhone. Dans le dernier cas, la documentation fournit principalement un mapping de la version romanisée vers le script original. 2) Ensemble des phones du dictionnaire : Les ensembles de phones de chaque langue sont dérivés individuellement des publications qui présentent les meilleures pratiques du traitement automatique de la parole. Chaque ensemble de phones est expliqué et décrit dans la documentation fournie en utilisant les standards internationaux de l’alphabet phonétique international (International Phonetic Alphabet - IPA). Pour la plupart des langues est fourni un mapping avec les conventions de noms GlobalPhone indépendantes de la langue (indiquées par “M_”), dans un but de partage de données à travers les langues pour construire des modèles acoustiques multilingues. 3) Génération du dictionnaire: Lorsque la relation graphème-phonème le permettait, les dictionnaires ont été créés semi-automatiquement d’après une méthode à base de règles en utilisant un ensemble de règles de mapping graphème-phonème. Le nombre de règles dépend fortement de la langue. Après la procédure de création automatique, tous les dictionnaires ont été vérifiés manuellement de façon croisée par des locuteurs natifs, afin de corriger les erreurs potentielles du processus de génération automatique de prononciation. La plupart des dictionnaires ont été soumis à une reconnaissance de la parole à large vocabulaire. Dans beaucoup de cas, les dictionnaires GlobalPhone ont été comparés à une simple reconnaissance de la parole basée sur le graphème et d’autres sources alternatives, telles que Wiktionary et se sont avérés habituellement supérieurs en termes de qualité, couverture et précision. 4) Format: Le format des dictionnaires est simple et identique pour chaque langue. Chaque ligne consiste en une forme de mot et sa prononciation séparés par un espace. La prononciation consiste en une concaténation des symboles de phones séparés par des espaces. Les mots et leurs prononciations sont donnés dans la forme d’une liste avec un script tcl, c’est-à-dire inclus dans des “{}”, puisque les phones peuvent avoir des étiquettes, indiquant le ton et la longueur d’une voyelle, ou la limite du mot avec l’étiquette “WB”, qui indique la limite d’une unité du dictionnaire. L’étiquette WB peut par exemple être incluse comme une question standard dans les questions d’arbre décisionnel pour la capture de modèles de mots croisés dans la modélisation dépendante du contexte. Les variantes de prononciation sont indiquées par (<n>) avec n = 2, 3, 4,… indiquant le nombre de variantes par mot. L’ordre dans lequel les variantes interviennent dans le dictionnaire n’est pas nécessairement lié à leur fréquence dans le corpus. {word} {{w WB} o r {d WB}} 5) Documentation: Les dictionnaires de prononciation pour chaque langue sont complétés par une documentation qui décrit le format du dictionnaire, l’ensemble de phones incluant le mapping avec l’alphabet phonétique international (International Phonetic Alphabet - IPA), et la répartition des fréquences des phones dans les dictionnaires. La plupart des dictionnaires de prononciation ont été soumis à un système de reconnaissance de la parole à large vocabulaire avec succès et les références à des publications sont données lorsque celles-ci sont disponibles.
Distribution
Access URL http://catalog.elra.info/product_info.php?products_id=1209
Type Distribution
URL
Identifier ELRA-S0360
Meta Share Id NOT_DEFINED_FOR_V2
Title GlobalPhone Spanish (Latin American) Pronunciation Dictionary
Dictionnaire de prononciation GlobalPhone espagnol (d’Amérique latine)
Type Identification Info

Lexical Conceptual Resource Info

Lexical Conceptual Resource Encoding Info
Encoding Level Phonetics
Type Lexical Conceptual Resource Encoding Info
Lexical Conceptual Resource Media Type
Lexical Conceptual Resource Audio Info
Language Info Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#language Info2
Linguality Info Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#linguality Info
Media Type Audio
Size Info Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#size Info
Type Lexical Conceptual Resource Audio Info
Lexical Conceptual Resource Text Info
Language Info
Language spa
Language Spanish
Language Name Spanish
Language Variety Info
Language Variety Name Castilian
Language Variety Type Dialect
Size Per Language Variety
Size 2
Size Unit Gb
Type Size Info Type
Type Language Variety Info
Type Language Info
Linguality Info
Linguality Type Monolingual
Type Linguality Info
Media Type Text
Size Info
Size no size available
Size Unit Other
Type Size Info Type
Type Lexical Conceptual Resource Text Info
Type Lexical Conceptual Resource Media Type
Lexical Conceptual Resource Type Lexicon
Resource Type Lexical Conceptual Resource
Type Lexical Conceptual Resource Info

Usage Info

Actual Use Info
Actual Use Nlp Applications
Type Actual Use Info
Use NLPSpecific Speech Recognition
Type Usage Info

Version Info

Has Version 1.0
Modified 2013-09-19 Date
Type Version Info

Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#Header

Instance of: Catalog Record
Issued 2014-09-23T00:16:06Z Date
Primary Topic GlobalPhone Spanish (Latin American) Pronunciation Dictionary
Set Spec lexicalConceptualResource:lexicon
lexicalConceptualResource

Metashare/489c17bc252911e3a23a00259011f6ea087bd8069a8544e4a45549693b675e09#metadata Info

Instance of: Catalog Record
Created 2005-05-12 Date
Primary Topic GlobalPhone Spanish (Latin American) Pronunciation Dictionary
Type Metadata Info