miércoles, 9 de septiembre de 2009

WordNet es el futuro

WordNet es un proposito de contruir un inventario léxico organizado de acuerdo con principios psicologicamente reales y que además sirva como instrumento auxiliar en aplicaciones computacionales y de inteligencia artificial.

WordNet es una enorme base de datos léxica en Inglés. Agrupa las palabras en conjuntos de sinónimos llamados 'synsets' (synomis sets), proporcionando definiciones cortas y generales, y almacenando las relaciones semánticas entre estos conjuntos de sinónimos. Recoge sólo unidades con contenido léxico conceptual. Cada entrada se organiza como un conjunto de grupos de sinónimos que recogen los diferentes significados de cada palabra, acompañados por una glosa o definición simple y un ejemplo de uso.

Cada synsetsproporciona además, otro tipos de relaciones léxicas dependiendo de la categoría gramatical. Para nombres se usa las relaciones jerárquicas de hiponimia/hiperonimia, meronimia/holonimia; para verbos las de hiponimia/hiperonimia/co-hiponimia.


El propósito del proyecto es doble: por un lado producir una combinación de diccionario y tesauro cuyo uso es más intuitivo, y ayudar al análisis automático de textos y a las aplicaciones de inteligencia artificial. La base de datos y las herramientas se han liberado bajo una licencia BSD y pueden ser descargadas y usadas libremente. Además la base de datos puede consultarse online.

http://wordnet.princeton.edu/

WordNet fue creado y es mantenido por el Cognitive Science Laboratory de la Universidad de Princeton bajo la dirección del profesor de psicología George A. Miller. El desarrollo comenzó en 1985. Durante los años el proyecto ha recibido alrededor de 3 millones de dólares, principalmente a través de agencias gubernamentales interesadas en la Traducción automática.

Actualmente WordNet posee 147278 términos estructurados en 117659 synsets.

WordNet establece cuatro categorías gramaticales: nombres, verbos , adjetivos y adverbios, puesto que siguen diferentes reglas gramaticales. Cada synset contiene un grupo de palabras sinónimas o colocaciones; los diferentes sentidos de las palabras están en diferentes synsets.
Un ejemplo típico de sinset con una pequeña glosa es:

good, right, ripe -- (más conveniente o correcto para un propósito en
particular; "a good time to plant tomatoes"; "the right time to act";
"the time is ripe for great sociological changes").


Otro proyecto es EuroWordNet que es una base de datos multilingüe con WordNets para varios idiomas europeos (Holandés, Italiano, Español, Alemán, Francés, Checo y Estonio). Cada idioma diseña su propia WordNet estructurándola de la misma forma que el WordNet de Princeton en lo que se refiere a synsets con relaciones semánticas básicas entre ellos. Cada WordNet representa un sistema único de lexicalización propio de cada idioma. Gracias a estas conexiones se puede, a partir de una palabra, consultar palabras similares en cualquier otro idioma. Además este índice proporciona acceso a una ontología compartida compuesta por 63 distinciones semánticas. Esta ontología proporciona una catagorización común para todos los idiomas, mientras las disticiones específicas de cada idioma quedan en cada WordNet.


A diferencia del WordNet original de Princeton, la mayoría de los otros WordNets no están disponibles de manera gratuita.

El proyecto EuroWordNet surgió en 1994 como una iniciativa para cubrir una serie de necesidades de los usuarios para acceder a la información en Europa.

El primer consorcio del proyecto trabajó sobre los WordNets para el holandés, italiano y español, mientras que el Wordnet inglés fue adaptado con relaciones que no habían sido incluidas en el Princeton WordNet. Posteriormente, el proyecto se extendió para incluir el francés, alemán, checo y estonio.

El proyecto EuroWordNet se completó en el verano de 1999. El diseño de la Base de Datos, las relaciones definidas, la ontología y el Índice Inter-Lingua están paralizados. A pesar de ello, otras instituciones y grupos de investigación están desarrollando WordNets en otros idiomas (europeos y no europeos) usando la especificación de EuroWordNet. Si estos WordNets son compatibles con la especificación, podrían ser añadidos a la base de datos y, mediante el Índice, conectarse a otros WordNets.

http://www.illc.uva.nl/EuroWordNet/

¿Todo esto para qué? Este proyecto serviría para que al realizar una búsqueda en internet se sumaran a los resultados, no sólo los que contenga la/s palabra/s clave sino, aquellas que tuvieran relación con ella/s. Si buscas hotel en la costa cabría la posiblidad de que se agregaran todos aquellos resultados con un mismo campo semántico como playa. O si buscas becas en inglés también recogiera los resultados de lugares donde se hable inglés, sin tener que ser Inglaterra y sin que sean becas para aprender inglés.

No hay comentarios:

Publicar un comentario