A többszavas kifejezések olyan lexikai egységek, melyek több szövegszóból állnak, azonban
szintaktikai, szemantikai, pragmatikai vagy statisztikai szempontból sajátos viselkedést
mutatnak. Számítógépes nyelvészeti szempontból kezelésük nem problémamentes, hiszen
egyrészt fel kell ismernie a rendszernek, hogy esetükben egy lexikai egységről van szó (azaz
nem két vagy több különálló szó kapcsolatáról), ezért célszerű őket egységként tárolni a
lexikonban, másrészt pedig a rájuk jellemző speciális viselkedési szabályokat is kódolni kell a
rendszerben. |
Kapcsolódó publikációk
- Nagy T., István; Vincze, Veronika 2014: VPCTagger: Detecting Verb-Particle Constructions With Syntax-Based Methods. In: Proceedings of the 10th Workshop on Multiword Expressions (MWE), ACL, Gothenburg, Sweden, pp. 17-25.
- Vincze, Veronika; Nagy T., István; Farkas, Richárd 2013: Identifying English and Hungarian Light Verb Constructions: A Contrastive Approach. In: Proceedings of ACL 2013 (Volume 2: Short Papers), pp. 255-261.
- Vincze, Veronika; Nagy T., István; Zsibrita, János 2013: Learning to Detect English and Hungarian Light Verb Constructions. ACM Transactions on Speech and Language Processing (TSLP) - Special issue on multiword expressions: From theory to practice and use. Part 1, 10(2), Article 6.
- Vincze, Veronika; Zsibrita, János; Nagy T., István 2013: Dependency Parsing for Identifying Hungarian Light Verb Constructions. In: Proceedings of IJCNLP 2013, pp. 207-215.
- Vincze, Veronika 2011: Semi-Compositional Noun + Verb Constructions: Theoretical Questions and Computational Linguistic Analyses. PhD thesis, University of Szeged, August 2011.
- Vincze, Veronika; Nagy T., István; Berend, Gábor 2011: Detecting noun compounds and light verb constructions: a contrastive study. In: ACL Workshop on Multiword Expressions: from Parsing and Generation to the Real World. Portland, Oregon, USA, pp. 116-121.
- Nagy T., István; Berend, Gábor; Vincze, Veronika 2011: Noun Compound and Named Entity Recognition and their Usability in Keyphrase Extraction. In: Proceedings of RANLP 2011. Hissar, Bulgaria, pp. 162-169.
- Nagy T., István; Vincze, Veronika; Berend, Gábor 2011: Domain-dependent identification of multiword expressions. In: Proceedings of RANLP 2011. Hissar, Bulgaria, pp. 622-627.
- Vincze, Veronika 2009: On the Machine Translatability of Semi-Compositional Constructions. In: Váradi Tamás (ed.): Válogatás az I. Alkalmazott Nyelvészeti Doktorandusz Konferencia előadásaiból - Selected Papers from the 1st Applied Linguistics PhD Conference, Budapest, MTA Nyelvtudományi Intézet, pp. 166-178.
A bizonytalan és/vagy tagadott szövegrészek megkülönböztetése a tényeket tartalmazó
szövegrészektől elengedhetetlen az információkinyerésben és -visszakeresésben. A legtöbb
esetben a felhasználónak tényszerű információra van szüksége, így a bizonytalan / tagadott
szövegrészek különleges kezelést igényelnek: alkalmazástól függően a rendszer vagy kiszűri
az ilyen szövegrészeket, vagy pedig a tényektől elkülönítve adja őket vissza a felhasználónak
(aki később eldöntheti, hogy szüksége van-e ezekre). |
Kapcsolódó publikációk
- Vincze, Veronika 2014: Uncertainty Detection in Hungarian Texts. In: Proceedings of COLING 2014, Dublin, pp. 1844-1853.
- Vincze, Veronika; Simkó, Katalin Ilona; Varga, Viktor 2014: Annotating Uncertainty in Hungarian Webtext. In: Proceedings of LAW VIII, Dublin, pp. 64-69.
- Vincze, Veronika 2013: Weasels, Hedges and Peacocks: Discourse-level Uncertainty in Wikipedia Articles. In: Proceedings of IJCNLP 2013, pp. 383-391.
- Szarvas, György; Vincze, Veronika; Farkas, Richárd; Móra, György; Gurevych, Iryna 2012: Cross-Genre and Cross-Domain Detection of Semantic Uncertainty. Computational Linguistics - Special Issue on Modality and Negation, 38(2):335-367.
- Farkas, Richárd; Vincze, Veronika; Móra, György; Csirik, János; Szarvas, György 2010: The CoNLL-2010 Shared Task: Learning to Detect Hedges and their Scope in Natural Language Text. In: Proceedings of the Fourteenth Conference on Computational Natural Language Learning (CoNLL-2010): Shared Task, Uppsala, Sweden, pp. 1-12.
- Vincze, Veronika 2010: Speculation and negation annotation in natural language texts: what the case of BioScope might (not) reveal. In: Proceedings of the Workshop on Negation and Speculation in Natural Language Processing (NeSp-NLP 2010), Uppsala, Sweden, pp. 28-31.
- Vincze, Veronika; Szarvas, György; Móra, György; Ohta, Tomoko; Farkas, Richárd 2011: Linguistic scope-based and biological event-based speculation and negation annotations in the BioScope and Genia Event corpora. Journal of Biomedical Semantics 2(Suppl 5):S8 doi:10.1186/2041-1480-2-S5-S8.
- Vincze, Veronika; Szarvas, György; Farkas, Richárd; Móra, György; Csirik, János 2008: The BioScope Corpus: biomedical texts annotated for uncertainty, negation and their scopes. BMC Bioinformatics 9 (Suppl 11):S9 doi:10.1186/1471-2105-9-S11-S9
A természetes nyelvű szövegek magasabb szintű számítógépes feldolgozásának és mélyebb elemzésének előfeltétele egy alapvető elemző eszköztár, mely a szövegek szegmentálásától kezdve a morfológiai és szintaktikai elemzést és egyértelműsítést is végrehajtja. A rendelkezésre álló eszközök egységesítése érdekében harmonizáltuk az MSD és KR kódrendszereket, és az új kódrendszerre épülő morfológiai elemzőt integráltuk a magyarlanc nevű programcsomagunkba, melybe integráltuk az általunk fejlesztett magyar dependenciaelemzőt is. |
Kapcsolódó publikációk
- Zsibrita, János; Vincze, Veronika; Farkas, Richárd 2013: magyarlanc: A Toolkit for Morphological and Dependency Parsing of Hungarian. In: Proceedings of RANLP 2013, pp. 763-771.
- Farkas, Richárd; Vincze, Veronika; Schmid, Helmut 2012: Dependency Parsing of Hungarian: Baseline Results and Challenges. In: Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2012), pp. 55-65.
- Farkas Richárd, Szeredi Dániel, Varga Dániel, Vincze Veronika 2010: MSD-KR harmonizáció a Szeged Treebank 2.5-ben. In: Tanács Attila, Vincze Veronika (eds.): VII. Magyar Számítógépes Nyelvészeti Konferencia. Szeged, Szegedi Tudományegyetem, pp. 349-353.
A nyelvtechnológiai problémákra születő algoritmusok fejlesztéséhez és kiértékeléséhez
szükséges egy, az adott célnak megfelelő, kézzel annotált adatbázis (korpusz). A korpuszok
építése tehát elengedhetetlen része a különféle nyelvtechnológiai alkalmazások létrejöttének.
Néhány korpusz, melynek építésében részt vállaltam:
Kapcsolódó publikációk
- Vincze, Veronika; Csirik, János 2010: Hungarian Corpus of Light Verb Constructions. In: Proceedings of COLING 2010, Beijing, China, pp. 1110-1118.
- Vincze, Veronika; Szauter, Dóra; Almási, Attila; Móra, György; Alexin, Zoltán; Csirik, János 2010: Hungarian Dependency Treebank. In: Proceedings of the Seventh Conference on International Language Resources and Evaluation (LREC'10), Valletta, Malta.
- Vincze, Veronika 2012: Light Verb Constructions in the SzegedParalellFX English-Hungarian Parallel Corpus. In: Proceedings of the Eighth Conference on International Language Resources and Evaluation (LREC 2012). Istanbul, Turkey, pp. 2381-2388.
- Vincze, Veronika; Szarvas, György; Almási, Attila; Szauter, Dóra; Ormándi, Róbert; Farkas, Richárd; Hatvani, Csaba; Csirik, János 2008: Hungarian Word-sense Disambiguated Corpus. In: Proceedings of 6th International Conference on Language Resources and Evaluation LREC 2008, Marrakech, Morocco.
- Vincze, Veronika; Nagy T., István; Berend, Gábor 2011: Multiword expressions and Named Entities in the Wiki50 Corpus. In: Proceedings of RANLP 2011. Hissar, Bulgaria, pp. 289-295.
- Vincze, Veronika; Zsibrita, János; Durst, Péter; Szabó, Martina Katalin 2014: Automatic Error Detection concerning the Definite and Indefinite Conjugation in the HunLearner Corpus. In: Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), ELRA, Reykjavik, Iceland, pp. 3958-3962.
- Szabó, Martina Katalin; Vincze, Veronika; Nagy T., István 2012: HunOr: A Hungarian-Russian Parallel Corpus. In: Proceedings of the Eighth Conference on International Language Resources and Evaluation (LREC 2012). Istanbul, Turkey, pp. 2453-2458.
Az ontológiák jellemzően nagyméretű hierarchikus adatbázisok, melyekben az egyes szavak
és a köztük levő kapcsolatok tárolódnak. Az ontológiák nagymértékben segíthetik a különféle
nyelvtechnológiai alkalmazásokat: például információkinyerés és -visszakeresés esetén jól
lehet hasznosítani a hipernímia-hiponímia viszonyokat.
Ontológiák, melyek építésében részt vettem:
Kapcsolódó publikációk
- Vincze, Veronika; Almási, Attila 2014: Non-Lexicalized Concepts in Wordnets: A Case Study of English and Hungarian. In: Proceedings of the 7th International Global WordNet Conference, pp. 118-126.
- Vincze, Veronika; Almási, Attila; Csirik, János 2012: Multiword Verbs in WordNets. In: Proceedings of the 6th International Global WordNet Conference, pp. 377-381.
- Alexin, Zoltán; Csirik, János; Almási, Attila; Vincze, Veronika 2010: Domain Specific Wordnet on Customs Law. In: Proceedings of the Fifth Global WordNet Conference, GWC2010, January 31-February 4 2010, Mumbai, India, pp. 234-239.
- Vincze, Veronika; Almási, Attila; Szauter, Dóra 2008: Comparing WordNet Relations to Lexical Functions. In: Tanács, Attila; Csendes, Dóra; Vincze, Veronika; Fellbaum, Christiane; Vossen, Piek (eds.): Proceedings of the Fourth Global WordNet Conference. GWC 2008. Szeged, University of Szeged, Department of Informatics, pp. 462-473.
- Vincze, Veronika; Szarvas, György; Csirik, János 2008: Why are wordnets important? In: Cepisca, Costin; Kouzaev, Guennadi A.; Mastorakis, Nikos M. (eds.): New Aspects on Computing Research. Proceedings of the 2nd European Computing Conference (ECC'08), WSEAS Press, pp. 316-322.