PlayingTheSaint Ierakstīts Septembris 23, 2018 Share Ierakstīts Septembris 23, 2018 (labots) Problēma ir tajā, ka teksts sastāv gan no latviešu, gan krievu, gan latviešu man-nav-garumziimju, gan translīta valodām. Latviešu tekstam es noņemtu garumzīmes un mīkstinājuma zīmes Un mappotu ii > i, sh > s, lai tiktu galā ar man-nav-garumziimju valodu. Bet kā vislabāk rīkoties ar krievu un translītu? Pieņemu, ka es varu pārtulkot vārdus kirilicā uz latviešu. Translītu var pārveidot uz kirilicu un tad pārtulkot, bet tur arī ir daudz veidu kā var būt rakstīts, piemēram, cilvēki, lai uzrakstītu š kirilicā, var izmantot gan sh, gan w. Kaut cik pareiza pieeja, lai sakārtotu datus? Pēc tam ir doma meklēt sinonīmus izmantojot mašīnapmācību. Pavediena doma ir mudināt jūs uzrakstīt metodes, kuras es pēcāk varu gūglē patstāvīgi apgūt. Līdz šim tikai vienu reizi esmu pielietojis ml, lai noteiktu parādības notikšanas varbūtību. Šis uzdevums, kuram pats pieteicos, šķiet laba motivācija apgūt ko jaunu. Koda fragmentus it kā nevajag, bet ja tas, ko maina, tad izmantošu python vidi (pandas, scikit-learn) edit: dzeltenā pīle Labots Septembris 23, 2018 - PlayingTheSaint Link to comment Share on other sites More sharing options...
AndrisBB Septembris 23, 2018 Share Septembris 23, 2018 Vienkārši izmantot look-up tabulu? Link to comment Share on other sites More sharing options...
rnxx Septembris 23, 2018 Share Septembris 23, 2018 (labots) Atšķirību kritēriji, definējot ievades valodu pirms procesa. Transiltiem ir daudz nekur nedefinētu variantu. Cilvēks var vienā teikumā izmantot vairākas it kā "" translita ""ķipa metodes, DDD. Līdz ar to *minēšana* ir daudz sarežğītāka kā sākumā liekas. Analīzi uzsākt vismaz lielākam savienojumam kopā. Piemeram, nevis burti 123456789101112131415, ķip, bet iekļaut kritērojos vismaz 36 burtu kopu pēc kārtas. Tad "*minēšanas*" process labāk pakļausies loğiskajai analīzei. Tulkošanai tāpat arī nepieciešama konteksta analīze, nevis tulkot pa vārdam. Labots Septembris 23, 2018 - rnxx Link to comment Share on other sites More sharing options...
rnxx Septembris 25, 2018 Share Septembris 25, 2018 (labots) Par cik ir reāli iespējams, ka persona lietos pat 2 translit variantus un to miksējumu vienā teikumā, savukārt teikumi ir vairāki, minēšanas opciju bāzi varētu pamodelēt uz heuristics + loop up tables, iesākumam. Piem, viņi var uzrakstīt suka cyk* Ar latīņu klaviatūru. Ir vārdi, ko viņi var rakstīt ar 4 variantiem, plus teikumos var būt 4 - 10 vārdi. Ortogrāfijas vismaz kaut kādu principu obligāta ievērošana projektā ir paredzēta vai nav? Ja nav jātulko, tikai jāranžē, tad, protams, vieglāks uzdevums. Labots Septembris 25, 2018 - rnxx Link to comment Share on other sites More sharing options...
Recommended Posts
Izveido kontu, vai pieraksties esošajā, lai komentētu
Jums ir jābūt šī foruma biedram, lai varētu komentēt tēmas
Izveidot jaunu kontu
Piereģistrējies un izveido jaunu kontu, tas būs viegli!
Reģistrēt jaunu kontuPierakstīties
Jums jau ir konts? Pierakstieties tajā šeit!
Pierakstīties tagad!