Implementação e modelo gerado com o treinamento (trigram) da wikipedia em pt-br
Implementação e modelo gerado com o treinamento (trigram) da wikipedia em pt-br utilizando gensim.
O modelo treinado com a wiki-pt encontra-se disponível para download em: https://drive.google.com/file/d/0B_eXEo_eUPCDWnJ0YWtUdW1kVFk/view?usp=sharing
O modelo baixado acima, deve estar no mesmo diretório da pasta exemplo.
Crie uma virtualenv e instale as dependências de requirements.txt
pip install -r requirements.txt
python app.py
127.0.0.1:5000
Como o modelo foi treinado com toda a base da wikipedia, é importante ter disponível pelo menos 2 GB livres de ram. Dependendo do espaço disponível, pode ser notada uma pequena lentidão no 'start' do servidor e na primeira 'consulta' por itens similares.
É possível alterar o app.py para usar outros métodos disponíveis na API do Gensim, detalhes em: https://radimrehurek.com/gensim/models/word2vec.html