SentenceTransformer based on intfloat/multilingual-e5-base

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-base
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("Savoxism/Multilingual-e5-base-SFT")
# Run inference
sentences = [
    'cơ sở cai nghiện ma túy công lập phải bố trí các khu gì',
    'Cơ sở cai nghiện ma túy công lập 1. Cơ sở cai nghiện ma túy công lập do Chủ tịch Ủy ban nhân dân cấp tỉnh quyết định thành lập. 2. Cơ sở cai nghiện ma túy công lập phải bố trí các khu sau đây: a) Khu lưu trú tạm thời đối với người được đề nghị xác định tình trạng nghiện ma túy và người trong thời gian lập hồ sơ đề nghị áp dụng biện pháp xử lý hành chính đưa vào cơ sở cai nghiện bắt buộc; b) Khu cai nghiện ma túy bắt buộc; c) Khu cai nghiện ma túy tự nguyện; d) Khu cai nghiện cho người từ đủ 12 tuổi đến dưới 18 tuổi; đ) Khu cai nghiện cho người mắc bệnh truyền nhiễm nhóm A, nhóm B theo quy định của Luật Phòng, chống bệnh truyền nhiễm; e) Khu cai nghiện cho người có hành vi gây rối trật tự, vi phạm nội quy, quy chế của cơ sở cai nghiện ma túy. 3. Trong các khu quy định tại khoản 2 Điều này phải bố trí khu riêng cho nam giới và khu riêng cho nữ giới. Người có sự khác nhau giữa thực thể và giới tính ghi trong hồ sơ, lý lịch được quản lý tại phòng riêng trong khu vực theo giới tính biểu hiện trên thực thể học viên. 4. Hoạt động của cơ sở cai nghiện ma túy công lập bao gồm: a) Tiếp nhận và tổ chức thực hiện cai nghiện ma túy cho người nghiện ma túy bị đưa vào cơ sở cai nghiện bắt buộc và người nghiện ma túy tự nguyện cai nghiện; b) Thực hiện việc xác định tình trạng nghiện ma túy; c) Tiếp nhận, quản lý, giáo dục, tư vấn, điều trị hội chứng cai, điều trị rối loạn tâm thần và các bệnh khác đối với người đang trong thời gian lập hồ sơ đề nghị đưa vào cơ sở cai nghiện bắt buộc. 5. Cơ sở cai nghiện ma túy công lập có quyền sau đây: a) Tiếp nhận người nghiện ma túy vào cai nghiện ma túy tự nguyện phù hợp với khả năng tiếp nhận của cơ sở cai nghiện; b) Người đứng đầu cơ sở cai nghiện ma túy công lập được quyết định áp dụng các biện pháp phù hợp để quản lý, giáo dục, chữa trị cho người cai nghiện ma túy. 6. Cơ sở cai nghiện ma túy công lập có trách nhiệm sau đây: a) Tuân thủ các quy định về xác định tình trạng nghiện ma túy, quy trình cai nghiện ma túy, quản lý người, đang trong thời gian lập hồ sơ đề nghị đưa vào cơ sở cai nghiện bắt buộc; b) Tôn trọng tính mạng, sức khỏe, danh dự, nhân phẩm, tài sản của người cai nghiện ma túy, người được đề nghị xác định tình trạng nghiện ma túy và người đang trong thời gian lập hồ sơ đề nghị đưa vào cơ sở cai nghiện bắt buộc; c) Bảo đảm quyền của người nghiện ma túy trong thời gian cai nghiện và cấp giấy xác nhận hoàn thành cai nghiện ma túy bắt buộc cho người từ đủ 12 tuổi đến dưới 18 tuổi; d) Người đứng đầu cơ sở cai nghiện ma túy công lập có trách nhiệm bảo đảm điều kiện hoạt động của cơ sở cai nghiện ma túy; niêm yết công khai chi phí cai nghiện ma túy tại cơ sở theo quy định của pháp luật; đ) Phòng, chống thẩm lậu ma túy vào cơ sở; e) Trong thời hạn 05 ngày làm việc kể từ ngày người cai nghiện ma túy tự nguyện được tiếp nhận hoặc tự ý chấm dứt việc sử dụng dịch vụ hoặc hoàn thành quy trình cai nghiện ma túy phải thông báo cho Ủy ban nhân dân cấp xã nơi người đó đăng ký cai nghiện ma túy tự nguyện. 7. Chính phủ quy định điều kiện về cơ sở vật chất, trang thiết bị, nhân sự của cơ sở cai nghiện ma túy công lập và chế độ quản lý tại cơ sở cai nghiện ma túy công lập.',
    'Cai nghiện ma túy tự nguyện tại gia đình, cộng đồng 1. Cai nghiện ma túy tự nguyện tại gia đình, cộng đồng là việc người nghiện ma túy thực hiện cai nghiện tự nguyện tại gia đình, cộng đồng với sự hỗ trợ chuyên môn của tổ chức, cá nhân cung cấp dịch vụ cai nghiện ma túy, sự phối hợp, trợ giúp của gia đình, cộng đồng và chịu sự quản lý của Ủy ban nhân dân cấp xã. 2. Thời hạn cai nghiện ma túy tự nguyện tại gia đình, cộng đồng là từ đủ 06 tháng đến 12 tháng. 3. Người cai nghiện ma túy tự nguyện tại gia đình, cộng đồng khi hoàn thành ít nhất 03 giai đoạn quy định tại các điểm a, b và c khoản 1 Điều 29 của Luật này được hỗ trợ kinh phí. 4. Người cai nghiện ma túy tự nguyện tại gia đình, cộng đồng có trách nhiệm sau đây: a) Thực hiện đúng, đầy đủ các quy định về cai nghiện ma túy tự nguyện và tuân thủ hướng dẫn của cơ quan chuyên môn; b) Nộp chi phí liên quan đến cai nghiện ma túy theo quy định. 5. Chủ tịch Ủy ban nhân dân cấp xã có trách nhiệm sau đây: a) Tiếp nhận đăng ký cai nghiện ma túy tự nguyện tại gia đình, cộng đồng; b) Hướng dẫn, quản lý người cai nghiện ma túy tự nguyện tại gia đình, cộng đồng; c) Cấp giấy xác nhận hoàn thành cai nghiện ma túy tự nguyện tại gia đình, cộng đồng. 6. Chủ tịch Ủy ban nhân dân cấp huyện có trách nhiệm sau đây: a) Giao nhiệm vụ cho các đơn vị sự nghiệp công lập thuộc thẩm quyền trên địa bàn cung cấp dịch vụ cai nghiện ma túy tự nguyện tại gia đình, cộng đồng; b) Tiếp nhận đăng ký và công bố danh sách tổ chức, cá nhân đủ điều kiện cung cấp dịch vụ cai nghiện ma túy tự nguyện tại gia đình, cộng đồng; c) Thông báo cho Ủy ban nhân dân cấp xã danh sách tổ chức, cá nhân cung cấp dịch vụ cai nghiện ma túy tự nguyện tại gia đình, cộng đồng; d) Bố trí kinh phí hỗ trợ công tác cai nghiện ma túy tự nguyện tại gia đình, cộng đồng; đ) Chỉ đạo, hướng dẫn, kiểm tra công tác cai nghiện ma túy tự nguyện tại gia đình, cộng đồng. 7. Cơ sở cai nghiện ma túy, tổ chức, cá nhân đủ điều kiện cung cấp một hoặc nhiều hoạt động cai nghiện theo quy trình cai nghiện ma túy quy định tại khoản 1 Điều 29 của Luật này được cung cấp dịch vụ cai nghiện ma túy tự nguyện tại gia đình, cộng đồng và có trách nhiệm sau đây: a) Tiếp nhận và tổ chức thực hiện cung cấp dịch vụ cai nghiện ma túy tự nguyện tại gia đình, cộng đồng; b) Thực hiện đúng quy trình chuyên môn nghiệp vụ theo quy định của cơ quan có thẩm quyền; c) Trong thời hạn 05 ngày làm việc kể từ ngày người cai nghiện ma túy sử dụng dịch vụ hoặc tự ý chấm dứt việc sử dụng dịch vụ hoặc hoàn thành dịch vụ phải thông báo cho Ủy ban nhân dân cấp xã nơi người đó đăng ký cai nghiện ma túy tự nguyện tại gia đình, cộng đồng. 8. Tổ chức, cá nhân có đủ điều kiện thì được đăng ký cung cấp dịch vụ cai nghiện ma túy tự nguyện tại gia đình, cộng đồng với Chủ tịch Ủy ban nhân dân cấp huyện. 9. Chính phủ quy định chi tiết Điều này.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 1,000 training samples
  • Columns: sentence_0, sentence_1, and sentence_2
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1 sentence_2
    type string string string
    details
    • min: 8 tokens
    • mean: 27.44 tokens
    • max: 68 tokens
    • min: 43 tokens
    • mean: 269.74 tokens
    • max: 512 tokens
    • min: 33 tokens
    • mean: 283.68 tokens
    • max: 512 tokens
  • Samples:
    sentence_0 sentence_1 sentence_2
    các biện pháp cai nghiện ma túy là những biện pháp nào sau đây Các biện pháp cai nghiện ma túy 1. Biện pháp cai nghiện ma túy bao gồm: a) Cai nghiện ma túy tự nguyện; b) Cai nghiện ma túy bắt buộc. 2. Biện pháp cai nghiện ma túy tự nguyện được thực hiện tại gia đình, cộng đồng hoặc tại cơ sở cai nghiện ma túy; biện pháp cai nghiện ma túy bắt buộc được thực hiện tại cơ sở cai nghiện ma túy công lập. Áp dụng biện pháp cai nghiện ma túy cho người Việt Nam bị nước ngoài trục xuất về nước do có hành vi sử dụng trái phép chất ma túy, nghiện ma túy; người nước ngoài nghiện ma túy sinh sống tại Việt Nam 1. Người Việt Nam bị nước ngoài trục xuất về Việt Nam do có hành vi sử dụng trái phép chất ma túy, nghiện ma túy khi về nước phải tiến hành xác định tình trạng nghiện ma túy. Trường hợp được xác định là nghiện ma túy thì người đó phải thực hiện các biện pháp cai nghiện ma túy theo quy định của Luật này. 2. Người nước ngoài nghiện ma túy sinh sống tại Việt Nam có trách nhiệm đăng ký thực hiện cai nghiện ma túy tự nguyện tại cơ sở cai nghiện ma túy theo quy định của Luật này và phải chi trả toàn bộ các khoản chi phí liên quan đến cai nghiện. Trường hợp không thực hiện cai nghiện ma túy tự nguyện thì người đó bị xử lý theo quy định của pháp luật.
    viên chức bị đơn vị sự nghiệp đơn phương chấm dứt hợp đồng trong trường hợp nào Đơn phương chấm dứt hợp đồng làm việc 1. Đơn vị sự nghiệp công lập được đơn phương chấm dứt hợp đồng làm việc với viên chức trong các trường hợp sau: a) Viên chức có 02 năm liên tiếp bị phân loại đánh giá ở mức độ không hoàn thành nhiệm vụ; b) Viên chức bị buộc thôi việc theo quy định tại điểm d khoản 1 Điều 52 và khoản 1 Điều 57 của Luật này; c) Viên chức làm việc theo hợp đồng làm việc không xác định thời hạn bị ốm đau đã điều trị 12 tháng liên tục, viên chức làm việc theo hợp đồng làm việc xác định thời hạn bị ốm đau đã điều trị 06 tháng liên tục mà khả năng làm việc chưa hồi phục. Khi sức khỏe của viên chức bình phục thì được xem xét để ký kết tiếp hợp đồng làm việc; d) Do thiên tai, hỏa hoạn hoặc những lý do bất khả kháng khác theo quy định của Chính phủ làm cho đơn vị sự nghiệp công lập buộc phải thu hẹp quy mô, khiến vị trí việc làm mà viên chức đang đảm nhận không còn; đ) Khi đơn vị sự nghiệp công lập chấm dứt hoạt động theo quyết định của cơ quan có thẩm quyền. 2. Khi đơn phươ... Trách nhiệm và quyền lợi của viên chức trong đào tạo, bồi dưỡng 1. Viên chức tham gia đào tạo, bồi dưỡng phải chấp hành nghiêm chỉnh quy chế đào tạo, bồi dưỡng và chịu sự quản lý của cơ sở đào tạo, bồi dưỡng. 2. Viên chức được cử tham gia đào tạo, bồi dưỡng được hưởng tiền lương và phụ cấp theo quy định của pháp luật và quy chế của đơn vị sự nghiệp công lập; thời gian đào tạo, bồi dưỡng được tính là thời gian công tác liên tục, được xét nâng lương. 3. Viên chức được đơn vị sự nghiệp công lập cử đi đào tạo nếu đơn phương chấm dứt hợp đồng làm việc hoặc tự ý bỏ việc phải đền bù chi phí đào tạo theo quy định của Chính phủ.
    hành vi nào sau đây không thuộc hành vi bị nghiêm cấm về cư trú Các hành vi bị nghiêm cấm về cư trú 1. Cản trở công dân thực hiện quyền tự do cư trú. 2. Lạm dụng việc sử dụng thông tin về nơi thường trú, nơi tạm trú làm điều kiện để hạn chế quyền, lợi ích hợp pháp của công dân. 3. Đưa, môi giới, nhận hối lộ trong việc đăng ký, quản lý cư trú. 4. Không tiếp nhận, trì hoãn việc tiếp nhận hồ sơ, giấy tờ, tài liệu, thông tin đăng ký cư trú hoặc có hành vi nhũng nhiễu khác; không thực hiện, thực hiện không đúng thời hạn đăng ký cư trú cho công dân khi hồ sơ đủ điều kiện đăng ký cư trú; xóa đăng ký thường trú, đăng ký tạm trú trái với quy định của pháp luật. 5. Thu, quản lý, sử dụng lệ phí đăng ký cư trú trái với quy định của pháp luật. 6. Tự đặt ra thời hạn, thủ tục, giấy tờ, tài liệu, biểu mẫu trái với quy định của pháp luật hoặc làm sai lệch thông tin, sổ sách, hồ sơ về cư trú. 7. Cố ý cấp hoặc từ chối cấp giấy tờ, tài liệu về cư trú trái với quy định của pháp luật. 8. Lợi dụng việc thực hiện quyền tự do cư trú để xâm phạm lợi ích của Nhà nước, quyề... Quản lý tài sản của người vắng mặt tại nơi cư trú 1. Theo yêu cầu của người có quyền, lợi ích liên quan, Tòa án giao tài sản của người vắng mặt tại nơi cư trú cho người sau đây quản lý: a) Đối với tài sản đã được người vắng mặt uỷ quyền quản lý thì người được uỷ quyền tiếp tục quản lý; b) Đối với tài sản chung thì do chủ sở hữu chung còn lại quản lý; c) Đối với tài sản do vợ hoặc chồng đang quản lý thì vợ hoặc chồng tiếp tục quản lý; nếu vợ hoặc chồng chết hoặc mất năng lực hành vi dân sự, có khó khăn trong nhận thức, làm chủ hành vi, bị hạn chế năng lực hành vi dân sự thì con thành niên hoặc cha, mẹ của người vắng mặt quản lý. 2. Trường hợp không có những người được quy định tại khoản 1 Điều này thì Tòa án chỉ định một người trong số những người thân thích của người vắng mặt tại nơi cư trú quản lý tài sản; nếu không có người thân thích thì Tòa án chỉ định người khác quản lý tài sản.
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.COSINE",
        "triplet_margin": 0.5
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 4
  • num_train_epochs: 4
  • fp16: True
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 4
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 4
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step Training Loss
2.0 500 0.0636
4.0 1000 0.0031

Framework Versions

  • Python: 3.11.13
  • Sentence Transformers: 4.1.0
  • Transformers: 4.52.4
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.8.1
  • Datasets: 3.6.0
  • Tokenizers: 0.21.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

TripletLoss

@misc{hermans2017defense,
    title={In Defense of the Triplet Loss for Person Re-Identification},
    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
    year={2017},
    eprint={1703.07737},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}
Downloads last month
4
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Savoxism/Multilingual-e5-base-SFT

Finetuned
(107)
this model

Papers for Savoxism/Multilingual-e5-base-SFT