Chắc nhiều người sẽ thắc mắc “trích xuất Domain từ Url để làm gì ?“. Nếu mọi người mà làm về SEO hay lĩnh vực phân tích dữ liệu kỹ thuật số, thì việc cần lấy các Domain từ nhiều Url khác nhau là việc thường gặp phải.
Giờ nếu bạn có 1 danh sách URL cần trích xuất chỉ lấy Domain thôi thì bạn sẽ làm thế nào? Copy domain từ từng URL đó? Nhiều lên đến hàng trăm URL thì biết làm đến bao giờ nhỉ ? Và chính mình đã gặp trường hợp như thế nên mình mới nghĩ đến “Sao không dùng Google Sheet để trích xuất hàng loạt?” Và giờ có bài này đây.
- Check link lỗi 404 hàng loạt bằng Google Sheet
- Hướng dẫn điền bảng chữ cái tự động theo thứ tự trong Google Sheet
Ok, làm nhảm vậy thôi, chúng ta bắt đầu nào ^^!
Mình sẽ bỏ qua phần tìm kiếm và thay thế trong Google Sheet, vì phần đó chỉ mang tính giới thiệu thôi, chứ áp dụng thực tế với bài này thì lại là không hiệu quả.
Ở bài này mình sẽ hướng dẫn các bạn cách sử dụng hàm thay thế Regex.
Hàm REGEXREPLACE
Làm hàm thay thế một phần của một chuỗi văn bản bằng một chuỗi văn bản khác bằng cách sử dụng biểu thức chính quy.
Cú pháp:
REGEXREPLACE(văn_bản; biểu_thức_chính_quy; thay_thế)
- văn_bản – Văn bản, một phần của văn bản này sẽ được thay thế.
- biểu_thức_chính_quy – Biểu thức chính quy. Tất cả trường hợp phù hợp trong văn_bản sẽ được thay thế.
- thay_thế – Văn bản sẽ được chèn vào văn bản gốc.
Và đây là công thức chúng ta cần:
=REGEXREPLACE(A2;"http\:\/\/|https\:\/\/|\/.*|\?.*|\#.*";"")
Lưu ý: Nếu Google Sheet bạn đang để ngôn ngữ khác ngoài tiếng Việt thì sửa lại dấu ";" thành dấu "," nhé.
Điền công thức trên vào cột B với các tên miền đã được chuẩn bị sẵn ở cột A ta sẽ được:
Giải thích:
Regexreplace là một biểu thức chính quy khớp với các kỹ tự cụ thể. Và sau đó thay thế chúng bằng các ký tự mới.
Với công thức trên, chúng ta sẽ xóa http://, https:// và các truy vấn như tham số UTM đã tạo. Nó cũng loại bỏ dấu gạch chéo sau tên miền cấp cao nhất (.com, .org, …). Cùng với loại bỏ tất cả các ký tự sau đó.
Ví dụ:
https://congvietit.com/facebook-marketing/ : Các ký tự gạch ngang sẽ bị loại bỏ.
Trích xuất Domain gốc từ URL
Sau khi áp dụng công thức trên, bạn có thể thấy chúng ta vẫn còn lại www. , blog. , tool. và nếu bạn muốn loại bỏ các subdomain này thì chúng ta cần chỉnh sửa lại 1 chút biểu thức chính quy:
=REGEXREPLACE(A2;"http\:\/\/|https\:\/\/|www\.|tool\.|\/.*|\?.*|\#.*";"")
Xem ảnh:
Ngoài ra bạn có thể thêm nhiều ký tự hơn và xóa subdomain nếu muốn tùy thuộc vào trang web của bạn chứa subdomain gì. Nó có thể là api. , forum. , dev. , images. , và nhiều hơn nữa.
Trích xuất tên miền cao cấp nhất từ 1 URL
Trong 1 số trường hợp bạn chỉ cần những tên miền như .com, .net, .com.vn và các tên miền tương tự. Thì lúc này cú pháp sẽ đơn giản và ngắn gọn hơn nhiều, với cách này sẽ xóa luôn cả subdomain, domain gốc và các tham số truy vấn phía sau.
Công thức:
=REGEXREPLACE(A2;".*\.|\/.*";"")
Kết quả:
Video hướng dẫn chi tiết
Đang cập nhật ….
File mẫu
Tải file mẫu ở đây:
Kết luận
Chẳng ai thích làm bằng tay mọi thứ cả, nó thực sự mất thời gian, và làm đi làm lại 1 việc sẽ dễ tạo ra sự nhàm chán. Nên nếu có cơ hội để có thể tự động, tối ưu công việc, thì sao ta không nắm bắt và thực hiện nó. Đừng lãng phí thời gian để làm những việc không quan trọng. Hãy tập trung vào những nhiệm vụ quan trọng hơn của bạn. Hãy kiên nhẫn trong việc thực hiện tối ưu và tự động hóa công việc của bạn. Rồi cuối cùng thì nó cũng có thể mở rộng và mang lại lợi ích rất lớn cho bạn.