31 C
Hanoi
Thứ Sáu, Tháng Ba 29, 2024
spot_img

Trích xuất Domain từ Url hàng loạt với Google Sheet

Truy cập:

Chia sẻ:

Chắc nhiều người sẽ thắc mắc “trích xuất Domain từ Url để làm gì ?“. Nếu mọi người mà làm về SEO hay lĩnh vực phân tích dữ liệu kỹ thuật số, thì việc cần lấy các Domain từ nhiều Url khác nhau là việc thường gặp phải.

Giờ nếu bạn có 1 danh sách URL cần trích xuất chỉ lấy Domain thôi thì bạn sẽ làm thế nào? Copy domain từ từng URL đó? Nhiều lên đến hàng trăm URL thì biết làm đến bao giờ nhỉ ? Và chính mình đã gặp trường hợp như thế nên mình mới nghĩ đến “Sao không dùng Google Sheet để trích xuất hàng loạt?” Và giờ có bài này đây.

Ok, làm nhảm vậy thôi, chúng ta bắt đầu nào ^^!

Mình sẽ bỏ qua phần tìm kiếm và thay thế trong Google Sheet, vì phần đó chỉ mang tính giới thiệu thôi, chứ áp dụng thực tế với bài này thì lại là không hiệu quả.

Ở bài này mình sẽ hướng dẫn các bạn cách sử dụng hàm thay thế Regex.

Hàm REGEXREPLACE

Làm hàm thay thế một phần của một chuỗi văn bản bằng một chuỗi văn bản khác bằng cách sử dụng biểu thức chính quy.

Cú pháp:

REGEXREPLACE(văn_bản; biểu_thức_chính_quy; thay_thế)
  • văn_bản – Văn bản, một phần của văn bản này sẽ được thay thế.
  • biểu_thức_chính_quy – Biểu thức chính quy. Tất cả trường hợp phù hợp trong văn_bản sẽ được thay thế.
  • thay_thế – Văn bản sẽ được chèn vào văn bản gốc.

Và đây là công thức chúng ta cần:

=REGEXREPLACE(A2;"http\:\/\/|https\:\/\/|\/.*|\?.*|\#.*";"")
Lưu ý: Nếu Google Sheet bạn đang để ngôn ngữ khác ngoài tiếng Việt thì sửa lại dấu ";" thành dấu "," nhé.

Điền công thức trên vào cột B với các tên miền đã được chuẩn bị sẵn ở cột A ta sẽ được:

Trích xuất Domain từ Url hàng loạt với Google Sheet - Congvietit.com

Giải thích:

Regexreplace là một biểu thức chính quy khớp với các kỹ tự cụ thể. Và sau đó thay thế chúng bằng các ký tự mới.

Với công thức trên, chúng ta sẽ xóa http://, https:// và các truy vấn như tham số UTM đã tạo. Nó cũng loại bỏ dấu gạch chéo sau tên miền cấp cao nhất (.com, .org, …). Cùng với loại bỏ tất cả các ký tự sau đó.

Ví dụ:

https://congvietit.com/facebook-marketing/ : Các ký tự gạch ngang sẽ bị loại bỏ.

Trích xuất Domain gốc từ URL

Sau khi áp dụng công thức trên, bạn có thể thấy chúng ta vẫn còn lại www. , blog. , tool. và nếu bạn muốn loại bỏ các subdomain này thì chúng ta cần chỉnh sửa lại 1 chút biểu thức chính quy:

=REGEXREPLACE(A2;"http\:\/\/|https\:\/\/|www\.|tool\.|\/.*|\?.*|\#.*";"")

Xem ảnh:

Trích xuất Domain từ Url hàng loạt với Google Sheet - Congvietit.com

Ngoài ra bạn có thể thêm nhiều ký tự hơn và xóa subdomain nếu muốn tùy thuộc vào trang web của bạn chứa subdomain gì. Nó có thể là api. , forum. , dev. , images. , và nhiều hơn nữa.

Trích xuất tên miền cao cấp nhất từ 1 URL

Trong 1 số trường hợp bạn chỉ cần những tên miền như .com, .net, .com.vn và các tên miền tương tự. Thì lúc này cú pháp sẽ đơn giản và ngắn gọn hơn nhiều, với cách này sẽ xóa luôn cả subdomain, domain gốc và các tham số truy vấn phía sau.

Công thức:

=REGEXREPLACE(A2;".*\.|\/.*";"")

Kết quả:

Trích xuất Domain từ Url hàng loạt với Google Sheet - Congvietit.com

Video hướng dẫn chi tiết

Đang cập nhật ….

File mẫu

Tải file mẫu ở đây:

Kết luận

Chẳng ai thích làm bằng tay mọi thứ cả, nó thực sự mất thời gian, và làm đi làm lại 1 việc sẽ dễ tạo ra sự nhàm chán. Nên nếu có cơ hội để có thể tự động, tối ưu công việc, thì sao ta không nắm bắt và thực hiện nó. Đừng lãng phí thời gian để làm những việc không quan trọng. Hãy tập trung vào những nhiệm vụ quan trọng hơn của bạn. Hãy kiên nhẫn trong việc thực hiện tối ưu và tự động hóa công việc của bạn. Rồi cuối cùng thì nó cũng có thể mở rộng và mang lại lợi ích rất lớn cho bạn.

5 1 đánh giá
Đánh giá
Công Việt Blog
Công Việt Bloghttps://congvietit.com
Chào các bạn, mình là Công Việt, mình đến từ kênh Youtube Công Việt Blog. Blog này hiểu đơn giản mình viết những thứ mình học được, áp dụng được và cung cấp những tài nguyên mà mình sử dụng, cũng là nơi để mình lưu trữ tài nguyên. Phần "Thành viên VIP" với gói chỉ 50k để giúp mình duy trì website mà thôi, hi vọng được sự ủng hộ của các bạn.
Theo dõi
Thông báo về
guest
0 Bình luận
Inline Feedbacks
View all comments
banner quang cao hostinger-congvietblog-congvietit
ma giam gia khi mua hosting vps congvietitcom

Bài viết liên quan

10 lầm tưởng về SEO mà bạn nên thay đổi

SEO đang phát triển với tốc độ nhanh chóng với những tiến bộ mới hơn của công nghệ....

Các yếu tố viết nội dung (content) cực chất cho Newbie (người mới)

Content hay tiếng Việt còn gọi là Nội Dung. Có thể là nội dung của 1 bài chia...

10 chỉ số SEO thực sự quan trọng (và 4 chỉ số không quan trọng)

Số liệu SEO là các chỉ số giúp bạn hiểu liệu SEO của bạn có đang hoạt động...

Cách đổi định dạng ngày tháng năm sang Thứ trong tuần bằng Google Sheet

Nếu bạn đang xử lý các tập dữ liệu lớn có ngày tháng và muốn đổi tương ứng...
0
Hãy cho mình xin 1 bình luận nha bạn yêu !!!x
Trang trí đón tết cho blog/website bằng hình ảnh câu đối, cành mai Trang trí đón tết cho blog/website bằng hình ảnh câu đối, cành mai